Perplexity(パープレキシティ)とは、自然言語処理や大規模言語モデル(LLM)の性能を評価するための指標の一つです。
言語モデルがテキストを生成する際、次に出現する単語を予測する確率分布に基づき算出されます。
具体的には、テスト用のテキストデータを与えたときに、モデルがどれくらい正確にそのテキストを予測できるかを示します。
値が小さいほど、モデルが次の単語を正確に予測できていることを意味し、言語モデルの性能が高いと評価されます。
逆に、値が大きい場合は、モデルが次の単語の予測に迷っている状態を示し、性能が低いと判断されます。
Perplexityの計算は、情報理論における交差エントロピーを底をネイピア数とした指数関数で変換することによって行われます。
モデルの開発や調整の段階において、異なるモデル間の性能を比較したり、学習の進捗を確認したりするための定量的な基準として用いられます。
ただし、Perplexityはテキストの流暢さや単語の予測精度を評価するものであり、生成された文章の事実性や倫理的な妥当性を保証する指標ではありません。
Perplexityについてよくある質問
Perplexityとは何ですか?初心者にもわかりやすく教えてください。
Perplexityとは、AIが文章を作るときに、次の単語の候補を平均して何個に絞り込めているかを示す数値のことです。
たとえば、あるAIのPerplexityの数値が10であったとします。
これは、AIが文章を作成する過程で、平均して10個の単語の中から次の単語を一つ選んでいる状態を意味します。
数値が小さければ小さいほど、単語の候補数が少なくなるため、AIが的確に次の単語を予測できていると判断できます。
つまり、AIが文章を作成する際に、どれくらい迷わずに言葉を出力できるかを測るための目安となる数字です。
Perplexityの数値を比較する際に注意すべき点はありますか?
Perplexityを比較する場合は、同じ条件で計算された数値同士を比較する必要があります。
言語モデルごとに使用している語彙の単位や、テストに使用するテキストデータが異なる場合、計算される数値の基準が変わってしまいます。
そのため、A社のモデルとB社のモデルのPerplexityを単純に比較して、どちらが優れているかを判断することはできません。
また、Perplexityが低いモデルであっても、必ずしも人間の意図に沿った回答を出力するとは限らない点にも留意が必要です。
モデルの総合的な性能を測るためには、ほかの評価方法と組み合わせることが推奨されます。
Perplexity以外の言語モデルの評価方法にはどのようなものがありますか?
用途や目的に応じて、複数の評価指標が使い分けられています。
機械翻訳の分野では、正解の翻訳文とモデルが出力した翻訳文の一致度を測るBLEUという指標が使われます。
文章の要約タスクでは、正解の要約文にどれだけ重要な単語が含まれているかを確認するROUGEという指標が用いられます。
近年では、AIが生成した文章の自然さや質問に対する回答の適切さを測るため、人間が実際に読んで採点する人手評価も取り入れられています。
また、計算問題や論理的推論など、特定の分野に関するテストを用いて正答率を測る方法も一般的です。
LLMO関連用語一覧
概念・戦略
AIが情報を集約して回答する時代の、新しいマーケティングの考え方です。
プラットフォーム
現在、LLMOの対象となる主要なサービス群です。
主要プラットフォーム
新興・特化型
Google関連
仕組み・基盤技術
AIが情報を理解し、回答を生成する仕組みと基盤となる技術です。
技術的な設定
AIクローラーに対する指示や情報の渡し方に関する項目です。
測定指標・効果の可視化
参考文献
ウィキペディア,パープレキシティ,https://ja.wikipedia.org/wiki/%E3%83%91%E3%83%BC%E3%83%97%E3%83%AC%E3%82%AD%E3%82%B7%E3%83%86%E3%82%A3,(アクセス日:2025.3.19)
Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu,Bleu: a Method for Automatic Evaluation of Machine Translation,2002,Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics,311-318
Chin-Yew Lin,ROUGE: A Package for Automatic Evaluation of Summaries,2004,Text Summarization Branches Out,74-81
- 独自開発のLLMO分析ツールを活用
- 国内他社にはできない詳細なAI可視性(どれだけAIに言及・推奨・引用されているか)分析が可能
- 現状のLLMO対策の課題と、優先的に取り組むべき施策がまるわかり

現在、AI検索時代への対応やLLMO対策について、お考えでしたらぜひ弊社のLLMO無料診断をご活用ください。独自開発のLLMO分析ツールを活用し詳細な分析を実施。国内企業では現状不可能な高度なAI可視性分析が可能です。主要なAI(ChatGPT, Google Ai Overviews等)における競合比較や現状のLLMO対策の課題と、優先的に取り組むべき施策の可視化をいたします。ぜひ下記よりお気軽にお問い合わせください。
お問い合わせはこちらシュワット株式会社のLLMO対策支援サービスをチェック
- 自社のLLMOを診断したい⇒「LLMO無料診断を依頼する」
- 専門家に伴走支援してほしい⇒「LLMOコンサルティングサービス」
- LLMOを動画で学びたい⇒「LLMOウェビナー」

