|
企業のAIエージェント活用における信頼性、コスト効率、拡張性を劇的に向上
|
|
|
Appier Group株式会社(本社:東京都港区、代表取締役CEO:チハン・ユー、証券コード:4180、以下 Appier)は、AIエージェントが自らの問題解決能力を客観的に判定する新フレームワーク「Capability Calibration(能力の自己判定)」に関する最新の研究論文(On Calibration of Large Language Models: From Response to Capability「大規模言語モデルのキャリブレーションについて、回答から能力の評価まで」)を発表しました。本研究は、LLM(大規模言語モデル)の課題である「過信」や「ハルシネーション(もっともらしい嘘)」に対処するものです。この定量的な自己評価メカニズムにより、AIはより信頼度の高い意思決定を行い、計算リソースを最適に配分することが可能となります。
|
|
|
|
|
|
|
Appier Group株式会社(4180) |
|
|
|
|
「回答の正確性」から「問題解決能力」の評価へ |
|
|
|
従来のLLMモデルでは、生成された個別の出力内容に対して、それがどれほど確実かという『的中率の推論』に主眼が置かれていました。しかし、出力結果には常に確率的な変動が伴うため、単一のデータポイントだけでは、モデルが備えている真のポテンシャルを正確に反映できないという課題を抱えていました。 企業の実務において重要なのは「一度の回答が正しいか」ではなく、「モデルが一貫してタスクを解決できるか」という点です。Appierの新フレームワークは、評価対象を「特定の指示に対するモデルの予想成功率」へとシフトさせることで、エンタープライズ実務に即した、より実用的かつ広範な問題解決能力の測定を可能にしました。 |
|
|
|
AIエージェントに「自らの限界を知る」ことを教える |
|
|
|
AppierのCEO兼共同創業者であるチハン・ユーは次のように述べています。 |
|
「AIエージェントは単に回答を生成するだけでなく、自らの能力の限界を理解すべきです。今回発表した『能力の自己判定』技術により、エージェントは実行前に成功率を推定し、リソースを最適化して配分することが可能になります。例えば、単純な指示を迅速に処理する一方で、複雑なタスクには自動的に強力なモデルや追加の計算リソースを割り当てます。これは、エンタープライズ水準のAIエージェントを大規模に展開する上で、不可欠な基盤となります」 |
|
|
|
■ 実験結果:低コストで「判断の適正化」を実現 |
|
|
|
本研究では、3つのLLMと7つのデータセットを用い、複数の信頼度推定手法を評価しました。 |
|
|
|
• |
|
言語化される信頼度: モデルがテキストや%で自身の信頼度を明示する手法 |
|
|
• |
|
P(True): 回答が正しい確率を生成シグナルに基づき推定する手法 |
|
|
• |
|
線形プローブ: モデルの内部信号を使用し、真に理解しているかを評価する手法 |
|
|
|
|
|
実験の結果「線形プローブ法」がコストとパフォーマンスのバランスにおいて、最も優れていることが示されました。この手法は、高い推定精度を維持しつつ、計算コストを単一トークンの生成よりも低く抑えることが可能です。 |
|
|
|
■ 主要な2つの活用シーン |
|
|
|
• |
|
pass@k 予測の最適化: 複雑なタスクの評価指標「pass@k(k回の試行で少なくとも1回正解する確率)」を、実際に何度も回答を生成せず、低コストで推定できます。 |
|
|
• |
|
推論リソースの動的配分: 予測されたタスク難易度に基づき、リソースを動的に分配します。難解な問題には試行回数を増やし、限られた予算内で解決数を最大化します。 |
|
|
|
|
|
|
|
信頼されるAIエージェントのための意思決定基盤 |
|
|
|
この技術により、AIエージェントはアクションを起こす前に「自律的に解決できるか」「外部ツールを呼び出すべきか」「人間に助けを求めるべきか」を自ら判断できるようになります。不確実な環境下でもAIシステムの信頼性を担保し、運用の安定性を高めます。 |
|
|
|
今後の展望:自律型AIの社会実装を加速 |
|
|
|
今後、Appierは本研究成果を製品機能へと昇華させ、広告やマーケティングにおける意思決定の自動化を推進します。企業のデジタル変革(DX)を支援し、真に信頼できる自律型AIの社会実装をリードしてまいります。 |
|
|
|
|
|
|
|
Appier Group株式会社 |
|
|
Appier(東証プライム:4180)は、『AIをもっとシンプルに』というビジョンのもと、2012年にAIネイティブ企業として設立。Appierの「広告クラウド」「パーソナライゼーションクラウド」「データクラウド」は、リアルタイムに思考し、自ら最適解を導く高度な自律型AIが搭載され「Agentic AI as a
Service(AaaS):自律型AIサービス」を通して、最先端の広告・マーケティング技術を提供。AIをビジネス成果(ROI)に直結させることで、顧客企業の成長を支援。現在、アジア太平洋地域、米国、欧州に17の拠点を構え、東京証券取引所上場(IR情報: https://www.appier.com/ja-jp/investor-relations-home) お問い合わせ先: Appier Group株式会社 広報担当 pr@appier.com |
|
|
「大規模言語モデルのキャリブレーションについて、回答から能力の評価まで」)を発表しました。本研究は、LLM(大規模言語モデル)の課題である「過信」や「ハルシネーション(もっともらしい嘘)」に対処するものです。この定量的な自己評価メカニズムにより、AIはより信頼度の高い意思決定を行い、計算リソースを最適に配分することが可能となります。