世界的AI研究者が明かす、AIエージェント実用化を加速するブレイクスルー AIエージェントの「協調・記憶・品質」を革新する富士通の挑戦
Article | 2025年12月1日
2025年は「AIエージェント元年」と呼ばれ、技術自体が注目される一方で、実際の導入にはまだ多くの壁があります。MITのレポート[1]では、AIが状況を正しく理解できず、作業の流れが不安定になりやすいことが大きな失敗要因だと指摘されています。ガートナー[2]も同様に、複雑なシステム設計やデータ管理、セキュリティの問題が導入を難しくしていると警鐘を鳴らします。そして、MongoDBによる分析[3]では、マルチエージェント間の協調不足やメモリ管理の不具合、システム構造の不整合が要因でトラブルが連鎖し、実に40%から80%の導入事例に影響しているという厳しい現実を示しています。
富士通では、人と協調して自律的に高度な業務を推進するAIエージェントの研究開発をいち早く開始[4]しており、その研究開発活動を通して、これらの課題に対処するためには3つの根本的なギャップを埋める技術が求められると考えています。具体的には、複数のエージェントがスムーズに協力できるようにする「協調」、文脈を途切れさせずに情報を保持する「記憶」、ルーティングを最適化して信頼性の高い出力を保証する「品質」です。本記事では、富士通研究所の小橋が、これらのギャップに挑む最先端の研究を、研究論文の著者へのインタビューを交えて紹介します。
AIエージェント間の「協調」を支える「Agent Data Protocol」
多様なタスクをこなすマルチAIエージェントが協調して動作するためには、それぞれのエージェントが十分に学習されていることが欠かせません。しかし現状では、その学習の要となる「高品質な教師ありファインチューニング用データ」が不足しており、エージェントの性能向上を大きく妨げる要因となっています。
この課題に挑む画期的なアプローチが「Agent Data Protocol」[5]です。Agent Data Protocolの概念図を下図に示します。各種エージェントデータセットからRaw Data(生データ)を受け取り、Agent Data Protocolで統一的に定義されるAction(行動)とObservation(出力)に基づき処理が行われ、そのTrajectory(履歴)が保存されます。このように様々なデータセットを標準化し、様々なエージェントデータセットを標準化し、すぐに学習に使える形に整えることで、強化学習に入る前の準備段階を大幅に効率化します。すでに160万件を超える学習インスタンスを備えたデータセットも公開されており、誰もがエージェントを十分に鍛えた状態で強化学習に臨めるようになります。
本章では、この課題に挑む「Agent Data Protocol」の詳細について、その論文著者であるNeubig教授にお話を伺いました。
――企業へのAIエージェント導入における課題と解決策についてお伺いします。特に、既存システムとの統合や複雑性が懸念されますが、どのような技術的・組織的障壁が予想されますか?
Neubig教授: 企業へのAIエージェント導入は、多くの面で非常に困難です。最大の理由は、企業が保有するデータが一般に公開されておらず、既存の大規模言語モデルの学習データに含まれていないことにあります。しかし、ここでAgent Data Protocolは非常に役立ちます。このプロトコルに沿って、企業固有のデータセットを作成し、既存の汎用データセットと組み合わせることで、特定の企業データに偏りすぎることなく、エージェントの精度を向上させることができます。これにより、貴重な企業データを活用しつつ、汎用性を保ったAIエージェントを育成することが可能になります。もちろん、セキュリティのような他の課題も解決する必要がありますが、これは大きな前進と言えるでしょう。
――マルチエージェントシステムはチャットの15倍ものトークンを使用すると言われています。Agent Data Protocolを用いたAIエージェントの学習において、コスト効率や計算リソースの観点から、解決すべき技術的課題はありますか?
Neubig教授: 学習コストと推論コストの2つがあります。学習コストはそこまで高くなく、例えば320億パラメータのモデルであれば、2台のH100マシンで約4日間あれば学習可能です。これは他の多くのタスクと比較しても特別に高額なわけではありません。さらに重要なのは、一度十分に学習させたエージェントの知識を、より小さなモデルに転移させて利用できる点[6]です。これにより、APIベースのモデルを使うよりも最大で10倍もコスト効率が向上につながる可能性があります。Agent Data Protocolは、この大幅なコスト効率の改善を実現するための重要な基盤を提供します。
――Agent Data Protocolが業界標準として広く普及するために必要な条件や要件、そして研究コミュニティと業界が取り組むべき課題についてお聞かせください。
Neubig教授:まず、私たちはこのプロトコルを積極的にアピールし続ける必要があると考えています。研究プロジェクトは論文を発表するとそこで終わってしまうことが多いのですが、新しいエージェント学習データセットが登場するたびに、それをAgent Data Protocolに変換することや、他機関との連携を強化することが重要です。さらに、まだ着手していない重要な課題として、マルチモーダルデータへの対応があります。現在、これに取り組んでおり、実現すれば、多くのユースケースで大きな違いを生み出すでしょう。これらが、プロトコルを広く普及させるための鍵となると考えます。
AIエージェントの「記憶」を深化させる「Embodied RAG」
AIエージェントにとって記憶機構は、文脈の一貫性を保ち、情報損失を防ぐうえで欠かせません。本章では、物理的な環境における記憶を効率的に活用するための画期的なアプローチ「Embodied RAG(Retrieval-Augmented Generation)」[7]について、その論文著者であるBisk教授に、その技術的な革新性について伺いました。
――まず、Embodied RAGが従来のRAGとどのように異なるのか、特に物理環境におけるメモリ管理の革新性についてお聞かせください。
Bisk教授: Embodied RAGと従来のRAGの最も根本的な違いは、「意味単位の定義」と「関連性判断の方法」にあります。従来のRAGは文書内の単語の類似性に基づいて情報を取得しますが、Embodied RAGが対象とする物理環境では、オフィス内のラグや植物といった物理オブジェクトに対して、どのように類似性を定義するかが明確ではありません。たとえば、「今日職場まで来た道のり」という経験は、複数の要素が複合的に蓄積されたもので、言語のように特定の文書に直接対応するわけではないのです。そのため、環境内の空間を理解し、どの情報が取得する価値があり、どの情報同士が関連性を持つのかを判断する方法が、Embodied RAGにおける最大の革新点となります。
――エージェントの意思決定を妨げる情報過多や無関係な情報の影響に対し、Embodied RAGはどのように適切な情報を選択し、関連性の高いコンテキストのみを保持するのでしょうか。
Bisk教授: この課題は、動的に変化する「文脈の関連性」をいかに理解するかに集約されます。例えば「ランチに行きたい」という要求に対して、従来のRAGではレストランの情報が返されるだけですが、Embodied RAGでは、次の会議までの時間や移動距離、今日の天気(雨が降っているかなど)、さらにユーザーが車椅子を利用しているかといった、多様な環境要因や個人の状況を考慮する必要があります。これらの要因は情報の関連性を常に変化させ、エージェントの計画や行動に影響を与えます。大規模言語モデルが空間関係の理解に弱いという証拠も多く、人間が行うような「常識的推論」に基づき、リアルタイムの情報で柔軟に重み付けを調整することが重要です。さらに、視覚情報だけでなく、混雑状況などのテキスト補足情報も推論の精度を高める役割を果たします。
――マルチエージェント環境における共有メモリについて、Embodied RAGは複数のエージェントが同じ環境で動作する際、メモリをどのように共有・管理し、一貫性を保つのでしょうか。
Bisk教授: これは現在取り組んでいる分野ですが、理想的には各エージェントが独自のRAGデータベースを持ち、「選択的に」情報を共有することだと考えています。集中型メモリでは、エージェントがオフラインになったりサービスが不安定になったりすると、一貫性を保つことが難しくなります。例えば、ショッピングモールで買い物をする二人を想像してください。互いすべての記憶を共有するのではなく、「フードコートを見つけた」「靴屋を見つけた」といったタスクに関連する情報のみを共有することで、相手は「スパースなグラフ」、つまり、必要な情報に基づいてモデルを効率的に更新できます。エンティティマッチングや、エージェントがいつ情報を共有すべきかを自律的に判断する能力が、この仕組みの鍵となるでしょう。
――環境の変化や予期しない状況に対し、Embodied RAGはメモリをどのように更新・適応させるのでしょうか。脆弱なワークフローが失敗の要因とされていますが、動的な環境への適応についてお聞かせください。
Bisk教授: 動的な環境に対応するためには、「記憶に対する信頼性推定」と「不確実性の定量化」が不可欠です。たとえば、建物や壁の場所は信頼性が高い記憶ですが、コーヒーカップの位置は変化しやすく信頼性が低くなります。人間はこれを常識的に判断しますが、エージェントにも同様に、記憶の減衰や不確実性に基づいて、何がまだ真実であるかを判断する能力が必要です。これにより、エージェントは助けを求めたり、計画を短くしたりと、より慎重に行動するようになります。また、物理的なミスは取り返しの付かないことがあるため、ある程度のリスクレベルを超えた場合は、人間の介入を求める「ヒューマン・イン・ザ・ループ」の仕組みも重要になってきます。エージェントは協力者として、曖昧な指示にはう要因には行動しない姿勢も必要です。
――Embodied RAGをエンタープライズ環境に実装する際の技術的複雑さと、実用化に向けて解決すべき主要な課題は何だとお考えですか?
Bisk教授: エンタープライズ環境への実装は、「悪魔は細部に宿る」という言葉通り、とても複雑です。物理環境における最大の課題は、曖昧さや動的な性質、マルチエージェント性といった現実世界の詳細から目を背けられない点です。デバイスの電力供給、ローカルコンピューティングの限界、通信障害など、実践的な課題も山積しています。たとえば、工場では数十台のカメラと多様なロボットが存在し、単一の集中型データベースでこれらすべてを管理するのは現実的ではありません。私は、各エージェントが独自のメモリを持ち、必要に応じて「選択的に」情報を共有する分散協調型メモリの方向性が望ましいと思います。これにより、完全な通信や持続的な電力供給の要件が緩和され、プライバシー保護にもつながります。人間中心のアプローチで、エージェントが人間の仕事を支援するようなシステムを目指すべきでしょう。
AIエージェントの「品質」を最大化する「Adaptive LLM Routing」
多数のLLMモデルが提案されている現在、ユーザーの志向に合わせて、AIエージェントが最適なLLMを選択しルーティングする技術は、品質を担保する観点で重要です。特にService Level Agreementなどで契約として満たすべき性能が決められている場合に、どのように違反を起こさないようにシステムとして運用していくかは非常に難しい課題です。本章では、そのための画期的なアプローチ「Adaptive LLM Routing」[8]について、その論文著者であるChaitanya研究員に、その技術的な革新性について伺いました。
――この技術の要点と、それが解決する課題についてお聞かせいただけますか?
Chaitanya: Adaptive LLM Routingとは、ユーザーの問い合わせ内容に応じて、最適な大規模言語モデル(LLM)を自動で選び、さらにその判断をユーザーからのフィードバックに基づいて継続的に改善していく仕組みです。例えば、カスタマーサービスのチャットボットで「営業時間は?」といった単純な質問には軽量なモデルで十分ですが、複数のスマートフォンモデルを比較する複雑な問い合わせには、高度な推論能力を持つモデルが不可欠です。この最適な選択を、いかに自動的かつ効率的に行うかが課題でした。私たちはこの問題を「バンディット学習」として捉え直し、各モデルの性能を網羅的に評価しなくても、システムが学習できる道を切り開きました。
――実際のLLM導入では、予算、応答速度、品質など、多様な制約が絡み合います。これらの制約をどのように適応的にクリアし、技術的にはどうアプローチするのか、詳しくお聞かせください。
Chaitanya: これは、現実のシステム運用における最大の難所の一つです。品質だけ、あるいはコストだけを追求するのではなく、複数の目的を同時に最適化するバランス感覚が求められます。私たちはこれを「オンラインコストポリシー」という手法で実現しています。例えば、1万件のクエリを100のグループに分け、それぞれのグループに予算を割り当てます。あるグループで使わなかった予算は、次のグループへと繰り越されます。これにより、システムは簡単なクエリではコストを抑え、一方で品質が特に重要となる複雑なクエリには、より多くのコストを投入するといった柔軟な運用が可能になります。
――実際の環境では、モデル性能に関する完全な情報や、正しい評価が常に手に入るわけではありません。ユーザーの好みやニーズの変化に、システムはどのように適応し、学習していくのでしょうか?そこで、バンディットフィードバックが果たす役割は何ですか?
Chaitanya: まさにその点こそ、私たちがルーティングを「文脈付きバンディット問題」として捉え直した核心です。従来の教師あり学習では、すべての事例に対して「正解」が必要ですが、これは膨大なコストがかかるうえ、ユーザーニーズの変化に柔軟に対応できません。バンディットフィードバックでは、システムは自身が選択した応答からのみ学習します。例えば、ルーターが高性能モデルを選び、それがユーザーから「良い」と評価されれば、他のモデルの性能を知る必要なく、その選択が正しかったと学習します。これにより、ユーザーのニーズが常に移り変わる現実世界で、実用的な適応学習が可能になるのです。
――ルーティングにおいて、高価でパワフルなモデルを使うべきか、あるいはより手頃なモデルで十分か、という判断は非常に重要です。システムは、この品質とコストのバランスをどのように賢く見極めるのでしょうか?
Chaitanya: その賢さは、私たちが「共有埋め込み空間」と呼ぶ、クエリとLLMそれぞれの特徴を同一空間にマッピングする技術に基づいています。システムは、クエリとモデルの距離が、両者の適合度合いを反映するように学習します。例えば、人間が複雑な推論タスクで一貫して高性能モデルを好む場合、システムはその高性能モデルを、そういった複雑なクエリの近くに配置するよう学習するのです。これにより、システムはクエリの難易度を正確に評価し、そのタスクに最適な能力を持つモデルを適切に選択できるようになります。
――最後に、エンタープライズ環境でAdaptiveルーティングが広く普及するための主な課題は何だとお考えですか?静的なモデル選択から動的なルーティングシステムへ移行する際、企業が留意すべき技術的なハードルや実装上の考慮事項があれば教えてください。
Chaitanya: いくつか重要な点が挙げられます。現時点での研究はシングルターンの会話に主眼を置いていますが、現実のエンタープライズ用途ではマルチターンの対話が多く、文脈維持などが今後の課題です。一方で、ルーティング判断にかかる時間は0.065~0.239秒とごく短く、計算負荷は無視できるレベルです。また、季節変動や新製品投入によるクエリパターンの変化にも、システムが自動で適応する能力は極めて有用です。企業は、固定コストではなく、インテリジェントな予算配分を信頼する思考への転換が求められます。
AIエージェントの実践的な評価を導く「FieldWorkArena」ベンチマーク
上記で紹介した技術は、協調、記憶、品質という3つの重要なギャップに対する有望なソリューションです。しかしその有効性については、実際のユースケースに則った厳密なベンチマーク検証により実証される必要があります。特に現行のベンチマークは狭義のタスクに焦点を当てることが多く、企業向けAIエージェント導入にとって求められる 複雑性、統合要件、セキュリティ制約を十分に満たしていません。
このため、企業間のコラボレーションを通して企業向けベンチマークを収集することが不可欠です。研究者や企業実務者、技術開発者の知識を集結させることで、現実の課題を反映した評価フレームワークを構築し、異なる技術的アプローチに対しても効果的に比較できるようになります。
富士通では、現実の企業タスクにおけるAIエージェントを評価するための包括的なベンチマークスイート「FieldWorkArena」[9]を構築しております。このベンチマークでは、協調、記憶、品質のそれぞれにおいて標準化された評価指標を提供しています。
ワークショップ開催のお知らせ:AIエージェントの未来を共創する
企業向けベンチマークの需要の高まりを踏まえ、富士通、カーネギーメロン大学(CMU)、慶應義塾大学は、40周年を迎える著名な国際学会であるAAAI(Annual AAAI Conference on Artificial Intelligence)において、ワークショップ「Agentic AI Benchmarks and Applications for Enterprise Tasks」[10]を主催いたします。このワークショップの目的は、複雑で動的な企業運営において堅牢で効率的、かつ信頼性の高いエージェント型AI技術を構築するために必要な議論と連携を促進し、最先端のエージェント型AI研究と企業の実務的ニーズとの間のギャップを埋めることです。
本ワークショップでは、研究者、企業実務者、技術開発者が一堂に会し、企業環境における多様な業務プロセスを網羅する様々なベンチマークを議論します。またエージェント型AI研究を実際の業務に適用した事例も共有されます。このコラボレーションにより、参加者は企業向けベンチマークの開発、標準化、進化に注力するコミュニティを構築し、分野の発展と共に成長する共有財産を創出します。
公式サイト[11]から登録することで、現地もしくはオンライン(聴講のみ)でご参加いただけます。皆様のご参加を心よりお待ちしております。
関連リンク
グラム・ニュービッグ (Prof. Graham Neubig)
カーネギーメロン大学
コンピュータサイエンス学部
准教授
多言語NLPと機械翻訳、AIエージェントを専門とする研究者。NeuLabを率い、翻訳・対話・コード生成など広範な言語技術の研究開発に取り組む。
ヨナタン・ビスク (Prof. Yonatan Bisk)
カーネギーメロン大学
コンピュータサイエンス学部
助教授
言語と行動の橋渡しをテーマに、ロボティクスやマルチモーダルAIを研究。自然言語理解と実世界環境を結ぶエンボディドAIの研究者。
チャイタニャ・デヴァグプタプ (Chaitanya Devaguptapu)
インド富士通研究所 人工知能研究所
生成AIとLLMベースのエージェントを専門、マルチモーダル学習とコンピュータビジョンに精通。IITハイデラバード校でリサーチ修士号取得、トロント大学客員研究員。
小橋博道
富士通株式会社 人工知能研究所
シニアプロジェクトディレクター
富士通研究所のグローバルチーム(日米印)を率い、自律的で持続的なマルチAIエージェント技術を研究開発。