Transformerと比較し、GPU当たり最大475倍の出力トークン数を持つ新アーキテクチャを開発

2026年6月24日

大規模言語モデルの大幅なコスト削減を達成するアーキテクチャを実現

当社は、大規模言語モデルの大幅なコスト削減を実現するアーキテクチャである「Parallel Hierarchical Operation for TOp-down Networks（以下、PHOTON）」（フォトン）を開発いたしました。PHOTONは現在、大規模言語モデルの主流の基盤アーキテクチャであるTransformerの最大475倍のマルチクエリー性能（注1）を発揮します。この圧倒的なマルチクエリー性能とマルチクエリー統合技術を組み合わせることで従来のTransformerよりも高い性能をより少ないGPUリソースで実現することが可能になります。

背景

近年、生成AIの推論時により長く・多く思考をさせることにより、性能を向上させることが可能であることが示され、その実用化が急速に進んでいます。一方で、現在主流のTransformerでは、入力が長くなったり、同時に多くの問い合わせを処理したりすると、過去の情報を保持するためのメモリアクセスが増え、処理速度が落ちやすいという課題がありました。特に、長い文書を扱う場合や、多数のユーザーからの同時利用がある場合には、この課題が顕著になります。PHOTONでは、マルチエージェントのような複数の入出力を必要とする処理を低コストで効率的に処理することが可能になり、GPUコストの削減に貢献します。

今回開発した技術の特徴

左：PHOTONアーキテクチャの図。階層的にエンコードする様子を示している。右：マルチクエリー統合技術の図。同じ問題に異なる複数の質問や候補を作り、その結果をまとめて最終回答を出す図。

図1.(1) 入力トークンを統合して意味単位で処理することにより大幅に計算リソースを削減。(2) 入力問題を異なる複数のクエリーに分解し、出力を統合することで最終回答の正解率を向上

（1）トークン単位ではなく、意味単位で階層的に処理するPHOTONアーキテクチャ

通常のTransformerと呼ばれるアーキテクチャは文章を細かな数文字（トークン）に分解し、それぞれすべての関係を計算します。一方で、PHOTONは文章を意味のまとまりとして捉え、階層的に処理することで計算量を削減する仕組みです。さらに、複数の文章を同時に処理することで、GPUあたり最大475倍の計算効率を発揮します。

（2）大量の出力を統合することで性能を向上する「マルチクエリー統合技術」

マルチクエリー統合技術は、同じ問題に対して少しずつ異なる複数の質問や候補を作り、その結果をまとめて最終的な答えを決める技術です。PHOTONでは、多数決や最も良い候補を選ぶ方法などで結果を統合することで、1回の推論だけで、より安定した高い性能を実現します。

数値実験の結果、PHOTONは600M、900M、1.2Bパラメータの各モデルサイズにおいて、従来のTransformerと比較して、メモリ使用量を抑えながら高い生成スループットを実現しました。特に、1.2Bパラメータモデルでは、わずかな性能劣化と引き換えに従来のTransformerと比べて約475倍のマルチクエリー計算能力を実現しました。さらに、PHOTONでは1回あたりの生成に必要なKVキャッシュ使用量が小さいため、同じGPUメモリ予算内で複数の生成結果を並列に得ることができます。検証ではわずか9クエリーを統合することで従来のTransformerと同水準の性能を実現しました。

今後について

今回開発した技術の成果は、7月2日から米国サンディエゴで開催される自然言語分野におけるトップカンファレンスThe 64th Annual Meeting of the Association for Computational Linguistics（ACL 2026）のオーラルセッションにて発表予定です。また今後、大量のGPUリソースを必要とする生成AI技術の効率を飛躍的に高め、消費電力やコストを大幅に削減することで膨大なAIに対する需要に対する環境的・ビジネス的な持続可能性を実現します。