世界最大規模のテックイベント「CES2026」最新レポート! フィジカルAIの時代(前編)
Report |2026年1月8日
「AIの主戦場が言語(LLM)から“世界そのもの”へ移行した」
エヌビディアのフアンCEOは、CES 2026の基調講演で、象徴的な一枚のスライドとして重要なメッセージを提示した。タイトル「AI Scales Beyond LLMs」が示す通り、AIの進化軸はもはやLLM(大規模言語モデル)に留まらず、行為・物理世界・自然法則へと拡張されたことが明確に宣言されている。これは単なる技術トレンドではない。産業競争の単位が「モデル」から「世界」へ移ることを意味する。
中央に位置するのが、フィジカルAI――「PHYSICAL AI TAKES LEAP」である。AIはデジタル空間を出て、ロボットや自動運転として物理世界で転び、壊し、学ぶ段階に到達した。これは応用分野の拡大ではなく、Agentic AIと計算力、物理シミュレーションが結合した新しいAIの標準形の成立を意味する。さらに「AI LEARNS LAWS OF NATURE」は、AIが自然法則そのものを学習・探索する存在へ拡張することを示し、創薬や材料、エネルギーといった科学領域が同一基盤で扱われる段階に入ったことを示唆する。
本稿では、「AIの主戦場が言語(LLM)から“世界そのもの”へ移行した」ことの象徴としてのフィジカルAIに焦点を当てて論考していきたい。
CES2026現地で見えた「主役」——AIエージェントの次に来たもの
ラスベガスで開催されたCES2026の会場を歩きながら、私は強い既視感を覚えていた。それは「驚き」ではなく、「確認」に近い感覚だった。昨年のCES2025。最大のメガトレンドは間違いなく、エヌビディアが提示した「AIエージェント」だった。単に文章を生成するAIではなく、自ら状況を理解し、目的を設定し、複数のツールやソフトウェアを使い分けながら、タスクを完遂する。
そんな「自律的に振る舞うAI」が、一気に産業の主役へと押し上げられた年だった。そしてCES2026。会場で私が感じたのは、こういうことだった。昨年、エヌビディアがすでに提示していた“もう一つのAI”が、今年、はっきりと主役に躍り出た。それがフィジカルAIである。
これをCES2026の広大な展示場で感じたのは、そこがロボティクス・自動運転・産業用AIで埋め尽くされていたからだけではない。フィジカルAIの意義や本質が視覚的に露わになったからだ。搬送やピッキングのデモ、工場内での複数機体の協調、屋内外を跨ぐ移動と作業の統合。個体性能の競争とともに、「空間の秩序」を見せる展示も目立った。
フィジカルAIとは何か
フィジカルAIとは何か。専門用語を避けて言えば、こう定義できる。フィジカルAIとは、物理世界を理解し、その中で判断し、実際に行動するAIである。文章を書くだけのAIではない。画面の中で完結するAIでもない。ロボットが物を掴む。自動運転車が交差点を判断する。工場で複数の設備が協調して動く。
こうした「現実世界への介入」そのものを担うAIだ。重要なのは、単にロボットが賢くなった、という話ではないという点である。
なぜCES2026で「フィジカルAI」が主役になったのか
ロボットも、自動運転も、工場の自動化も、決して新しいテーマではない。ではなぜ、いま改めて「フィジカルAI」という言葉がこれほどの存在感を放ち始めたのか。理由は明確だ。これまで別々に語られてきたものが、ひとつの構造として“つながってしまった”からである。昨年のAIエージェントは、「知的判断」を自律化した。今年のフィジカルAIは、その知的判断が 物理世界に接続された状態 を示している。判断だけで終わらない。行動まで含めて完結する。失敗と学習を繰り返す。
この段階に入ったことで、AIは「便利なツール」から産業構造を変える主体へと質的に変わった。
ロボット・自動運転・工場は、もはや別の話ではない
CES2026の展示を見ていて、もう一つ強く感じたことがある。それは、ロボット、自動運転、工場、倉庫をそれぞれ別の産業として語ること自体が、すでに現実とズレ始めているという事実だ。会場で提示されていたのは、ロボット単体の性能競争ではない、自動車メーカー同士の競争でもない、工場設備の高度化だけでもないということだ。「物理世界をどう理解し、どう制御するか」という共通の問いに対する解答だった。この共通項を見抜けるかどうか。ここで、企業や国の理解力に明確な差が生まれ始めている。
世界を理解するAIが、ついに現実に降りてきた
この変化を貫く中核概念が、World Foundation Model(WFM、世界基盤モデル)である。WFMとは、物理世界の構造、因果関係、時間変化を学習し、「この世界で何が起きているか」「次に何が起こりうるか」を内在的に理解・予測するAIを指す。重要なのは、これは「ロボット専用AI」ではないという点だ。ロボットも、自動運転も、工場も、倉庫も、同じWFMに接続された異なる“実行体”にすぎない。CES2026は、この構造がもはや概念ではなく、現実の産業として立ち上がり始めたことを示していた。
本稿で何を明らかにするのか
本稿では、CES2026で見えたこの変化を、個別技術の解説ではなく、デモの羅列でもなく、「構造」として読み解く。具体的には、フィジカルAIの全体構造(横軸×縦軸)、その中枢にあるWFMの正体、NVIDIAとTeslaという2つの実践モデル、そして、日本企業がどこを担うべきかを、一気通貫で整理する。フィジカルAIの時代とは、ロボットの時代ではない。世界を理解するAIが、産業と社会の中枢に入り始めた時代である。CES2026は、その始まりをはっきりと告げていた。
【注】本稿でいうWorld Foundation Model(WFM、世界基盤モデル)は、ロボット工学の分野で議論されてきた視覚・言語・行動を統合する基盤モデルを技術的に包含したうえで、その射程をロボット単体に限定せず、自動運転や工場といった複数の実行体に共通する世界理解の中枢として再定義した概念である。各実行体は、この共通の世界理解に接続することで、身体や役割の違いを超えて一貫した判断と行動を生成できるようになる。なお、WFMという用語は、NVIDIAが自社の取り組みを説明する際に明示的に用いている概念である。一方で、Teslaをはじめとする他の先進的企業は、必ずしも同一の用語を使用してはいないものの、物理世界の構造や因果関係を統合的に学習し、複数の実行体(自動運転車、ロボット、工場システム等)に共通の世界理解を提供するという点において、構造的に同型のアプローチを採用している。本稿では、こうした用語上の違いを超えて、「物理世界を横断的に理解し、その理解を多様な実行体に供給する中枢知能」という構造的共通性に着目し、NVIDIAが明示的に提示するWFMのみならず、Teslaのように別の表現や実装形態をとりながら同等の世界理解構造を内包する取り組みについても、分析概念としてWFMと総称している。これは特定企業の用語を拡張して流用するものではなく、フィジカルAI時代に出現しつつある世界理解AIの共通構造を抽象化した分析枠組みとしてWFMという呼称を用いている点を、あらかじめ明確にしておきたい。ここで重要なのは、フィジカルAIの競争を「ロボット市場の競争」として捉えた瞬間に、私たちが“誤ったゲーム”を戦い始めてしまうという点である。エコシステム・ディスラプション論が示す通り、勝敗を分けるのは既存ゲームの中での勝利ではなく、価値構造そのものの組み替えである。WFMを中枢に、ロボット・自動運転・工場・倉庫が単一の構造へ収束し始めている現在、競争の単位は「製品」でも「市場」でもなく、最小成立する新エコシステム(MVE:Minimum Viable Ecosystem、単体の製品やサービスではなく最小構成で自走できる価値循環を成立させた生態系の最小単位)をどこで作り、どの順序で拡張するかへ移っている。
第1章
フィジカルAIの全体構造
——なぜ、同じ技術を使っても「成立するAI」と「止まるAI」が生まれるのか
フィジカルAIをめぐる議論が混乱する理由
フィジカルAIについて語ろうとすると、議論はすぐに次のような方向に散らばる。ロボットが賢くなった。自動運転が進化した。工場の自動化が高度化した。いずれも事実だ。しかし、これらを個別の進化として並べるだけでは、本質は見えない。なぜなら、いま起きているのは個別技術の進歩ではなく、構造の転換だからである。その構造を理解するためには、まず 「何が共通で、どこが競争になるのか」 を切り分ける必要がある。
フィジカルAIに共通する「横軸の作動原理」
フィジカルAIと呼ばれるものには、分野を問わず共通する内部構造が存在する。それは次の循環である。
- 認識(Perception)
- 推論・計画(Reasoning / Planning)
- 行動(Action)
- データ・学習(Learning / Feedback)
この流れは、ロボット、自動運転、工場・倉庫のいずれにおいても変わらない。重要なのは、これは単なる処理フローではなく、物理世界と関係を結び続けるための循環構造だという点である。
認識とは「見ること」ではなく「状態を推定すること」
フィジカルAIにおける認識は、カメラやセンサーで「見る」ことではない。世界がいま、どのような状態にあるかを推定することである。物理世界は常に不完全で、センサーはノイズを含み、物体は隠れ、人は予測不能に動く。だから認識とは、確率的に世界を仮定する行為に近い。
推論・計画とは「判断」ではなく「未来の仮想試行」
推論とは、条件分岐の選択ではない。フィジカルAIは常に、この行動を取ると何が起きるか、別の行動の方が安全ではないか、失敗した場合の影響はどれほどかといった 未来を仮想的に試し続けている。つまり、推論・計画とは、内部に持つ“世界のモデル”を使って未来をシミュレーションする能力である。
行動は「世界に責任を負う瞬間」である
行動は、フィジカルAIにおいて最も重い意味を持つ。なぜなら、行動は不可逆だからだ。物を落とす、人に触れる、機械を動かすといった瞬間、AIは現実世界に影響を与える主体になる。したがって、行動とは、AIが世界と“契約”を結ぶ行為だと言える。
データと学習は「副産物」ではない
行動の結果は、必ずデータとして返ってくる。成功・失敗・人の介入。このデータが次の判断を変える。ここで重要なのは、フィジカルAIにおいて、データは副産物ではなく、知能そのものの一部であるという点だ。データが循環しないAIは、必ずどこかで行き詰まる。
横軸は「競争軸」ではない
ここで強調しておくべきことがある。この横軸は、競争のための軸ではない。どのフィジカルAIも、この構造から逃れることはできない。だから、横軸の正しさでは差はつかない、差が出るのは別の場所であるという結論に至る。
なぜ「同じ横軸」なのに、結果が大きく違うのか
現実には、PoCで止まるAI、デモでは動くが現場では使えないAI、一度の事故で消えるAIが数多く存在する。これは、横軸の理解不足ではない。横軸を“回し続ける条件”が欠けていることが原因である。
縦軸=成立基盤という視点
フィジカルAIが現実世界で成立し続けるためには、次の4つの基盤が 同時に成立していなければならない。
L1:知能・計算の成立基盤
横軸全体を統合し、世界を理解し、未来を予測し、行動計画を生成する判断の中枢である。この層が弱いAIは、環境が少し変わるだけで破綻する。
L2:身体・感覚の成立基盤
賢さを、現実世界の動きに変換する「器」。アクチュエータ、センサー、力制御、安全設計。これらが弱いと、どれほど賢いAIでも使われない。
L3:学習加速の成立基盤
横軸を、使うほど賢くする、失敗を学習に変えるための仕組み。シミュレーション、デジタルツイン、データ循環といったものがここに含まれる。
L4:社会・需要の成立基盤
最後に、最も見落とされがちだが決定的な層。事故時の責任、説明可能性、規制・受容性、ROIで止まるAIは、どれほど優秀でも社会に残らない。
成立基盤4階層は「工程」ではない
重要な点を確認しておこう。4階層は、下から順に積み上げる工程ではない。L1だけあっても失敗する、L2だけあっても失敗する、L3だけあっても失敗する、L4だけあっても失敗する。4つが同時に成立して初めて、フィジカルAIは回り続ける。これが「成立基盤」と呼ぶ理由である。
この統合構造が示す決定的な示唆
ここまでの整理から、次のことが明確になる。フィジカルAIの競争は、アルゴリズムの競争ではない。成立基盤を同時に維持できるかどうかの競争である。そして、この成立基盤の中枢に位置するのが、WFMである。
第2章
World Foundation Model(WFM)という中枢
——フィジカルAIはなぜ「プラットフォーム産業」になるのか
フィジカルAIの核心は「ロボット」ではない。ここまでの議論で明らかになったのは、フィジカルAIの本質がロボットの高性能化・自動運転の高度化・工場の自動化といった個別成果にあるのではない、という点である。真に問うべきなのは、次の一点だ。AIは、物理世界そのものをどのように理解し、どのように扱っているのか。この問いに正面から答えようとしたとき、従来の「タスク特化AI」や「ロボット用AI」という枠組みは、明らかに不十分になる。
なぜ「世界」をモデル化する必要があるのか
言語AIとフィジカルAIの最大の違いは、扱う対象の性質にある。言語の世界は、記号的で可逆的で間違えてもやり直せる。一方、物理世界は、連続的で不確実で不可逆である。物を落とす。人に触れる。機械を止める。その一度の判断が、取り返しのつかない結果を生む。この世界を扱うためには、「認識してから反応する」だけでは足りない。行動する前に、その結果を“想像できる知能”が必要になる。
World Foundation Model(WFM)とは何か
ここで登場するのが、WFMである。WFMとは、物理世界の構造・因果関係・時間変化を内部に世界として保持し、その世界の中で行動を仮想的に試し、結果を予測した上で現実の行動を生成する基盤AIである。重要なのは、WFMは「タスクを解くモデル」ではないという点だ。WFMは、世界そのものを扱うモデルである。
WFMの内部構造(要約)
WFMは、内部に少なくとも次の4層を持つ。
-
世界表現
空間、物体、人、意味、行動可能性を含む表現
-
世界ダイナミクス
力・摩擦・慣性・人の動きといった時間変化の理解
-
計画・意思決定
未来を仮想的に試行し、最適な行動系列を選ぶ能力
-
実行接続
高レベル判断を低レベル制御へ安全に落とす仕組み
これによりAIは、「いま何が起きているか」だけでなく、「次に何が起きうるか」を理解したうえで行動できる。
なぜWFMは「ロボット専用モデル」ではないのか
ここで決定的に重要な点を確認しよう。WFMは、ロボットのため、自動運転のため、工場のために個別に作られるものではない。なぜなら、これらはすべて 同じ世界を生きているからである。ロボットも、自動運転車も、工場も、倉庫も、同一の物理世界を共有している。違うのは、どんな身体(実行体)を持っているか、どの行為を担当しているかだけだ。つまり、WFMとは、同一の世界理解に、異なる実行体を接続するための中枢である。
「同一WFM × 異なる実行体」という統一構造
この視点に立つと、これまで分断されてきた産業が一気につながる。
- 自動運転→車両という実行体を持つWFM
- ロボット→人型・腕型という実行体を持つWFM
- 工場・倉庫→設備群という集合体の実行体を持つWFM
これらは別の技術領域ではない。同一のWFMを中心に、実行体だけが異なる一つの産業構造である。
NVIDIAとTeslaは、なぜこの構造に最初に到達したのか
この構造を、理論ではなく 実装前提で理解している企業は、現時点で二社しかない。
NVIDIA
- 仮想世界(シミュレーション)を先に構築
- WFMをプラットフォームとして外部に提供
- 実行体は顧客側に委ねる
→ WFMを「産業OS」として配布する企業
Tesla
- 実世界(車両フリート)で直接学習
- WFMを自社内に垂直統合
- 車両とヒューマノイドを同一知能で駆動
→ WFMを「自社中枢」として独占的に育てる企業
アプローチは正反対だが、立っている地平は完全に同じである。
WFMが「プラットフォーム」になる必然性
WFMがプラットフォームになる理由は明確だ。
① 世界解釈という「共通前提」を握る
世界をどう理解するかは、すべての判断の前提になる。
② 実行体が増えるほど価値が増す
異なる身体・環境での経験が、世界理解を深める。
③ 単一企業では完結しない
データ・身体・運用の多様性が必要なため、必然的にエコシステム構造になる。
サプライチェーンではなく「レイヤー構造」である理由
WFMを中心とした構造は、上流→下流、モノの流れ、取引関係では説明できない。必要なのは、中枢(WFM)を中心に、身体・学習・社会実装が同時に存在するレイヤー構造という理解である。これは、OSとアプリの関係に近い。
なぜこの視点を持てないと、必ず遅れるのか
WFMを単なる「高性能AI」と捉えると、ロボットごとにAIを作る、工場ごとにモデルを分ける、分野ごとに学習をやり直すという 致命的な非効率に陥る。同じ世界を、何度も一から学び直す産業構造は、もはや成立しない。
本章の結論
WFMとは、フィジカルAIにおけるプラットフォームであり、エコシステム基盤である。ロボット、自動運転、工場、倉庫は、もはや別の産業ではない。同一のWFMに接続された異なる実行体として、一つの巨大な産業へと統合されつつある。