米国で試験公開 Googleの「Project Genie」って何だろう

Googleが米国で試験公開した 「Project Genie」 に関する投稿を目にし、気になったので調べてみた。テキストや画像から“歩ける世界”を生成するという触れ込みで、「ゲームエンジンが要らなくなるのでは」「AIの次の段階だ」といった声が散見される。

とはいえ、実際のところ何ができて、どこまで実用的なのか。公開情報をもとに整理してみる。

Project Genieとは何か

Project Genieは、Googleが米国の Google AI Ultra ユーザー向けに試験公開した、インタラクティブな3D世界生成プロトタイプ だ。テキストや画像を入力すると、AIがリアルタイムで“探索可能な世界”を生成してくれる。

特徴として語られているのは以下の点。

特に注目されているのは、“動画生成AIではなく、操作可能な世界をリアルタイム生成する” という点だ。これは従来の生成AIとは明確に異なるアプローチだとされている。

公開情報から読み取れる範囲で、Project Genieの機能を整理するとこうなる。

テキストプロンプトや画像を使って、世界の初期状態を生成する。 Nano Banana Proを使って視点や雰囲気を調整できる。

生成された世界を、ユーザーが実際に歩き回れる。視点変更や移動に応じて、AIが毎秒24フレームで次の瞬間を生成し続ける。

他のユーザーが作った世界を改変し、新しい解釈を加えることができる。

Project Genieは、従来のLLMや画像生成AIとは異なる ワールドモデル の実験場として位置づけられている。ワールドモデルとは、環境の内部表現を学習し、未来の状態を予測しながら世界を生成するAIのことだ。

これは、ゲームエンジンや物理シミュレーションに近い領域にAIが踏み込んでいるとも言える。

Genie 3はNeRFのような3D表現を持たず、自己回帰的に次のフレームを予測する という独自アプローチを採用している。そのため、ユーザーの操作に応じて世界が“その場で描かれていく”感覚になる。

Genie 3は最大1分間の視覚的記憶を保持できるとされるが、長時間の探索や複雑な環境でどこまで破綻しないかは未知数。

現時点では米国のGoogle AI Ultra加入者（月額250ドル）に限定されているため、一般ユーザーが気軽に試せる状況ではない。

懐疑的な点はあるものの、Project Genieは 「AIが世界そのものを生成する」 という新しい方向性を示している。

こうした未来を想像すると、ワクワクせざるを得ない。特に、メタバースの分野とはガッツリ絡んでくることになりそうだ。

Project Genieは、「AIが文章や画像を生成する時代から、世界を生成する時代へ」という流れを象徴するプロジェクトだ。

まだ荒削りな部分は多いが、 AIの未来を考えるうえで非常に興味深い試みだと感じた。