Google DeepMind 正式公開 Genie 3，一項在世界模型領域邁出關鍵步伐的技術成果。作為前兩代 Genie 系統的進化版本，Genie 3 能根據自然語言提示生成動態虛擬世界，支援玩家以 24FPS 的速度在 720p 畫質下進行即時互動。其最大的突破在於：Genie 3 不僅提供更長時間的環境一致性，還可觸發可提示的世界事件，使模擬體驗不再只是被動觀看，而能主動參與與操控。

根據 DeepMind 團隊說明，Genie 3 在「交互時間視野（Interaction Horizon）」方面可維持數分鐘的連續邏輯一致性，並透過即時反應使用者行為改變世界狀態，這與以往僅能預覽短暫片段的模擬模型相比，展現了質的飛躍。從穿越風暴的海岸到在幻想森林中奔跑，Genie 3 能生成極具敘事感與物理真實感的沉浸式體驗。

在控制方式上，Genie 3 支援使用者以第一人稱視角進行導航，並可透過文字提示改變世界設定，例如切換天氣、加入新角色，甚至觸發世界規模的劇情變化。這一點讓 Genie 3 成為目前少數能將「可控敘事」與「世界生成」有效結合的模型。與需要 3D 建模或預先訓練資料的 NeRF、Gaussian Splatting 不同，Genie 3 可根據使用者輸入即時逐幀建構場景，動態靈活且豐富。

根據公開資訊，Genie 3 的應用涵蓋面廣泛，從物理模擬、虛擬生態系統、歷史建築重建，到幻想動畫敘事與角色導向互動。展示影片中出現的畫面包括：火山地形下的輪型機器人探索、海邊強風來襲前的疾行、深海水母生態系、魔法傳送門、手繪教室場景記憶測試，以及可提示世界事件導致場景變化的案例。這些場景展現出 Genie 3 不僅理解結構與空間關係，更能維持視覺連貫性與動態生成物理效果。

根據官方提供的對比資料，相比前代系統，Genie 3 在解析度、控制方式與交互延遲等多項指標上都有顯著提升。從僅限於靜態輸出的 Veo，到支援部分鍵盤滑鼠操作的 Genie 2，如今 Genie 3 已實現一般領域、即時互動、可引導世界事件與長時段一致性的完整世界模型能力。

儘管 Genie 3 尚未開放公開測試，但其展現出的技術特性與應用潛力，已引起開發者與學術界的高度關注。對於正在尋求 AI 訓練環境、自適應學習空間，甚至構建虛擬社會與敘事平台的研究者而言，這套系統可能預示著通用人工智慧（AGI）所需模擬能力的早期實現方式。

VR NEWS TODAY

Genie 3：Google DeepMind 打造可即時互動的世界模型，推進模擬智能邊界

Feel the Wonders of VR "

分享此文：

Feel the Wonders of VR "