Google DeepMind 正式公開 Genie 3,一項在世界模型領域邁出關鍵步伐的技術成果。作為前兩代 Genie 系統的進化版本,Genie 3 能根據自然語言提示生成動態虛擬世界,支援玩家以 24FPS 的速度在 720p 畫質下進行即時互動。其最大的突破在於:Genie 3 不僅提供更長時間的環境一致性,還可觸發可提示的世界事件,使模擬體驗不再只是被動觀看,而能主動參與與操控。
根據 DeepMind 團隊說明,Genie 3 在「交互時間視野(Interaction Horizon)」方面可維持數分鐘的連續邏輯一致性,並透過即時反應使用者行為改變世界狀態,這與以往僅能預覽短暫片段的模擬模型相比,展現了質的飛躍。從穿越風暴的海岸到在幻想森林中奔跑,Genie 3 能生成極具敘事感與物理真實感的沉浸式體驗。
在控制方式上,Genie 3 支援使用者以第一人稱視角進行導航,並可透過文字提示改變世界設定,例如切換天氣、加入新角色,甚至觸發世界規模的劇情變化。這一點讓 Genie 3 成為目前少數能將「可控敘事」與「世界生成」有效結合的模型。與需要 3D 建模或預先訓練資料的 NeRF、Gaussian Splatting 不同,Genie 3 可根據使用者輸入即時逐幀建構場景,動態靈活且豐富。
根據公開資訊,Genie 3 的應用涵蓋面廣泛,從物理模擬、虛擬生態系統、歷史建築重建,到幻想動畫敘事與角色導向互動。展示影片中出現的畫面包括:火山地形下的輪型機器人探索、海邊強風來襲前的疾行、深海水母生態系、魔法傳送門、手繪教室場景記憶測試,以及可提示世界事件導致場景變化的案例。這些場景展現出 Genie 3 不僅理解結構與空間關係,更能維持視覺連貫性與動態生成物理效果。
根據官方提供的對比資料,相比前代系統,Genie 3 在解析度、控制方式與交互延遲等多項指標上都有顯著提升。從僅限於靜態輸出的 Veo,到支援部分鍵盤滑鼠操作的 Genie 2,如今 Genie 3 已實現一般領域、即時互動、可引導世界事件與長時段一致性的完整世界模型能力。
儘管 Genie 3 尚未開放公開測試,但其展現出的技術特性與應用潛力,已引起開發者與學術界的高度關注。對於正在尋求 AI 訓練環境、自適應學習空間,甚至構建虛擬社會與敘事平台的研究者而言,這套系統可能預示著通用人工智慧(AGI)所需模擬能力的早期實現方式。
