撰文者:黃子瑞
Google DeepMind 於 8 月 5 日發表旗下最新 AI 世界模型 (World Model) Genie 3,這款模型能夠生成根據使用者指令生成一個 3D 虛擬環境,讓使用者在裡面進行數分鐘的互動。Google 表示該技術是通往通用式人工智慧 (AGI) 的重大里程碑,因為這款模型能夠提供訓練 AI 代理、機器人的模擬環境。
世界模型是什麼?
根據 NVIDIA 的介紹,世界模型 (World Model) 是能夠理解真實世界運作規則的生成式 AI 模型,包含了物理與空間特性。它們透過文字、圖片、影片及動作等輸入資料,生成影片,並藉由從感測數據中學習運動、力與空間關係等動態的表示與預測,理解真實世界環境的物理特質。Google 的 Genie 模型,根據 Verge 的報導,使用者只要輸入指令,模型就能夠生成一個像是電玩遊戲一樣可以自由活動的虛擬世界,但這個世界並不是由 3D 物件手工打造構成,而是透過 AI 技術即時生成。而在 2024 年 12 月,Google 就已經發表 Genie 2,一個能夠透過一張圖片生成互動式虛擬世界的世界模型。
Google Genie 3 的特色
- 多元場景生成能力
Genie 3 不僅能模擬真實世界的物理特性,呈現水、光影等自然現象,還能模擬充滿生機的自然世界,包括動物的行為與植物生長過程。此外,它也具備創造動畫與虛構情境的能力,能構建奇幻場景與表情生動的角色。使用者還可以藉由 Genie 3 跨越地理與時間的限制,探索各地地貌與過往歷史,體驗橫跨真實和幻想的廣泛場景。
- 提升畫質並拓展應用範圍
Genie 3 將解析度從 Genie 2 的 360p 提升至 720p,畫質更清晰細緻,帶來更沉浸的體驗。同時,其應用領域從原本專注於 3D 環境拓展至通用場景(General),可應用於更多類型的互動世界與情境。
- 即時互動與更長的持續時間
在互動體驗方面,Genie 3 支援即時互動,使用者可在每秒 24 幀的流暢畫面中即時操作,並支援更豐富的文字互動功能,可提示的世界事件(Promptable world events)。這項功能除了導航操作外,還能透過文字指令改變生成世界,例如調整天氣條件、加入新的物件或角色,讓體驗超越單純的移動探索。此外,它也擴大了反事實(counterfactual)情境的可能性,讓 AI 代理在學習過程中能模擬各種「如果…會怎樣」的情境,以應對突發狀況。相比 Genie 2 僅能維持 10–20 秒的互動時間,Genie 3 的環境可持續數分鐘,提供更完整且多變的探索與操作空間。
- 高度可控與即時回應
Genie 3 在自回歸生成(auto-regressive generation)過程中,會持續參考過去生成的軌跡,即使使用者在一分鐘後回到同一地點,模型也能回憶並還原相關資訊。這項技術突破讓系統能夠在每秒多次運算的情況下,根據新輸入立即回應,大幅提升互動的靈活度與即時性。
Genie 3 的實際表現
在 Google 的技術部落格與官方影片中的技術展示,Genie 3 能夠模擬真實的自然環境,例如沙漠、森林中的湖邊,同時也能模擬日本古代街道,甚至是以擬人化動物為主角的遊戲畫面。除了場景的多樣性,Genie 3 的體驗中顯示了其能夠模擬現實世界物理特性的能力,例如滑雪、用油漆滾輪幫牆壁油漆、駕駛直升機的第一人稱視角。
Google 表示其模型為實現通用式人工智慧 (AGI) 的關鍵一步
Google DeepMind 透過 Genie 3 推動具身代理(embodied agent)研究,測試其在未來具身代理訓練中的適用性。研究團隊以其 3D 虛擬環境通才型具身代理 SIMA 為例,讓其在 Genie 3 所生成的世界中依指令執行不同任務,並與環境互動。Genie 3 並不知道具身代理的最終目標,而是根據代理的行動來預測即將發生的情境,從而讓具身代理在不斷變化的環境中學習如何完成任務。由於 Genie 3 能長時間維持環境一致性,具身代理可以執行更長的一連串行動並達成更複雜的目標。Google 認為,世界模型具備對環境的理解與模擬能力,讓具身代理可以預測環境的變化及自身行動的影響,這是通往 AGI 的重要基礎。
根據英國《衛報》報導,Google 表示 Genie 3 的世界模型可用於訓練具身代理與自動駕駛車輛,並在如倉庫等真實環境的精準重現中進行互動。愛丁堡大學機器人學習與自主系統教授 Subramanian Ramamoorthy 指出,世界模型對機器人技術發展極為重要,因為如果想開發能夠靈活做決策的機器人,它們需要可以預測不同行動的後果,以便選擇最佳方案執行。Google 去年的研究報告也提到,大型語言模型(LLM)雖擅長規劃等任務,但不擅長直接代表人類做出行動,因此世界模型對彌補這一缺口至關重要。薩里大學「以人為中心的 AI 研究所」的 Andrew Rogoyski 表示,世界模型讓原本沒有身體的 AI 在虛擬環境中獲得「身體」,進而探索並累積經驗。雖然 AI 已經能透過龐大的網路資料進行訓練,但若能在真實或高擬真的世界中互動,將能夠打造更強大、更聰明的 AI 。
Genie 3 的限制
儘管 Genie 3 在世界模型的技術上有顯著突破,其仍存在一些限制。目前可直接由具身代理執行的動作範圍有限,雖然可提示的世界事件能帶來多樣化的環境變化,但這些變化並不一定是由代理本身主動完成。此外,在同一環境中精準模擬多個獨立代理之間的複雜互動仍是持續研究的課題。對於真實世界地點的呈現,Genie 3 尚無法達到完全精確的地理還原;文字渲染方面,除非在輸入描述中明確提供,否則生成的文字常常缺乏清晰與可讀性。最後,互動持續時間仍受限制,目前僅能支持數分鐘的連續互動,尚無法延伸至數小時等長時間應用。
Genie 3 的未來展望
Google 表示 Genie 3 的技術創新,特別是其開放式與即時互動的能力,雖帶來前所未有的應用潛力,但其生成內容的安全問題也隨之而來。為了在最大化效益的同時降低潛在風險,Google DeepMind 與其負責任發展與創新團隊密切合作,並以有限研究預覽的方式推出 Genie 3,僅向部分學術界與創作者提供早期使用權,以便收集關鍵回饋與跨領域觀點,逐步建立對其可能風險的了解。
Google 認為,Genie 3 是世界模型研發的關鍵時刻,未來將在 AI 研究與生成式媒體等多個領域產生深遠影響。除了可用於訓練具身代理如機器人與自動化系統,Genie 3 也能成為教育與培訓的新工具,協助學生學習、讓專家積累經驗,並提供測試代理性能與探索其弱點的環境。
免責聲明
本文所述有關 Google DeepMind 發表之 Genie 3 世界模型(World Model)及其功能、應用與技術細節,均依據公開資訊與相關媒體報導整理而成,僅供一般資訊參考之用。Google DeepMind 及相關第三方之觀點、引述與數據,均屬原作者或機構所有,不代表本文立場。本內容不應被視為投資建議、商業決策依據或任何法律、專業意見。讀者在採取任何行動前,應自行查證並評估風險。對於因使用或依據本文內容而導致的任何直接或間接損失,本文作者及資訊來源均不承擔任何責任。
Reference
Genie 3: A new frontier for world models - Google DeepMind
What are World Foundation Models? | NVIDIA Glossary
Google’s new AI model creates video game worlds in real time | The Verge
Google says its new ‘world model’ could train AI robots in virtual warehouses | Artificial intelligence (AI) | The Guardiantelligence (AI) | The Guardian