Genie-谷歌發布的AI基礎世界模型，一張圖片生成交互世界

AI訓練模型
24年2月28日
編輯

AIHubAI布道師

Genie是什么？

Genie是一個由Google發布的根據互聯網視頻訓練的AI基礎世界模型，中文意思為“精靈”。它是基于Google DeepMind的最新成果，采用了最先進的視頻生成模型的思想，核心設計采用了時空變換器。Genie是第一個通過未標記互聯網視頻以無監督方式訓練的生成式交互環境，能夠接收文本提示、合成圖像、照片甚至草圖或想法，并生成無數種動作可控的、能夠互動的虛擬世界環境。

盡管Genie已經展示了其強大的能力，但它目前仍處于研究預覽階段，這意味著它還在不斷的開發和完善中，以達到更廣泛的應用和更高的性能水平。

了解更多詳情：

項目地址：https://sites.google.com/view/genie-2024/home
論文地址：https://arxiv.org/abs/2402.15391

Genie的模型規模及技術架構

Genie的模型規模及技術架構具有以下特點：

模型規模：Genie擁有110億參數，屬于一個大規模的AI模型。這使得它能夠處理復雜的數據和生成高質量的交互式虛擬環境。
訓練數據：Genie通過網絡上超過20萬小時的2D游戲視頻進行訓練，這些視頻提供了豐富的動作和交互數據，幫助模型學習如何生成和控制虛擬環境。值得注意的是，這一訓練過程是在無監督和無標簽視頻的情況下進行的，展示了模型強大的學習能力。
技術架構：

基礎架構：Genie的底層基于ViT（Vision Transformer），采用了一套內存高效的ST-transformer架構，這包含了時空注意力機制。
關鍵組件：
- 時空視頻分詞器：用于處理視頻數據，將視頻分割成可以被模型理解和處理的小塊。
- 因果動作模型（LAM，基于像素）：這是一個關鍵的創新點，允許模型學習和推斷動作的因果關系，而不僅僅是動作本身。
- 動力學模型（基于視頻token）：用于理解和模擬物理世界中的動力學行為，如物體的運動和相互作用。

Genie的這一技術架構和模型規模使其成為一個強大的工具，能夠生成復雜且高度互動的虛擬世界，為用戶提供前所未有的體驗，并為AI領域的發展開辟新的可能性。

Genie可以做什么？

無需行動標簽的學習控制：Genie能夠通過分析大量的公開互聯網視頻學會精細的控制技巧，識別可控制的圖像部分，并推斷出在各種生成環境中一致的潛在動作。
激發新一代內容創作者：Genie為內容創作者提供了新的工具和方法，使得僅需一張圖像即可創造出全新的交互環境，降低了創造復雜虛擬環境的門檻。
訓練通用型AI代理：Genie不僅提供了創造交互式環境的能力，還為AI研究提供了一個有價值的資源，促進了通用型AI代理的發展。
跨領域應用：Genie是一個通用方法，適用于多個領域，不需要任何額外的領域知識，其潛在應用范圍非常廣泛。

Genie適用人群

內容創作者和游戲開發者：可以使用Genie快速原型設計和實現他們的創意，通過結合最先進的文本到圖像生成模型，創作者可以將文本描述轉換成圖像，然后使用Genie為這些圖像賦予交互性和可玩性。
AI研究人員：Genie為AI研究提供了一個有價值的資源，通過在不斷生成的新世界中訓練，未來的AI代理可以在多樣化的環境下學習和適應。
跨領域專業人士：由于Genie的通用性，它適用于多個領域的專業人士，包括但不限于游戲設計、教育、模擬訓練等領域，為他們提供了一個強大的工具來創造和探索虛擬世界。

總之，Genie模型的出現不僅為用戶提供了創新的交互體驗和內容創作的新方法，也為AI研究和跨領域應用開辟了新的道路，預示著AI技術在生成交互式虛擬環境方面的巨大潛力和未來的發展方向。