欧美成人三级视频网站,国产一区国产二区国产三区,青青久久av北条麻妃黑人,亚州综合一区

即夢AI
當前位置:首頁>AI資訊>OpenAI Sora官方技術報告中文版:《作為世界模擬器的視頻生成模型》

OpenAI Sora官方技術報告中文版:《作為世界模擬器的視頻生成模型》

OpenAI 2月16日凌晨發布了文生視頻大模型Sora,在科技圈引起一連串的震驚和感嘆,在2023年,我們見證了文生文、文生圖的進展速度,視頻可以說是人類被AI攻占最慢的一塊“處女地”。而在2024年開年,OpenAI就發布了王炸文生視頻大模型Sora,它能夠僅僅根據提示詞,生成60s的連貫視頻,“碾壓”了行業目前大概只有平均“4s”的視頻生成長度。

為了方便理解,我們簡單總結了這個模型的強大之處:

1、文本到視頻生成能力:Sora能夠根據用戶提供的文本描述生成長達60S的視頻,這些視頻不僅保持了視覺品質,而且完整準確還原了用戶的提示語。

2、復雜場景和角色生成能力:Sora能夠生成包含多個角色、特定運動類型以及主題精確、背景細節復雜的場景。它能夠創造出生動的角色表情和復雜的運鏡,使得生成的視頻具有高度的逼真性和敘事效果。

3、語言理解能力:Sora擁有深入的語言理解能力,能夠準確解釋提示并生成能表達豐富情感的角色。這使得模型能夠更好地理解用戶的文本指令,并在生成的視頻內容中忠實地反映這些指令。

4、多鏡頭生成能力:Sora可以在單個生成的視頻中創建多個鏡頭,同時保持角色和視覺風格的一致性。這種能力對于制作電影預告片、動畫或其他需要多視角展示的內容非常有用。

5、從靜態圖像生成視頻能力:Sora不僅能夠從文本生成視頻,還能夠從現有的靜態圖像開始,準確地動畫化圖像內容,或者擴展現有視頻,填補視頻中的缺失幀。

6、物理世界模擬能力:Sora展示了人工智能在理解真實世界場景并與之互動的能力,這是朝著實現通用人工智能(AGI)的重要一步。它能夠模擬真實物理世界的運動,如物體的移動和相互作用。

可以說,Sora的出現,預示著一個全新的視覺敘事時代的到來,它能夠將人們的想象力轉化為生動的動態畫面,將文字的魔力轉化為視覺的盛宴。在這個由數據和算法編織的未來,Sora正以其獨特的方式,重新定義著我們與數字世界的互動。一反常態,OpenAI在模型公布后的不久,就公布了相關的技術Paper,我們第一時間“啃”了這篇技術報告,希望能夠幫助大家理解到底有哪些神奇的技術,讓Sora能夠有如此強大的魔力。

我們探索了利用視頻數據對生成模型進行大規模訓練。具體來說,我們在不同持續時間、分辨率和縱橫比的視頻和圖像上聯合訓練了以文本為輸入條件的擴散模型。我們引入了一種transformer架構,該架構對視頻的時空序列包和圖像潛在編碼進行操作。我們最頂尖的模型Sora已經能夠生成最長一分鐘的高保真視頻,這標志著我們在視頻生成領域取得了重大突破。我們的研究結果表明,通過擴大視頻生成模型的規模,我們有望構建出能夠模擬物理世界的通用模擬器,這無疑是一條極具前景的發展道路。

圖注:Sora生成的東京街頭場景視頻

這份技術報告主要聚焦于兩大方面:首先,我們詳細介紹了一種將各類可視數據轉化為統一表示的方法,從而實現了對生成式模型的大規模訓練;其次,我們對Sora的能力及其局限性進行了深入的定性評估。需要注意的是,本報告并未涉及模型的具體技術細節。

在過去的研究中,許多團隊已經嘗試使用遞歸網絡、生成對抗網絡、自回歸Transformer和擴散模型等各種方法,對視頻數據的生成式建模進行了深入研究。然而,這些工作通常僅限于較窄類別的視覺數據、較短的視頻或固定大小的視頻上。相比之下,Sora作為一款通用的視覺數據模型,其卓越之處在于能夠生成跨越不同持續時間、縱橫比和分辨率的視頻和圖像,甚至包括生成長達一分鐘的高清視頻。

將可視數據轉換成數據包(patchs)

在可視數據的處理上,我們借鑒了大語言模型的成功經驗。這些模型通過對互聯網規模的數據進行訓練,獲得了強大的通用能力。同樣,我們考慮如何將這種優勢引入到可視數據的生成式模型中。大語言模型通過token將各種形式的文本代碼、數學和自然語言統一起來,而Sora則通過視覺包(patchs)實現了類似的效果。我們發現,對于不同類型的視頻和圖像,包是一種高度可擴展且有效的表示方式,對于訓練生成模型具有重要意義。

OpenAI Sora官方技術報告中文版:《作為世界模擬器的視頻生成模型》

圖注:OpenAI專門設計的解碼器模型,它可以將生成的潛在表示重新映射回像素空間

在更高層次上,我們首先將視頻壓縮到一個低維度的潛在空間:這是通過對視頻進行時間和空間上的壓縮實現的。這個潛在空間可以看作是一個“時空包”的集合,從而將原始視頻轉化為這些包。

視頻壓縮網絡

我們專門訓練了一個網絡,專門負責降低視覺數據的維度。這個網絡接收原始視頻作為輸入,并輸出經過壓縮的潛在表示。Sora模型就是在這個壓縮后的潛在空間中接受訓練,并最終生成視頻。此外,我們還設計了一個解碼器模型,它可以將生成的潛在表示重新映射回像素空間,從而生成可視的視頻或圖像。

時空包

當給定一個壓縮后的輸入視頻時,我們會從中提取出一系列的時空包,這些包被用作轉換token。這一方案不僅適用于視頻,因為視頻本質上就是由連續幀構成的,所以圖像也可以看作是單幀的視頻。通過這種基于包的表示方式,Sora能夠跨越不同分辨率、持續時間和縱橫比的視頻和圖像進行訓練。在推理階段,我們只需在適當大小的網格中安排隨機初始化的包,就可以控制生成視頻的大小和分辨率。

用于視頻生成的縮放Transformers

Sora是一個擴散模型,它接受輸入的噪聲包(以及如文本提示等條件性輸入信息),然后被訓練去預測原始的“干凈”包。重要的是,Sora是一個基于擴散的轉換器模型,這種模型已經在多個領域展現了顯著的擴展性,包括語言建模、計算機視覺以及圖像生成等領域。

OpenAI Sora官方技術報告中文版:《作為世界模擬器的視頻生成模型》

OpenAI Sora官方技術報告中文版:《作為世界模擬器的視頻生成模型》

圖注:隨著訓練量的增加,擴散轉換器生成的樣本質量有了明顯提高

在這項工作中,我們發現擴散轉換器在視頻生成領域同樣具有巨大的潛力。我們展示了不同訓練階段下,使用相同種子和輸入的視頻樣本對比,結果證明了隨著訓練量的增加,樣本質量有著明顯的提高。

豐富的持續時間、分辨率與縱橫比

過去,圖像和視頻生成方法常常需要將視頻調整大小、裁剪或修剪至標準尺寸,如4秒、256x256分辨率的視頻。但Sora打破了這一常規,它直接在原始大小的數據上進行訓練,從而帶來了諸多優勢。

采樣更靈活

Sora具備出色的采樣能力,無論是寬屏1920x1080p視頻、垂直1080x1920視頻,還是介于兩者之間的任何視頻尺寸,它都能輕松應對。這意味著Sora可以為各種設備生成與其原始縱橫比完美匹配的內容。更令人驚嘆的是,即使在生成全分辨率內容之前,Sora也能以較小的尺寸迅速創建內容原型。而所有這一切,都得益于使用相同的模型。

OpenAI Sora官方技術報告中文版:《作為世界模擬器的視頻生成模型》

圖注:Sora可以為各種設備生成與其原始縱橫比完美匹配的內容

改進構圖與框架

我們的實驗結果顯示,在視頻的原始縱橫比上進行訓練,能夠顯著提升構圖和框架的質量。為了驗證這一點,我們將Sora與一個將所有訓練視頻裁剪為方形的模型版本進行了比較。結果發現,在正方形裁剪上訓練的模型有時會生成僅部分顯示主題的視頻。而Sora則能呈現出更加完美的幀,充分展現了其在視頻生成領域的卓越性能。

OpenAI Sora官方技術報告中文版:《作為世界模擬器的視頻生成模型》

圖注:將所有訓練視頻裁剪為方形的模型相比(左),Sora能呈現出更加完美的幀

語言理解深化

為了訓練文本轉視頻生成系統,需要大量帶有相應文本字幕的視頻。為此,我們借鑒了DALL·E3中的re-captioning技術,并應用于視頻領域。首先,我們訓練了一個高度描述性的轉譯員模型,然后使用它為我們訓練集中的所有視頻生成文本轉譯。通過這種方式,我們發現對高度描述性的視頻轉譯進行訓練,可以顯著提高文本保真度和視頻的整體質量。 與此同時,與DALL·E3類似,我們還利用GPT技術將簡短的用戶提示轉換為更長的詳細轉譯,并將其發送到視頻模型。這一創新使得Sora能夠精確地按照用戶提示生成高質量的視頻。

圖片與視頻提示

在上述所有結果和我們的演示中,你可能已經注意到了文本轉視頻的示例。但Sora的功能遠不止于此,它還能接受其他類型的輸入提示,如預先存在的圖像或視頻。這種多樣化的提示方式使Sora能夠執行廣泛的圖像和視頻編輯任務,如創建完美的循環視頻、將靜態圖像轉化為動畫、向前或向后擴展視頻等。

將DALL·E圖片變成動畫

值得一提的是,Sora還能在提供圖像和提示作為輸入的情況下生成視頻。下面展示的示例視頻就是基于DALL·E 2和DALL·E 3的圖像生成的。這些示例不僅證明了Sora的強大功能,還展示了它在圖像和視頻編輯領域的無限潛力。

OpenAI Sora官方技術報告中文版:《作為世界模擬器的視頻生成模型》

視頻:一只戴著貝雷帽、穿著黑色高領毛衣的柴犬生成視頻

OpenAI Sora官方技術報告中文版:《作為世界模擬器的視頻生成模型》

一幅逼真的云朵圖像生成視頻,上面寫著“SORA”;在一個華麗的歷史大廳里,一股巨大的浪潮達到頂峰,并開始崩散,兩個沖浪者抓住時機,巧妙地在海浪表面飛馳

擴展生成視頻

Sora不僅具備生成視頻的能力,更能在時間維度上實現向前或向后的無限擴展。以下三個視頻便是從同一生成視頻片段出發,逐步向后擴展的示例。盡管它們的起始部分各異,但結局卻出奇地一致。

視頻:這些視頻的起始部分各異,但結局幾乎相同

這充分展示了Sora在時間擴展方面的強大功能,甚至能創造出無縫的無限循環視頻。

視頻:Sora甚至可以創造出無限循環視頻

視頻到視頻編輯

隨著擴散模型的發展,我們已經開發出多種方法來編輯基于文本提示的圖像和視頻。在此,我們將其中一種名為SDEdit 32的技術應用于Sora。這項技術賦予了Sora轉換零拍攝輸入視頻風格和環境的能力,為視頻編輯領域帶來了革命性的變革。

視頻的無縫連接

更令人驚嘆的是,Sora還能在兩個截然不同的輸入視頻之間實現無縫過渡。通過逐漸插入技術,我們能夠在具有完全不同主題和場景構圖的視頻之間創建出流暢自然的過渡效果。

圖片生成能力

Sora的出色能力不止于數據處理和分析,它現在還能生成圖像!這一創新功能的實現得益于一種獨特的算法,該算法在一個精確的時間范圍內,巧妙地在空間網格中排列高斯噪聲補丁。 值得一提的是,Sora的圖像生成功能不僅限于特定大小的圖像。它可以根據用戶需求,生成可變大小的圖像,最高可達驚人的2048 × 2048分辨率。

OpenAI Sora官方技術報告中文版:《作為世界模擬器的視頻生成模型》

圖注:一個女在秋天的特寫肖像,每一個細節都被捕捉得淋漓盡致,淺景深的應用使得主體脫穎而出

OpenAI Sora官方技術報告中文版:《作為世界模擬器的視頻生成模型》

圖注:充滿生機的珊瑚礁吸引了五顏六色的魚類和海洋生物

新的模擬能力

在大規模訓練過程中,我們發現視頻模型展現出了許多令人興奮的新能力。這些功能使得Sora能夠模擬現實世界中的人物、動物和環境等某些方面。值得注意的是,這些屬性的出現并沒有依賴于任何明確的3D建模、物體識別等歸納偏差,而是純粹通過模型的尺度擴展而自然涌現的。 3D一致性:在3D一致性方面,Sora能夠生成帶有動態攝像頭運動的視頻。隨著攝像頭的移動和旋轉,人物和場景元素在三維空間中始終保持一致的運動規律。

視頻:人物和場景元素在三維空間中始終保持一致

較長視頻的連貫性和對象持久性:視頻生成領域面對的一個重要挑戰就是,在生成的較長視頻中保持時空連貫性和一致性。Sora,雖然不總是,但經常能夠有效地為短期和長期物體間的依賴關系建模。例如,在生成的視頻中,人物、動物和物體即使在被遮擋或離開畫面后,仍能被準確地保存和呈現。同樣地,Sora能夠在單個樣本中生成同一角色的多個鏡頭,并在整個視頻中保持其外觀的一致性。

OpenAI Sora官方技術報告中文版:《作為世界模擬器的視頻生成模型》

與世界互動:Sora有時還能以簡單的方式模擬影響世界狀態的行為。例如,畫家可以在畫布上留下新的筆觸。隨著時間的推移,一個人吃漢堡時也能在上面留下咬痕。

OpenAI Sora官方技術報告中文版:《作為世界模擬器的視頻生成模型》

圖注:Sora能以簡單的方式模擬影響世界狀態的行為

模擬數字世界:Sora還能夠模擬人工過程,比如視頻游戲。它可以在高保真度渲染世界及其動態的同時,用基本策略控制《我的世界》中的玩家。這些功能都無需額外的訓練數據或調整模型參數,只需向Sora提示“我的世界”即可實現。

這些新能力表明,視頻模型的持續擴展為開發高性能的物理和數字世界模擬器提供了一條充滿希望的道路。通過模擬生活在這些世界中的物體、動物和人等實體,我們可以更深入地理解現實世界的運行規律,并開發出更加逼真、自然的視頻生成技術。

OpenAI Sora官方技術報告中文版:《作為世界模擬器的視頻生成模型》

局限性與展望

盡管Sora在模擬能力方面已經取得了顯著的進展,但它目前仍然存在許多局限性。例如,它不能準確地模擬許多基本相互作用的物理過程,如玻璃破碎等。此外,在某些交互場景中,比如吃東西時,Sora并不能總是產生正確的對象狀態變化。我們在發布頁面中列舉了模型的其他常見故障模式,包括在長時間樣本中發展的不一致性或某些對象不受控的出現等。

然而,我們相信隨著技術的不斷進步和創新,Sora所展現出的能力預示著視頻模型持續擴展的巨大潛力。未來,我們期待看到更加先進的視頻生成技術,能夠更準確地模擬現實世界中的各種現象和行為,并為我們帶來更加逼真、自然的視覺體驗。

?

熱門AI工具推薦:

?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。 Trae
主站蜘蛛池模板: 凯里市| 博兴县| 博白县| 南陵县| 拉萨市| 大邑县| 美姑县| 衡阳县| 邹城市| 庆安县| 修文县| 分宜县| 漾濞| 府谷县| 安庆市| 沂南县| 宜川县| 建昌县| 吉安市| 民权县| 南宁市| 刚察县| 阿巴嘎旗| 福建省| 临邑县| 普宁市| 景泰县| 临漳县| 福鼎市| 宜昌市| 拜泉县| 遵义县| 武陟县| 龙南县| 墨玉县| 茶陵县| 怀安县| 金堂县| 吉林省| 察隅县| 六安市|