當我們人類從世界獲取信息時,天生會使用多種感官。例如,看到繁忙的街道,聽到汽車引擎的聲音,聞到食物的氣味,嘗到美食的味道,感受物體的溫度和速度等。
而人工智能的目標,就是使用機器模擬人類智能,幫助人類完成不同的任務和目標,把人類從枯燥沉重的工作中解放出來,讓人真正成為人。
AI能力的進化,從過往單項的語音識別、圖像識別、文本理解等的感知能力,來到了認知能力-AI大模型時代。
其中,各種AI繪畫工具是文字生成圖像,ChatGPT是文本對話系統,GPT-4利用插件實現了初步的多模態能力。
而在今天,多模態AI再次升級,Meta公司發布了一個全新的開源AI模型 ImageBind,該模型能夠將多種數據流,包括文本、音頻、視覺(圖像/視頻)、溫度、深度和IMU數據(速度、角速度等)等整合在一起。
ImageBind,使機器更接近人類,同時、整體和直接地從許多不同形式的信息中學習的能力——不需要明確監督(組織和標記原始數據)。
ImageBind 使機器具備全面的理解力,將照片中的對象與它們的聲音、3D 形狀、它們的冷暖程度以及它們的移動方式聯系起來。
(注:官網、體驗、論文和代碼地址在文末,可直接前往訪問)
在他們的論文中,研究人員表明,僅圖像配對數據就足以對齊六種模態,從而允許模型將內容鏈接到不同模態,而無需直接將它們一起觀察。這使其他 AI 模型無需強化訓練即可掌握新模式。
↑通過將六種模態嵌入對齊到一個公共空間,跨模態檢索未同時觀察到的不同類型的內容,添加來自不同模態的嵌入以自然地組合它們的語義,以及通過音頻到圖像的生成使用音頻嵌入和預訓練的 DALLE-2 解碼器來處理 CLIP 文本嵌入。
同時,基于 ImageBind 的跨模態交流能力,其每一個模態能力的上升,也將帶動另一個模態的進步,進而達到一種類似滾雪球的效果。
↑基于基準測試,ImageBind 在音頻和深度方面優于專業模型
通用人工智能的未來
雖然該模型目前只是一個研究項目,還沒有直接的消費者或實際應用,但它展示了未來生成式人工智能系統的可能性,這些系統能夠創造出沉浸式、多感官的體驗。不得不說,雖然Meta在元宇宙方面步履蹣跚,但是在AI領域,使用開源模式,重新找回了自己的地位。OpenAI和谷歌越來越封閉,而Meta越來越開放,而所有這些多模態AI模型的開源,將會反過來促進元宇宙的發展。ImageBind 能夠使用多種模式進行輸入查詢并檢索其他模式的輸出,為創作者展示了新的可能性。
當你舉起手機,錄制一個海邊日落的視頻時,AI 便能自動根據視頻內容來生成文案和字幕,并匹配上合適的背景音樂,創造身臨其境的體驗。在 VR 和 AR 游戲中,用戶也可以通過多種語音、手勢和頭部動作等方式與游戲角色進行交互,增強游戲的互動性和沉浸感。
雖然目前 ImageBind 只有六種模態,但隨著更多感官功能的集成,比如嗅覺、觸覺,AI 模型的能力將會愈加強大,AIGC 行業也將迎來翻天覆地的變化。該項目的橫空出世,將為 AIGC 技術帶來更為廣泛的應用場景,一大波更為有趣、實用的 AI 項目也即將來襲。
不得不說,屬于創作者和開發者的時代來了。我們距離通用人工智能的到來,又近了一步。
如有興趣,可前往官網體驗:
1.官網:https://imagebind.metademolab.com/
2.體驗地址:
https://imagebind.metademolab.com/demo
3.論文:
https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf
4.GitHub代碼:
https://github.com/facebookresearch/ImageBind
我會持續分享人工智能領域的新產品、新技術和新動態,歡迎關注~
