AIHub獲悉,11 月 8 日,阿里巴巴達摩院公布多模態大模型 M6 的最新進展,其模型參數已從萬億躍遷至 10 萬億,規模遠超谷歌、微軟發布的萬億級模型,成為目前全球最大的 AI 預訓練模型。
2021年以來,AI訓練模型的規模不斷擴大。據不完全統計,這些大模型包括年初華為發布的1000億參數盤古大模型、1.6萬億參數的Google switch transformer模型、1.75萬億參數的智源悟道2.0智能模型、1.9萬億參數的快手精排模型等。其中,阿里達摩院M6模型上一次公布的參數規模為1萬億。
據了解,與傳統AI相比,大模型擁有成百上千倍“神經元”數量,且預先學習過海量知識,表現出像人類一樣“舉一反三”的學習能力。因此,大模型被普遍認為是未來的“基礎模型”,將成下一代AI基礎設施。
“近年來人工智能的發展應該從家家戶戶‘大煉模型’的狀態逐漸變為把資源匯聚起來,訓練超大規模模型的階段,通過設計先進的算法,整合盡可能多的數據,匯聚大量算力,集約化地訓練大模型,供大量企業使用,這是必然趨勢。”北京大學信息科學技術學院教授黃鐵軍說。
據報道,M6 做到了業內極致的低碳高效,使用 512 GPU 在 10 天內即訓練出具有可用水平的 10 萬億模型。相比去年發布的大模型 GPT-3,M6 實現同等參數規模,能耗僅為其 1%。
據悉,M6 是達摩院研發的通用性人工智能大模型,擁有多模態、多任務能力,其認知和創造能力超越傳統 AI,尤其擅長設計、寫作、問答,在電商、制造業、文學藝術、科學研究等領域有廣泛應用前景。
與傳統 AI 相比,大模型擁有成百上千倍“神經元”數量,且預先學習過海量知識,表現出像人類一樣“舉一反三”的學習能力。因此,大模型被普遍認為是未來的“基礎模型”,將成下一代 AI 基礎設施。然而,其算力成本相當高昂,訓練 1750 億參數語言大模型 GPT-3 所需能耗,相當于汽車行駛地月往返距離。
今年 10 月,M6 再次突破業界極限,通過更細粒度的 CPU offload、共享-解除算法等創新技術,讓收斂效率進一步提升 7 倍,這使得模型規模擴大 10 倍的情況下,能耗未顯著增加.這一系列突破極大降低了大模型研究門檻,讓一臺機器訓練出一個千億模型成為可能。
今年,大模型首次支持雙 11。M6 在犀牛智造為品牌設計的服飾已在淘寶上線;憑借流暢的寫作能力,M6 正為天貓虛擬主播創作劇本;依靠多模態理解能力,M6 正在增進淘寶、支付寶等平臺的搜索及內容認知精度。
M6生成的未來感汽車圖
達摩院智能計算實驗室負責人周靖人表示,“接下來,我們將深入研究大腦認知機理,致力于將M6的認知力提升至接近人類的水平,比如,通過模擬人類跨模態的知識抽取和理解方式,構建通用的人工智能算法底層框架;另一方面,不斷增強M6在不同場景中的創造力,產生出色的應用價值。”
- Facebook正式改名Meta,扎克伯格All in元宇宙,開啟新征程;
- 微軟加入元宇宙大戰:將Mesh直接植入Teams中,將不同元宇宙粘合起來;
- 中科深智完成B輪融資,利用AI技術打造元宇宙內容生產中臺。
-
全球第一!阿里達摩院AI訓練模型M6參數破10萬億,遠超谷歌、微軟; - 微軟宣布推出Azure OpenAI服務,為開發者帶來GPT-3模型,幫助企業建構更聰明的應用;
- 全球最大規模人工智能巨量模型 “源1.0”正式開源!2457 億模型參數,超越美國GPT-3模型。
3.AI人物:
