作為當前人工智能發展的重要方向,預訓練大模型已成為 AI 領域的技術新高地。
AI 大模型就像工業時代的“發電廠”,能夠以數據作為“燃料”,轉化成智能能力,驅動各行各業的 AI 應用,賦能各行各業。
因此,大模型被認為是下一代 AI 基礎平臺。
未來,可能將是 AI 大模型的時代。這幾年,國內外很多企業和學術機構競相推出自己的大模型,尤其是國產化大模型研發工作進展飛速。
今年早些時間,國內企業阿里,商湯和浪潮均發布過大模型。
這次,百度來了。
AIHub獲悉,近日,鵬城實驗室與百度聯合召開發布會,正式發布雙方共同研發的全球首個知識增強千億大模型——鵬城-百度·文心(模型版本號:ERNIE 3.0 Titan)。
該模型參數規模達到 2600 億,是目前全球最大中文單體模型,在 60 多項任務上取得最好效果。
同時,百度產業級知識增強大模型“文心”全景圖首次亮相,從技術自主創新和加速產業應用兩方面,推動中國 AI 發展更進一步。
現場,中國工程院院士、鵬城實驗室主任高文,百度首席技術官、深度學習技術及應用國家工程實驗室主任王海峰共同啟動發布儀式。
中國工程院院士、鵬城實驗室主任高文(左)百度首席技術官王海峰(右)聯合發布鵬城-百度·文心
高文院士在致辭中表示,“預訓練模型對整個科學的發展、社會的發展、創新的發展都是非常重要的工具。運用這個工具,可以幫助做很多人工智能的賦能,不局限于某個領域,這對人工智能的發展都是一個福音?!?/span>
王海峰介紹,百度知識增強大模型從大規模知識和海量數據中融合學習,效率更高、效果更好、具有良好的可解釋性。
從 2019 年 3 月發布文心 ERNIE 1.0,到最新的產業級知識增強大模型文心全景圖,既包含基礎通用的大模型,也包含面向重點領域、重點任務的大模型,以及豐富的工具與平臺,有助于促進技術創新和產業發展。
此次重磅發布的鵬城-百度·文心是“全球首個知識增強千億大模型”,在機器閱讀理解、文本分類、語義相似度計算等 60 多項任務取得最好效果,并在 30 余項小樣本和零樣本任務上刷新基準。
鵬城-百度·文心成功發布的背后,得益于鵬城實驗室的算力系統“鵬城云腦Ⅱ”和飛槳深度學習平臺的強強聯手,解決了超大模型訓練的多個公認技術難題,使鵬城-百度·文心訓練效率大幅提升,模型效果更優。
“鵬城云腦Ⅱ”是國產自主的首個 E 級 AI 算力平臺,曾在多個國際性能測試上獲得冠軍。
飛槳是我國首個自主研發的深度學習開源開放平臺,研制了端到端自適應分布式訓練框架,實現多硬件支持,并行效率高達 90%,有效支持鵬城-百度·文心千億大模型高效、穩定地訓練。
為解決大模型應用落地難題,百度團隊首創大模型在線蒸餾技術,模型參數壓縮率可達 99.98%。壓縮版模型僅保留 0.02%參數規模就能與原有模型效果相當,為產業大規模應用打開新窗口。
為促進產學研協“多輪驅動”,鵬城實驗室與百度成立了鵬城-百度自然語言處理聯合實驗室,并以此為依托,資源共享、優勢互補,在自然語言處理前沿研究和創新應用方面協同攻關,助力打造國家戰略科技力量。
本次聯合發布的鵬城-百度·文心將進一步解決 AI 技術在產業應用中缺乏領域和場景化數據等關鍵難題。
該模型將依托鵬城云腦Ⅱ對外開放,積極聯合“產學研協”各方,充分挖掘 AI 大模型的賦能能力,助力科技創新,推動產業發展。
目前,百度文心通過百度飛槳平臺陸續對外開源開放,并已大規模應用于百度搜索、信息流、智能音箱等互聯網產品,同時通過百度智能云賦能工業、能源、金融、通信、媒體、教育等各行各業。
在金融領域,基于百度文心實現了合同智能解析,能夠在 1 分鐘內完成對相關合同條款文本的解析識別,速度是之前的幾十倍,大大提升了工作效率。
百度智能云的智能客服也基于百度文心提升了服務的精準性,目前已經在中國聯通、浦發銀行等企業應用,拓展到全國各地。
從 AI 核心技術到 AI 基礎平臺,從技術創新到實踐落地再到開放生態,多年來,以百度為代表的中國 AI 企業堅持自主創新、開源開放,加強產學研協合作,不斷降低 AI 技術開發和應用的門檻,為各行各業提供高質量發展新動能。
