OpenAI 最近宣布了其聊天機器人 ChatGPT 的一次重大更新,這也是自引入 GPT-4 以來最大的一次改進。新的 ChatGPT 現在不僅可以理解文本,還能“看、聽、說”。具體來說,它能理解口語,用合成的聲音回應,并處理圖像。

這次更新是自引入 GPT-4 以來 OpenAI 最大的一次改進。用戶可以選擇使用五種不同的合成聲音與 ChatGPT 進行語音對話,并向其分享圖片并突出顯示重點或分析區域(例如:「這些是什么類型的云?」)。
這些變化將在未來兩周內推出給付費用戶。雖然語音功能將僅限于 iOS 和 Android 應用程序,但圖像處理功能將適用于所有平臺。
OpenAI 在其網站上提供了一個宣傳視頻,展示了與 ChatGPT 的交流演示:用戶詢問如何升起自行車座椅,并提供了照片、使用手冊和用戶工具箱的圖片。ChatGPT 會做出反應并建議用戶如何完成這一過程。
那么它是如何工作的呢?OpenAI 并未公布 GPT-4 或其多模態功能如何在后臺運行的技術細節,但根據其他公司(包括 OpenAI 合作伙伴微軟)的已知人工智能研究,多模態人工智能模型通常會將文本和圖像轉換到一個共享的編碼空間,從而使它們能夠通過相同的神經網絡處理各種類型的數據。OpenAI 可以使用 CLIP 在視覺數據和文本數據之間架起一座橋梁,將圖像和文本表征整合到同一個潛在空間(一種矢量化的數據關系網)中。這種技術可以讓 ChatGPT 跨文本和圖像進行上下文推理,不過這只是一種推測。
此次大規模推廣新功能正值聊天機器人領導者之間人工智能競賽日益升級之際,如 OpenAI、微軟、谷歌和?Anthropic?等公司都在努力鼓勵消費者采納生成式人工智能技術,并競相發布新的聊天機器人應用程序和特性。谷歌已經宣布了 Bard 聊天機器人的一系列更新,微軟則為必應添加了視覺搜索功能。
據 PitchBook 報道,今年早些時候,微軟擴大了對 OpenAI 的投資——追加 100 億美元——使其成為本年度最大的人工智能投資。據報道,今年 4 月,這家初創公司完成了 3 億美元的股票出售,估值在 270 億至 290 億美元之間,投資方包括紅杉資本(Sequoia Capital)和 Andreessen Horowitz 等公司。
專家們對人工智能生成的合成聲音提出了關注,這種技術可以讓用戶獲得更自然的體驗,但也可能會產生更令人信服的深度偽造。網絡威脅行為者和研究人員已經開始探索如何利用深度偽造來滲透網絡安全系統。
OpenAI 在周一發布公告時承認了這些問題,并表示合成聲音是「與我們直接合作過的配音演員創作」的,而不是從陌生人那里收集來的。
該公司還未提供有關 OpenAI 將如何使用消費者語音輸入或如何保護數據(如果使用的話)的信息。該公司服務條款規定,「在適用法律允許范圍內」,消費者擁有其輸入內容所有權。
OpenAI 引述了其有關語音交互指南中所述內容,其中指出?OpenAI 不會保留音頻剪輯,并且這些剪輯本身并不用于改進模型。但該公司還指出,在此過程中轉錄被視為輸入,并可能用于改進大型語言模型。
