你好,這里是AIHub,繼續跟你分享人工智能相關的新鮮見聞。
今天分享的是AI在談判策略方面的進展,主角是來自Facebook母公司Meta開發的一個叫“西塞羅”的AI模型,它在一款由多名真人玩家參與的談判策略戰棋類游戲中,超過了大部分人的表現。
早在1997年深藍在國際象棋比賽中擊敗加里·卡斯帕羅夫之前,棋盤游戲就已經成為衡量人工智能成就的一個有用指標。
2016年,谷歌AlphaGo擊敗世界圍棋冠軍李世石,將此類AI帶到一個新的高度。
此前,AI的成功主要體現在純粹的對抗性環境中,如國際象棋、圍棋和撲克。在這些環境中,與對手交流沒有價值,AI可以不斷和自己進行游戲來學習,即通過具有足夠計算和模型能力的自我游戲能力來解決問題。
但這款游戲不同,過去被認為是人工智能難以克服的挑戰,因為需要掌握理解其他玩家的動機和觀點,并制定復雜的計劃以自然語言與其他人類玩家完成協議,在過程中還需要不斷調整策略,最終創建伙伴關系和聯盟,才有可能勝利。
這款游戲叫《外交》,是一款在海外風靡了60多年的,主打談判和策略的戰棋類游戲。

游戲《外交》的畫面(來自官網webdiplomacy.net)
游戲背景設定在一戰前的歐洲,一般有4—7名玩家參與,他們各自扮演不同的歐洲國家英、法、德、意、奧匈、俄國和土耳其,擁有棋盤上的一部分“領土”和“兵力”。
在每一回合游戲開始之前,玩家之間可以通過公開或者私下談判,討論是否形成聯盟、宣戰,或是設定一些外交底線。在商量完策略之后,游戲回合正式開始,玩家們既可以按照之前承諾的方式調動兵力,也可以選擇欺騙和背叛。
在多個回合之后,誰能夠在棋盤上獲得超過一半的“領土”,誰就勝出。
可以看出,游戲規則本身并不復雜。真正復雜的,是參與游戲的真人玩家之間,通過對話,探討行動策略,取得相互信任,乃至達成協議的過程。
這種跟真人談判的工作,在過去被認為是最不適合AI從事的工作之一。
這里面的難點主要有三個。
首先是要求AI能夠根據游戲進展,制定出符合玩家共同利益,且讓自己獲勝的策略。
其次,要運用恰當的語言表述,取得其他玩家的信任,使得其他玩家按照AI指定的策略來行動。
第三,當然是不能被別的玩家發現自己只是一個算法。
那么,這個叫“西塞羅”的算法是怎么做到的呢?
這個算法主要包含兩部分:策略推理(類似于AlphaGo)和自然語言處理(類似于GPT-3)。
先說策略推理部分。在每一回合開始之前,“西塞羅”會運用“策略推理”模塊,根據棋盤上各個玩家的當前“兵力分配”,計算出一套可以取勝的行動策略。進一步地,“西塞羅”還會把這套策略實施之后其他玩家可能的反應也納入考慮。經過反復迭代之后,最終形成一個最有可能獲勝,而且容易獲得其他玩家支持的行動策略。確定策略之后,接下來就是說服工作。
“西塞羅”會將“策略推理”模塊得出的結論輸入到“自然語言處理”模塊中,這個模塊負責將冷冰冰的行動策略,轉化成容易被真人玩家聽懂并且信任的談判語言。
這個過程可不僅僅是把AI的策略翻譯成順暢的人話這么簡單。AI的表達還要考慮到之前跟這個玩家已經達成了哪些共識、有哪些合作或者背叛記錄等等,根據對方的行事風格,來做出更有針對性的談判。

“西塞羅”在游戲中與人類對話
在經過4萬多盤游戲數據的訓練之后,“西塞羅”在今年的8—10月被“悄悄”放到了線上平臺去參與游戲。

進行中的游戲界面
在《外交》游戲的40場匿名在線比賽中,“西塞羅”的平均得分是人類選手的兩倍多,在72小時的比賽中,它發送了5277條信息,在不止一場比賽中排名前10%,最終的成績超過了90%的真人玩家。
當然,Meta公司研發“西塞羅”,絕不僅僅只是為了讓它成為游戲高手。
這項研究的意義在于,第一次把策略推理和自然語言處理這兩個相距很遠的AI領域進行了有效整合,讓AI能夠進行“有目的的溝通”。
我們以往聽到的一些AI語言模型,比如AI寫作、AI聊天等等,這些算法生成的對話其實都沒有明確的目的性。只是根據大量過去的對話記錄,猜出來下一步大概應該說啥。
而這項研究中的“西塞羅”,是有一個明確的說服目標,所有對話內容,都需要圍繞這個目標而生成。這種帶有目的和策略的對話機器人,就比過去那種漫無目的的閑聊,有了更多的應用價值。
比如,在AI客服領域,這種對話模型就可以更好地針對客戶遇到的問題,制訂符合客戶利益的策略,并且把客戶導向具體的行動。
再比如,在游戲設計領域,這種對話模型也可以讓游戲里面的NPC根據玩家過去的經歷生成對話,讓玩家每一次玩游戲的時候,都能體驗不同的劇情。
但此項技術也被視作雙刃劍。它可以用來操縱人類,通過模仿人類并根據上下文發言,以危險的方式欺騙人類。對此,Meta希望研究人員能夠“以負責任的方式”構建代碼,并表示已采取步驟檢測和刪除“這個新領域中的有害信息”,這可能是指“西塞羅”從攝入的互聯網文本中學習到的對話,這對于大型語言模型來說是一個風險。
目前Meta的“西塞羅”研究發表在《自然》雜志上,標題為“通過將語言模型與戰略推理相結合,在《外交》游戲中進行人類水平的游戲”。
