免费观看不卡av,在线日韩av永久免费观看,精品亚洲免a

你好，這里是AIHub，繼續跟你分享人工智能相關的新鮮見聞。

今天分享的是AI在談判策略方面的進展，主角是來自Facebook母公司Meta開發的一個叫“西塞羅”的AI模型，它在一款由多名真人玩家參與的談判策略戰棋類游戲中，超過了大部分人的表現。

早在1997年深藍在國際象棋比賽中擊敗加里·卡斯帕羅夫之前，棋盤游戲就已經成為衡量人工智能成就的一個有用指標。

2016年，谷歌AlphaGo擊敗世界圍棋冠軍李世石，將此類AI帶到一個新的高度。

此前，AI的成功主要體現在純粹的對抗性環境中，如國際象棋、圍棋和撲克。在這些環境中，與對手交流沒有價值，AI可以不斷和自己進行游戲來學習，即通過具有足夠計算和模型能力的自我游戲能力來解決問題。

但這款游戲不同，過去被認為是人工智能難以克服的挑戰，因為需要掌握理解其他玩家的動機和觀點，并制定復雜的計劃以自然語言與其他人類玩家完成協議，在過程中還需要不斷調整策略，最終創建伙伴關系和聯盟，才有可能勝利。

這款游戲叫《外交》，是一款在海外風靡了60多年的，主打談判和策略的戰棋類游戲。

游戲《外交》的畫面（來自官網webdiplomacy.net）

游戲背景設定在一戰前的歐洲，一般有4—7名玩家參與，他們各自扮演不同的歐洲國家英、法、德、意、奧匈、俄國和土耳其，擁有棋盤上的一部分“領土”和“兵力”。

在每一回合游戲開始之前，玩家之間可以通過公開或者私下談判，討論是否形成聯盟、宣戰，或是設定一些外交底線。在商量完策略之后，游戲回合正式開始，玩家們既可以按照之前承諾的方式調動兵力，也可以選擇欺騙和背叛。

在多個回合之后，誰能夠在棋盤上獲得超過一半的“領土”，誰就勝出。

可以看出，游戲規則本身并不復雜。真正復雜的，是參與游戲的真人玩家之間，通過對話，探討行動策略，取得相互信任，乃至達成協議的過程。

這種跟真人談判的工作，在過去被認為是最不適合AI從事的工作之一。

這里面的難點主要有三個。

首先是要求AI能夠根據游戲進展，制定出符合玩家共同利益，且讓自己獲勝的策略。

其次，要運用恰當的語言表述，取得其他玩家的信任，使得其他玩家按照AI指定的策略來行動。

第三，當然是不能被別的玩家發現自己只是一個算法。

那么，這個叫“西塞羅”的算法是怎么做到的呢？

這個算法主要包含兩部分：策略推理（類似于AlphaGo）和自然語言處理（類似于GPT-3）。

先說策略推理部分。在每一回合開始之前，“西塞羅”會運用“策略推理”模塊，根據棋盤上各個玩家的當前“兵力分配”，計算出一套可以取勝的行動策略。進一步地，“西塞羅”還會把這套策略實施之后其他玩家可能的反應也納入考慮。經過反復迭代之后，最終形成一個最有可能獲勝，而且容易獲得其他玩家支持的行動策略。確定策略之后，接下來就是說服工作。

“西塞羅”會將“策略推理”模塊得出的結論輸入到“自然語言處理”模塊中，這個模塊負責將冷冰冰的行動策略，轉化成容易被真人玩家聽懂并且信任的談判語言。

這個過程可不僅僅是把AI的策略翻譯成順暢的人話這么簡單。AI的表達還要考慮到之前跟這個玩家已經達成了哪些共識、有哪些合作或者背叛記錄等等，根據對方的行事風格，來做出更有針對性的談判。