欧美成人三级视频网站,国产一区国产二区国产三区,青青久久av北条麻妃黑人,亚州综合一区

訊飛智文
當前位置:首頁>AI資訊>AI“談判專家”來了!可制定策略,“忽悠”人類玩家

AI“談判專家”來了!可制定策略,“忽悠”人類玩家

你好,這里是AIHub,繼續跟你分享人工智能相關的新鮮見聞。

今天分享的是AI在談判策略方面的進展,主角是來自Facebook母公司Meta開發的一個叫“西塞羅”的AI模型,它在一款由多名真人玩家參與的談判策略戰棋類游戲中,超過了大部分人的表現。

早在1997年深藍在國際象棋比賽中擊敗加里·卡斯帕羅夫之前,棋盤游戲就已經成為衡量人工智能成就的一個有用指標。

2016年,谷歌AlphaGo擊敗世界圍棋冠軍李世石,將此類AI帶到一個新的高度。

此前,AI的成功主要體現在純粹的對抗性環境中,如國際象棋、圍棋和撲克。在這些環境中,與對手交流沒有價值,AI可以不斷和自己進行游戲來學習,即通過具有足夠計算和模型能力的自我游戲能力來解決問題。

但這款游戲不同,過去被認為是人工智能難以克服的挑戰,因為需要掌握理解其他玩家的動機和觀點,并制定復雜的計劃以自然語言與其他人類玩家完成協議,在過程中還需要不斷調整策略,最終創建伙伴關系和聯盟,才有可能勝利。

這款游戲叫《外交》,是一款在海外風靡了60多年的,主打談判和策略的戰棋類游戲。

游戲《外交》的畫面(來自官網webdiplomacy.net)

游戲背景設定在一戰前的歐洲,一般有4—7名玩家參與,他們各自扮演不同的歐洲國家英、法、德、意、奧匈、俄國和土耳其,擁有棋盤上的一部分“領土”和“兵力”。

在每一回合游戲開始之前,玩家之間可以通過公開或者私下談判,討論是否形成聯盟、宣戰,或是設定一些外交底線。在商量完策略之后,游戲回合正式開始,玩家們既可以按照之前承諾的方式調動兵力,也可以選擇欺騙和背叛。

在多個回合之后,誰能夠在棋盤上獲得超過一半的“領土”,誰就勝出。

可以看出,游戲規則本身并不復雜。真正復雜的,是參與游戲的真人玩家之間,通過對話,探討行動策略,取得相互信任,乃至達成協議的過程。

這種跟真人談判的工作,在過去被認為是最不適合AI從事的工作之一。

這里面的難點主要有三個。

首先是要求AI能夠根據游戲進展,制定出符合玩家共同利益,且讓自己獲勝的策略。

其次,要運用恰當的語言表述,取得其他玩家的信任,使得其他玩家按照AI指定的策略來行動。

第三,當然是不能被別的玩家發現自己只是一個算法。

那么,這個叫“西塞羅”的算法是怎么做到的呢?

這個算法主要包含兩部分:策略推理(類似于AlphaGo)自然語言處理(類似于GPT-3)

先說策略推理部分。在每一回合開始之前,“西塞羅”會運用“策略推理”模塊,根據棋盤上各個玩家的當前“兵力分配”,計算出一套可以取勝的行動策略。進一步地,“西塞羅”還會把這套策略實施之后其他玩家可能的反應也納入考慮。經過反復迭代之后,最終形成一個最有可能獲勝,而且容易獲得其他玩家支持的行動策略。確定策略之后,接下來就是說服工作

“西塞羅”會將“策略推理”模塊得出的結論輸入到“自然語言處理”模塊中,這個模塊負責將冷冰冰的行動策略,轉化成容易被真人玩家聽懂并且信任的談判語言。

這個過程可不僅僅是把AI的策略翻譯成順暢的人話這么簡單。AI的表達還要考慮到之前跟這個玩家已經達成了哪些共識、有哪些合作或者背叛記錄等等,根據對方的行事風格,來做出更有針對性的談判。

“西塞羅”在游戲中與人類對話

在經過4萬多盤游戲數據的訓練之后,“西塞羅”在今年的8—10月被“悄悄”放到了線上平臺去參與游戲。

進行中的游戲界面

在《外交》游戲的40場匿名在線比賽中,“西塞羅”的平均得分是人類選手的兩倍多,在72小時的比賽中,它發送了5277條信息,在不止一場比賽中排名前10%,最終的成績超過了90%的真人玩家。

當然,Meta公司研發“西塞羅”,絕不僅僅只是為了讓它成為游戲高手。

這項研究的意義在于,第一次把策略推理和自然語言處理這兩個相距很遠的AI領域進行了有效整合,讓AI能夠進行“有目的的溝通”。

我們以往聽到的一些AI語言模型,比如AI寫作、AI聊天等等,這些算法生成的對話其實都沒有明確的目的性。只是根據大量過去的對話記錄,猜出來下一步大概應該說啥。

而這項研究中的“西塞羅”,是有一個明確的說服目標,所有對話內容,都需要圍繞這個目標而生成。這種帶有目的和策略的對話機器人,就比過去那種漫無目的的閑聊,有了更多的應用價值。

比如,在AI客服領域,這種對話模型就可以更好地針對客戶遇到的問題,制訂符合客戶利益的策略,并且把客戶導向具體的行動。

再比如,在游戲設計領域,這種對話模型也可以讓游戲里面的NPC根據玩家過去的經歷生成對話,讓玩家每一次玩游戲的時候,都能體驗不同的劇情。

但此項技術也被視作雙刃劍。它可以用來操縱人類,通過模仿人類并根據上下文發言,以危險的方式欺騙人類。對此,Meta希望研究人員能夠“以負責任的方式”構建代碼,并表示已采取步驟檢測和刪除“這個新領域中的有害信息”,這可能是指“西塞羅”從攝入的互聯網文本中學習到的對話,這對于大型語言模型來說是一個風險。

目前Meta的“西塞羅”研究發表在《自然》雜志上,標題為“通過將語言模型與戰略推理相結合,在《外交》游戲中進行人類水平的游戲”。

?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。 Trae
error:
主站蜘蛛池模板: 武川县| 兴业县| 东台市| 石林| 宁安市| 吉安县| 夏津县| 霍林郭勒市| 开封县| 金湖县| 紫金县| 治多县| 平邑县| 扎赉特旗| 滕州市| 萨嘎县| 台安县| 寻乌县| 陆河县| 旬阳县| 吴旗县| 孝义市| 宁德市| 南召县| 贡嘎县| 汶川县| 富川| 北川| 图木舒克市| 屯留县| 集贤县| 台州市| 淳安县| 新乐市| 皋兰县| 淄博市| 革吉县| 怀远县| 红原县| 陈巴尔虎旗| 海淀区|