必威电竞|足球世界杯竞猜平台

Libratus
來源:互聯(lián)網(wǎng)

Libratus是卡耐基·梅隆大學(xué)開發(fā)的人工智能系統(tǒng)。2017年1月11日至1月30日,美國卡耐基梅隆大學(xué)開發(fā)的人工智能Libratus與4名人類頂尖德州撲克選手之間的“人機大戰(zhàn)”在美國匹茲堡進行,最終人工智能取得勝利。

比賽背景

Libratus 并非唯一一個會玩德州撲克的 AI,就在就在卡內(nèi)基梅隆大學(xué)宣布 Libratus 出戰(zhàn)的幾天前,加拿大阿爾伯特大學(xué)搶先發(fā)表了關(guān)于撲克 AI 的論文,表示他們的 DeepStack 是世界上第一個在“一對一無限注德州撲克”上擊敗了職業(yè)撲克玩家的計算機程序。Libratus是從頭開始編寫的,但它是Claudico的名義上的繼任者,其名字在拉丁語中意為“平衡”。Libratus在匹茲堡超級計算中心的新“Bridges”超級計算機上使用了超過1500萬核心小時的計算,遠超Claudico的2-3百萬核心小時。

比賽過程

卡耐基·梅隆大學(xué)的 Libratus 采用的是一種名為“納什均衡”的對戰(zhàn)策略,在這一策略里,只要其他玩家的策略保持不變,單一玩家就無法通過變換策略獲益。Libratus 要做的就是識別沒有希望的策略,從而更快地找到納什均衡點。經(jīng)過反復(fù)的訓(xùn)練后,Libratus 已經(jīng)能夠忽略那些糟糕的路徑了。Libratus的算法是一個計算策略的算法,它沒有固定的內(nèi)置策略。所涉及的技術(shù)是反事實遺憾最小化的一種新變體,即CFR+方法,以及桑德霍姆和他的博士生諾姆·布朗為解決終局問題開發(fā)的一種新技術(shù)。在比賽期間,Libratus白天與玩家對抗,晚上通過分析先前的游戲和當(dāng)天的結(jié)果,特別是它的損失,自行完善其策略。它在比賽中又使用了400萬核心小時的Bridges超級計算機

比賽成績

2017年1月11日至1月30日,在賓夕法尼亞州匹茲堡的Rivers賭場,卡耐基·梅隆大學(xué)(CMU)開發(fā)的人工智能系統(tǒng)Libratus與4名人類選手共玩了12萬手一對一不限注的德州撲克。到比賽結(jié)束時,人工智能領(lǐng)先人類選手共約177萬美元的籌碼。在4名人類頂尖選手中,輸?shù)米钌俚囊晃灰猜浜笕斯ぶ悄芗s8.6萬美元的籌碼。Libratus在比賽的第一天就一直領(lǐng)先于人類玩家,最終以壓倒性的勝利結(jié)束比賽,其勝率相當(dāng)于每100手牌贏得14.7個大盲注,這在撲克中被認為是異常高的勝率,具有高度的統(tǒng)計學(xué)意義。在人類玩家中,董金排名第一,麥考利排名第二,吉米·周排名第三,杰森·萊斯排名第四。獎金為20萬美元,全部分給了人類玩家,每個玩家最少獲得2萬美元,其余根據(jù)他們對抗人工智能的成功程度進行分配。

特殊規(guī)則與比賽設(shè)置

由于Libratus只與另一個人類或計算機玩家對戰(zhàn),因此強制執(zhí)行了兩人德州撲克的特殊“對決”規(guī)則。四名玩家分為兩個由兩名玩家組成的小組,其中一個小組在公開場合比賽,而另一個小組位于一個被稱為“地牢”的單獨房間,不允許使用手機或其他外部通訊設(shè)備。地牢小組得到了與公開場合發(fā)放的相同的牌序,只是雙方互換了:地牢中的人類得到了AI在公開場合得到的牌,反之亦然。這個設(shè)置旨在抵消牌運的影響。

參考資料 >

生活家百科家居網(wǎng)