谷歌Deep Mind部門人工智能軟件的元老之一近日表示,相似的機器學習方法可以使AlphaGo成為一名優(yōu)秀的撲克玩家。
撲克向來是被認為比圍棋難使用人工智能的游戲。在象棋以及圍棋類的棋盤游戲中,信息是全面的,因為雙方都可以看到一切旗子。而撲克則是一種“不全面信息”的游戲,因為在對抗過程中,玩家只知道自己的牌以及桌面上的牌。玩家需要結(jié)合已知的明牌,以及對對手牌的猜測來決策。因此,撲克玩家在玩牌的過程中,會試圖通過概率以及微動作來“讀”懂其他玩家的行為以及牌面。
由于撲克的性質(zhì),企圖通過機器學習來創(chuàng)造打撲克的軟件對人工智能來說將是一個非常大的挑戰(zhàn)。而且,因為撲克和博弈論相連,它也會有談判以及合作的一面。
雖然圍棋無比的復雜而且全部戰(zhàn)術很難被直接編寫成代碼,但起碼 AlphaGo 可以看到棋盤上的一切。AlphaGo 在兩種人工智能技術,深度強化學習以及樹搜索的幫助下,可以自我算出最佳落子點。簡單來說,深度強化學習是一種是通過正面回報和負面回報來訓練大型神經(jīng)網(wǎng)絡的技術,樹搜索則是一種計算未來步數(shù)的數(shù)學方式。
倫敦大學學院(UCL)的講師,AlphaGo 團隊的首席研究員大衛(wèi)-西爾弗(David Silver)曾在這月初發(fā)表了一片論文,闡述了如何通過相似的方式來創(chuàng)造一個撲克機器人。在一名 UCL 的研究生約翰內(nèi)斯-海因里克(Johannes Heinrich)的幫助下,西爾弗成功的使用深度加強學習計算出了兩種撲克游戲的有效玩法。
這兩種游戲之一是“Leduc”,一款只有6張牌的簡易玩法,另外一種則是德州撲克,全世界最受歡迎的撲克玩法。在 Leduc 中,他們的軟件達到了納什均衡,博弈論中的最優(yōu)反應。在德州撲克中,這軟件達到了高級玩家的水準。
在此同時,一組由牛津大學以及谷歌 DeepMind 的研究員組成的團隊,把他們的注意力轉(zhuǎn)向了兩款魔幻卡牌游戲:萬智牌和爐石傳說。在這兩款游戲中,玩家使用代表各種不同的魔法,武器,以及怪物的牌來攻擊對手。
目前,此項目還處于初期。這個團隊僅僅在訓練他們的神經(jīng)網(wǎng)絡如何理解每張卡牌。他們將使用有結(jié)構(gòu)方式,例如通過顏色或數(shù)字,以及無結(jié)構(gòu)方式,例如通過每張牌的文字,來理解卡牌。
很顯然,谷歌的人工智能團隊還沒有結(jié)束他們制造超人類游戲機器的道路。
麻省理工科技評論傾力打造:DeepTech深科技(公眾號:mit-tr)
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報,一經(jīng)查實,本站將立刻刪除。