來源:互聯網
AlphaGoZero是谷歌下屬公司DeepMind的新版程序。
從空白狀態學起,在無任何人類輸入的條件下,AlphaGoZero能夠迅速自學圍棋,并以100:0的戰績擊敗“前輩”。
發展沿革
2017年10月19日凌晨,在國際學術期刊《自然》(Nature)上發表的一篇研究論文中,谷歌下屬公司Deepmind報告新版程序AlphaGoZero:從空白狀態學起,在無任何人類輸入的條件下,它能夠迅速自學圍棋,并以100:0的戰績擊敗“前輩”。DeepMind的論文一發表,TPU的銷量就可能要大增了。其100:0戰績有“造”真嫌疑。它經過3天的訓練便以100:0的戰績擊敗了他的哥哥AlphoGoLee,經過40天的訓練便擊敗了它的另一個哥哥AlphoGoMaster
工作原理
拋棄人類經驗”和“自我訓練”并非AlphaGoZero最大的亮點,其關鍵在于采用了新的reinforcementlearning(強化學習的算法),并給該算法帶了新的發展。
戰績
AlphaGoZero僅擁有4個TPU,零人類經驗,其自我訓練的時間僅為3天,自我對弈的棋局數量為490萬盤。但它以100:0的戰績擊敗前輩。
參考資料 >
人類不是最好對手!新AlphaGo放棄人類經驗后棋力飛漲_綠政公署_澎湃新聞-The Paper.澎湃新聞.2021-06-14