AlphaZero

来自Local Chinese Wikipedia
~2026-21361-67留言2026年4月7日 (二) 07:56的版本 (修正筆誤)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转到导航 跳转到搜索

页面Module:Hatnote/styles.css没有内容。

页面Module:Message box/mbox.css没有内容。

页面Module:Message box/mbox.css没有内容。

AlphaZeroDeepMind所开发的人工智能软件[1]

简介[编辑]

页面Module:Hatnote/styles.css没有内容。

AlphaZero使用与AlphaGo Zero类似但更一般性的算法,在不做太多改变的前提下,并将算法从围棋延伸到将棋国际象棋上。AlphaZero与AlphaGo Zero不同之处在于[1]

  • AlphaZero的超参数是硬编码的。
  • AlphaZero现在会不断更新人工神经网络
  • 围棋在某些情况是对称或是可旋转的,AlphaGo Zero的程序利用这个特性降低计算复杂性,AlphaZero因为延伸到将棋与国际象棋则拿掉了这段程序。
  • 国际象棋有已知的和局终局数据库英语Endgame tablebase,所以AlphaZero利用这个终局数据库纳入计算。

与Stockfish以及elmo的比较[编辑]

AlphaZero基于蒙特卡洛树搜索,每秒只能搜索8万步(国际象棋)与4万步(将棋),相较于Stockfish每秒可以7000万步,以及elmo日语elmo (コンピュータ将棋ソフト)每秒可以3500万步,AlphaZero则是利用了人工神经网络提升了搜索的质量[1]

训练[编辑]

AlphaZero使用了5,000颗第一代的TPU进行训练。

成绩[编辑]

国际象棋[编辑]

在4小时的训练后(约自我训练4400万局[1]: Table S3 ),AlphaZero以28胜72和0败的成绩打败Stockfish[1]: Table 1 

将棋[编辑]

在12小时的训练后(约自我训练2400万局[1]: Table S3 ),AlphaZero以90胜2和8败的成绩打败elmo日语elmo (コンピュータ将棋ソフト)[1]: Table 1 

围棋[编辑]

在34小时的训练后(约自我训练2100万局[1]: Table S3 ),AlphaZero以60胜40败的成绩打败AlphaGo Zero[1]: Table 1 

相关链接[编辑]

参考资料[编辑]

  1. 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. 2017-12-05 [2018-05-09]. (原始内容存档于2017-12-08). 

外部链接[编辑]

Template:Google AI

package.lua第80行Lua错误:module 'Module:Authority control/config' not found