本页使用了标题或全文手工转换

AlphaZero

来自Local Chinese Wikipedia

~2026-21361-67（留言）2026年4月7日 (二) 07:56的版本（修正筆誤）

(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)

跳转到导航跳转到搜索

页面Module:Hatnote/styles.css没有内容。

页面Module:Message box/mbox.css没有内容。

File:Antistub.svg

此条目需要扩充。 (2018年5月8日)
请协助改善这篇条目，更进一步的信息可能会在讨论页或扩充请求中找到。请在扩充条目后将此模板移除。

页面Module:Message box/mbox.css没有内容。

File:Ambox important.svg

此条目需要精通或熟悉人工智能、运动的编者参与及协助编辑。 (2018年5月8日)
请邀请适合的人士改善本条目。更多的细节与详情请参见讨论页。
另见其他需要人工智能专家关注的页面。

AlphaZero是DeepMind所开发的人工智能软件^[1]。

简介[编辑]

页面Module:Hatnote/styles.css没有内容。

AlphaZero使用与AlphaGo Zero类似但更一般性的算法，在不做太多改变的前提下，并将算法从围棋延伸到将棋与国际象棋上。AlphaZero与AlphaGo Zero不同之处在于^[1]：

AlphaZero的超参数是硬编码的。
AlphaZero现在会不断更新人工神经网络。
围棋在某些情况是对称或是可旋转的，AlphaGo Zero的程序利用这个特性降低计算复杂性，AlphaZero因为延伸到将棋与国际象棋则拿掉了这段程序。
国际象棋有已知的和局终局数据库（英语：Endgame tablebase），所以AlphaZero利用这个终局数据库纳入计算。

与Stockfish以及elmo的比较[编辑]

AlphaZero基于蒙特卡洛树搜索，每秒只能搜索8万步（国际象棋）与4万步（将棋），相较于Stockfish每秒可以7000万步，以及elmo（日语：elmo (コンピュータ将棋ソフト)）每秒可以3500万步，AlphaZero则是利用了人工神经网络提升了搜索的质量^[1]。

训练[编辑]

AlphaZero使用了5,000颗第一代的TPU进行训练。

成绩[编辑]

国际象棋[编辑]

在4小时的训练后（约自我训练4400万局^[1]^{: Table S3}），AlphaZero以28胜72和0败的成绩打败Stockfish^[1]^{: Table 1}。

将棋[编辑]

在12小时的训练后（约自我训练2400万局^[1]^{: Table S3}），AlphaZero以90胜2和8败的成绩打败elmo（日语：elmo (コンピュータ将棋ソフト)）^[1]^{: Table 1}。

围棋[编辑]

在34小时的训练后（约自我训练2100万局^[1]^{: Table S3}），AlphaZero以60胜40败的成绩打败AlphaGo Zero^[1]^{: Table 1}。

相关链接[编辑]

参考资料[编辑]

↑ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 ^1.7 ^1.8 Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. 2017-12-05 [2018-05-09]. （原始内容存档于2017-12-08）.

外部链接[编辑]

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm（页面存档备份，存于互联网档案馆），AlphaZero的论文。
Game Downloads（页面存档备份，存于互联网档案馆），AlphaZero与国际象棋软件Stockfish的对弈记录。
Chess.com Youtube playlist for AlphaZero vs. Stockfish（页面存档备份，存于互联网档案馆）

Template:Google AI

package.lua第80行Lua错误：module 'Module:Authority control/config' not found

检索自“https://arolstar52-zhtest.hf.space/index.php?title=AlphaZero&oldid=3058410”

分类：