全文总字数:1569字
1. 毕业设计(论文)主要内容:
AlphaGo Zero作为谷歌下属公司DeepMind的一个程序,能够从空白状态学起,在无任何人类输入的条件下,能够迅速自学围棋,并以100:0的战绩击败“前辈”。其中有涉及到强化学习以及博弈论等知识。
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。博弈论是二人或多人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的目的。博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。
本研究主要借助AlphaGo Zero中蒙特卡洛搜索树的思想,来指导机器下五子棋,来完成五子棋的人机博弈。
2. 毕业设计(论文)主要任务及要求
主要任务:
AlphaGo Zero本质上是一种最优搜索算法,其中用到的主要算法是蒙特卡洛搜索树。本研究中,五子棋人机博弈系统主要借助蒙特卡洛搜索树,来进行系统的设计以及可视化的实现。
熟悉C、C 语言,Matlab语言或者Python语言,熟悉算法的分析与设计,熟悉强化学习,博弈论以及蒙特卡罗搜索树,熟悉软件工程方法学。
3. 毕业设计(论文)完成任务的计划与安排
2019年1月11日-2019年1月31日:阅读文献,主要是强化学习相关的文献;
2019年2月1日-2019年2月28日:掌握技能,具有针对性的学习编程语言,算法,强化学习以及博弈论相关知识,尝试实现已阅读文献中的方法,完成开题报告;
2019年3月1日-2019年3月31日:运用强化学习算法以及博弈论知识,设计五子棋人机博弈算法,从理论和实验上进行验证;
4. 主要参考文献
[1]Sutton R, Barto A. Reinforcement Learning:An Introduction[M]. 1998.
[2]Owen G . Game theory[J]. Encyclopedia of Physical Science Technology,2003, 114(3):389-396.
[3]Silver D , Schrittwieser J , Simonyan K , et al. Mastering the game of Gowithout human knowledge[J]. Nature, 2017, 550(7676):354-359.
以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。