全文总字数:1505字
1. 毕业设计(论文)主要内容:
Gym是OpenAI提供的一个开发、比较各种强化学习算法的工具库,提供了若干内置的环境,是学习、测试、开发强化学习算法的一个平台,gym库的一个很大的特点是可以可视化,把强化学习算法的人机交互用动画的形式呈现出来。
在本研究中,针对乒乓球的Atari游戏环境(Pong-v0),训练出一个基于强化学习的游戏AI。
并搭建游戏环境,将训练好的AI模型应用到游戏环境中,以达到与人类对抗的效果。
2. 毕业设计(论文)主要任务及要求
主要任务:
1. 搭建gym开发环境,熟悉平台相关源码
2. 编写基于强化学习的算法,并进行训练和测试工作,对算法进行评估3. 在平台上搭建相关的游戏环境,并应用训练完成的游戏模型进行测试。要求:
3. 毕业设计(论文)完成任务的计划与安排
2020年1月11日-2020年1月31日:阅读强化学习文献及相关开发文档2020年2月1日-2020年2月28日:学习强化学习相关算法和技术2020年3月1日-2020年3月31日:完成gym环境搭建并熟悉相关源码,搭建游戏环境2020年4月1日-2020年4月30日:完成基于强化学习的算法编写、测试等工作,并将其模型应用到游戏环境中2020年5月1日-2020年5月24日:撰写并提交毕业论文。
4. 主要参考文献
[1] Sutton R S, Barto A G. Introduction to reinforcement learning[M]. Cambridge: MIT press, 1998.[2] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529.[3] Brockman G, Cheung V, Pettersson L, et al. Openai gym[J]. arXiv preprint arXiv:1606.01540, 2016.[4] Singh A, Gupta V. Pong Game Optimization Using Policy Gradient Algorithm[C]//International Conference on Next Generation Computing Technologies. Springer, Singapore, 2017: 535-548.[5] Ignatov A, Timofte R, Chou W, et al. Ai benchmark: Running deep neural networks on android smartphones[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 0-0.
以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。