中科院训练猕猴玩《吃豆人》游戏

A+
A-

2022-05-28 10:56 来源：IT之家阅读量：14833

，中科院发布消息最近几天，eLife在网上发表了一篇题为《吃豆人游戏中猕猴的分层组合策略》的研究论文该研究由中国科学院脑科学与智能技术卓越中心和灵长类神经生物学国家重点实验室杨天明研究组完成

本研究设计了一种新颖有趣的实验范式——吃豆人游戏，并训练猕猴学会使用操纵杆完成这种游戏范式的主要任务该研究将复杂行为范式与人工智能建模相结合，定量探索了恒河猴解决复杂问题的启发式行为策略特征，为解释大脑实现高级认知功能的计算机制提供了全新的方法和重要启示

据介绍，在日常生活中，大多数人的重要目标通常都超出了简单决策的范围，而这些目标可以通过设计一系列细致的基本策略来实现个人可以根据目前的情况，优先考虑每种策略的收益和风险，分析比较容易完成的子任务中的具体问题

高度动态的环境总会伴伴随着意想不到的意外和干扰，因此在决策过程中保持相机的灵活性至关重要虽然研究动物复杂的行为和潜在的神经机制是神经科学和认知科学领域持续受到关注的科学问题，但大多数动物行为范式都不够复杂，不足以支持研究动物如何简化动态和多样的策略来完成复杂的高级认知任务

为了解决这些问题，本研究改编了经典街机游戏《吃豆人》，并训练猕猴学会使用操纵杆控制Pac—Man在封闭的迷宫中移动以收集食物猕猴躲避敌人追击会获得实时果汁作为奖励经过一段时间的训练，猕猴可以理解游戏中各种元素与之前奖惩的关系，并据此做出连续的运动选择，以躲避敌人的追击，获得更多的奖励，甚至在特定的规则下将敌人杀回来虽然游戏的动态性很强，元素也很复杂，但本质上类似于动物的野外觅食任务，这是本研究中动物训练成功的关键因素

为了定量描述恒河猴的行为策略特征，研究人员利用机器学习和统计方法对游戏玩法和多种智能策略模型进行动态拟合和匹配这种多智能体协作决策模型也是实现人工智能领域吃豆人游戏最高分的设计关键这个计算模型设计了一组策略基组，策略基组中的每个策略只解决游戏中的一个子任务，比如觅食最近的食物，躲避敌人的追击或者通过能量豆食物改变敌人的状态

在该模型中，不同策略被比较并拟合到猕猴的博弈行为数据中，从而推断出策略的动态权重计算模型预测猕猴手柄运动的准确率达到90%以上更重要的是，策略的动态权重分析表明，恒河猴采用分而治之的启发式方法，每次只关注游戏的一个子任务，以分布式的方式解决这些问题，从而实现游戏整体目标的优化研究发现，恒河猴可以按照时间顺序组合这些策略库，构建更复杂的复合策略来处理特定的，更具挑战性的任务研究表明，猕猴能够最优地掌握一组策略库，利用分层决策解决复杂任务

该研究聚焦于系统认知神经科学与人工智能的交叉领域，将复杂的行为范式与严谨的计算建模相结合，为未来探索灵长类动物的高级认知提供了重要的实验证据和新颖的分析方法本站了解到，该研究工作得到了科技部，中科院，上海市科委和国家自然科学基金委员会的支持

编辑：牧晓