中科院训练猕猴玩《吃豆人》游戏

2022-05-27 22:54 IT之家 - 汪淼

IT之家 5 月 27 日消息，中科院发布消息，近日，eLife 在线发表了题为《猕猴在吃豆人游戏中的分层组合策略》的研究论文。该研究由中国科学院脑科学与智能技术卓越创新中心（神经科学研究所）、灵长类神经生物学国家重点实验室杨天明研究组完成。

该研究设计了一种新颖有趣的实验范式 —— 吃豆人游戏，并训练猕猴学会使用摇杆完成该游戏范式的主要任务。该研究将复杂的行为范式和人工智能建模结合，定量探究了猕猴解决复杂问题的启发式行为策略特点，为阐释大脑实现高级认知功能的计算机制提供了全新方法和重要启发。

据介绍，日常生活中，人们大部分的重要目标通常超出简单决策的实现范畴，而这些目标可以通过设计一系列缜密的基础策略组合来实现。个体可以根据当前的情况优先考虑每一种策略的收益和风险，并在较容易完成的子任务中具体问题具体分析。

高度动态变化的环境会时刻伴随着出乎意料的意外和干扰，因此保持相机而变的灵活性在决策过程中至关重要。尽管研究动物的复杂行为和潜在的神经机制在神经科学和认知科学领域是持续受到关注的科学问题，但大部分的动物行为范式复杂程度，均不足以支持研究动物如何简化动态多样的策略以完成复杂的高级认知任务。

为解决这些问题，该研究改编经典街机游戏吃豆人（图 A），并训练猕猴学会使用操纵杆来控制吃豆人在一个封闭的迷宫中运动收集食物，猕猴避开敌人追击将获得实时果汁作为奖励。在经过一段时间的训练后，猕猴能够理解游戏中各个元素和奖励惩罚之前的关联，并依次相应地做出连续的运动抉择，来躲避敌人的追击，获取更多的奖励，甚至在特定规则下对敌人实现反杀。虽然该游戏高度动态且元素复杂，但本质上它比较类似动物野外觅食任务，这或是该研究成功训练动物的关键要素。

为定量地描述猕猴行为策略的特点，科研人员利用机器学习和统计方法，动态拟合匹配游戏玩法与多个智能策略模型。这种多智能体协作决策模型也是人工智能领域实现吃豆人游戏最高分数的设计关键。该计算模型设计了一组策略基组，策略基组中每个策略均只解决游戏中一个子任务，例如觅食最近的食物、躲避敌人追击或通过能量豆食物改变敌人的状态。

该模型将不同的策略基组对比拟合到到猕猴的游戏行为数据中，推断策略的动态权重。该计算模型对猕猴手柄运动的预测准确率达 90% 以上。更重要的是，策略动态权重分析发现，猕猴通过使用分而治之的启发式方法，在每个时间只关注游戏的一个子任务，分布式地解决这些问题，从而实现游戏总体目标的优化。研究发现猕猴能够在时序上组合这些策略基组，构建更复杂的复合策略，来处理特定的更有挑战性的任务。研究表明，猕猴能够优化掌握一套策略基组，并采用分层决策的方式来解决复杂的任务（图 B）。

本研究着眼于系统认知神经科学和人工智能广泛关注的交叉领域，将复杂的行为范式和严谨的计算建模进行结合，为未来探索灵长类动物的高级认知提供了重要的实验证据和新颖的分析方法。IT之家了解到，研究工作得到科技部、中科院、上海市科学技术委员会和国家自然科学基金委员会的支持。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。