近日,机电与信息工程学院宋勇教授团队与香港岭南大学邝得互院士团队合作,在自动化与控制系统领域国际顶级期刊IEEE Transactions on Industrial Informatics(中科院、中信所、JCR一区, IF=11.7)发表题为“A Deep Reinforcement Learning Approach Using Asymmetric Self-Play for Robust Multi-Robot Flocking”的研究成果。机电与信息工程学院宋勇教授、控制科学与工程学院程吉禹副教授和香港岭南大学邝得互院士为通讯作者,博士研究生贾云杰为第一作者,山东大学为第一完成单位。
为解决动态、复杂环境下机器人集群导航的鲁棒性、高效性问题,团队提出了一种基于深度强化学习的非对称自博弈驱动的多机器人协同导航框架。机器人与潜在干扰者通过自我博弈的形式进行策略对抗,并在局部观测条件下持续调整决策,以摆脱对全局信息与中心化通信的依赖。提出的方法有效提升了机器人面对不确定环境时的自适应能力,通过多种干扰类型和不同规模下的鲁棒性测试验证了算法的优越性能。(如图1)。

图1 基于非对称自博弈机制的策略训练流程
与现有方法相比,该框架具有更强的鲁棒性和泛化能力,且显著降低了对精确环境建模的依赖。大量的测试实验表明该框架在多种模式干扰者场景中保持了优异的避障性能和集群一致性,其碰撞率和导航失效率均有大幅降低(如图2、图3)。基于特征级和智能体级注意力机制,该框架在实时决策和高维度信息处理方面表现出更高的学习效率与可扩展性。此外,所提出的辅助训练模块可有效应对非确定性和动态环境随机干扰,显著提升机器人导航安全性。该研究成果为多机器人系统在复杂无人机编队、自主车辆集群控制等高风险环境下的安全运行提供新的技术路径。

图2 多种干扰场景下的有效机器人群集导航

图3 实体机器人平台下的算法验证
此前,团队已合作在智能交通领域国际顶级期刊IEEE Transactions on Intelligent Transportation Systems(中科院、中信所、JCR一区, IF=7.9)上发表题为“Hierarchical Perception-Improving for Decentralized Multi-Robot Motion Planning in Complex Scenarios”的研究成果,博士研究生贾云杰为第一作者,山东大学为第一完成单位。该论文提出了一种复杂场景下多机器人分布式协同导航的新框架,采用多模态融合技术和深度强化学习技术,实现了局部可观测场景下的无地图分布式导航。在多种测试场景中实现了有效的避障行为,在群体规模为36台机器人的协同控制任务场景验证了所提出导航算法的有效性与先进性。
宋勇,山东大学机电与信息工程学院教授,博士生导师,担任山东省智能电子封测与应用重点实验室副主任、山东省自动化学会常务理事、威海市机电与自动化学会副理事长、中国计算机学会智能机器人专业委员会执行委员、国际期刊Intelligence & Robotics编委。长期从事协作机器人技能学习、多机器人协同控制方面的研究。作为项目负责人主持国家重点研发计划重点专项课题、国家自然科学基金项目及企业合作项目 10 余项,发表学术论文50 余篇,授权国家发明专利20 余项。
邝得互,香港工程院、美国国家发明家科学院院士,电气电子工程师学会(IEEE)会士,香港岭南大学协理副校长、研究生院院长及数据科学学院代理院长。邝教授是演化算法、人工智能解决方案的国际顶尖学者,此前担任香港城市大学电脑科学系系主任及电脑科学讲座教授。2021年起荣获斯坦福全球top2%顶尖科学家、2022和2023年科睿唯安全球高引学者。在国际权威期刊上发表学术论文350多篇,重要学术会议160多篇,谷歌学术引用量39000+,H指数高达91。
本项研究工作得到了国家自然科学基金、山东省科技创新指导计划项目和山东省自然科学基金项目等项目的资助。
作者:贾云杰