首页 > 求索之路 > 基于强化学习的裂脑机器人的研究
基于强化学习的裂脑机器人的研究
41新雅书院
作品介绍

基于强化学习的裂脑机器人的研究

作者:郑智 崔琢宜 张皓烨 新雅书院

指导老师:徐迎庆 美术学院

关键词:裂脑,强化学习,策略梯度,LEGO EV3

 

摘要

裂脑人(split-brain patients)在医学上指代那些胼胝体受损使得左右脑无法正常交流的人。在这项“研究”中,我们使用LEGO Mindstorm搭建了裂脑机器人,用两台互不通信的EV3主机模拟左右脑,分别控制机器人的一半身体,同时利用强化学习的策略梯度算法使机器人学习如何让左右脑协调工作。经过40个回合的学习,机器人基本能够实现直线行走;而在不同实验条件的设置下,机器人也会有不同的行为特点。最后,我们将裂脑机器人的部分行为解释为左右脑的间接通信,而这与裂脑人的行为有相通之处。

图1 从裂脑人到裂脑机器人

图2 裂脑机器人硬件

 

硬件与算法

我们用两台互不通信的 EV3 主机模拟左右脑,分别控制机器人的一半身体;各连接一个陀螺仪作为感知,各连接一个电机用来运动。同时利用强化学习的策略梯度算法使机器人学习如何让左右脑协调工作。

图3 强化学习的策略梯度算法

实验结果

经过 40 个回合的学习,机器人基本能够实现直线行走,各项表现均显著提升;而在不同实验条件的设置下,机器人也会表现出不同的行为特点。

图4 机器人直线行走情况的变化

图5 不同奖励设置下,平均速度的变化

图6 不同奖励设置下,平均偏转角速度的变化

 

几点结论

两侧大脑运行着完全相同的程序、在完全对称的条件下(除了两侧CPU的运算速度稍有差别),却能发展出不对称的策略;仅仅改变了奖励,却能发展出十分不同的策略。

 

 

外部链接:https://www.bilibili.com/video/av64273757

 

 

评论 文明上网理性发言,请遵守评论服务协议
登录  登录后可以发言~
全部评论
主办方
承办方