一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法

专利号	2021102625977	申请日	2021-03-11	专利名称	一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法
授权日	2022-03-25	专利权人	山东大学	发明人	李沂滨;张天泽;缪旭弘;魏征;尤岳;周广礼;贾磊;庄英豪;宋艳
主分类号	G06F30/28	关键词		应用领域
摘要	本发明涉及一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法，属于海洋控制实验技术领域，基于深度强化学习中的DDPG算法框架，在水下航行器智能体训练过程中既使用先前得到的专家数据，又使用智能体与任务环境交互得到的交互数据，两者混合采集，大大提升了算法收敛速度。同时，本发明利用两组彼此独立的评论家网络，通过取两者分别输出Q(s,a)的最小值得到演员网络的损失函数，有效降低了强化学习算法中存在的过偏估计。
创新点
技术分类		标签		战兴产业	新一代信息技术新兴软件和新型信息技术服务
运营方式				合作方式
联系人		联系电话		电子邮箱
详细说明