基于多模态三维可塑模型的单样本说话人生成方法及系统

专利号	2023117554013	申请日	2023-12-18	专利名称	基于多模态三维可塑模型的单样本说话人生成方法及系统
授权日	2026-03-20	专利权人	山东建筑大学	发明人	刘萌;李家慧;李勇强;宋雪萌;韩强;许海振;聂礼强
主分类号	H04N21/81	关键词		应用领域
摘要	本公开提供了基于多模态三维可塑模型的单样本说话人生成方法及系统，涉及说话人生成技术领域，获取音频以及参考图像，输入至多模态3DMM参数预测网络模型中，首先提取音频特征以及文本特征，并对音频特征以及文本特征进行上下文特征增强，得到注入上下文信息的音频表征和语义表征；获取初始的头部姿态嵌入参数以及初始表情描述，利用初始的头部姿态嵌入参数预测下一时刻的头部姿态参数；利用初始表情描述预测下一时刻表情参数，将预测的头部姿态参数和表情参数融合嵌入至参考图像中，通过视频合成网络将多帧图像合成说话人的头部视频序列。
创新点
技术分类		标签		战兴产业	数字创意产业数字文化创意活动
运营方式				合作方式
联系人		联系电话		电子邮箱
详细说明