一种基于音频情感感知的说话人脸视频生成方法及系统

专利号	2023104909351	申请日	2023-05-05	专利名称	一种基于音频情感感知的说话人脸视频生成方法及系统
授权日	2023-07-25	专利权人	山东建筑大学	发明人	刘萌;王旭峰;宋雪萌;许海振;刘慧;翟书言;聂礼强
主分类号	H04N21/81	关键词		应用领域
摘要	本发明公开了一种基于音频情感感知的说话人脸视频生成方法及系统，涉及说话人脸视频生成技术领域。包括步骤：获取音频片段和参考图像，利用有情感的人脸标记生成网络，生成有情感的人脸标记序列；根据有情感的人脸标记序列与参考图像，利用特征自适应视觉变换网络逐帧生成说话人的面部图像，进而生成说话人脸视频，其中，将情感的人脸标记序列转化为情感人脸标记图片；提取标记嵌入表示并重构情感人脸标记图片；根据参考图像生成图像嵌入表示；将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合，得到说话人的面部图像。本发明克服了现有技术中音唇不同步、情感一致性差、生成图像质量低的缺陷。
创新点
技术分类		标签		战兴产业	数字创意产业数字文化创意活动
运营方式				合作方式
联系人		联系电话		电子邮箱
详细说明