一种基于语音韵律学分解的三维数字人头部动画生成方法

专利号	2024104253347	申请日	2024-04-10	专利名称	一种基于语音韵律学分解的三维数字人头部动画生成方法
授权日	2024-06-14	专利权人	哈尔滨工业大学(威海)	发明人	张盛平;李宗霖;柳青林;孟权令;吕晓倩;王晨阳
主分类号	G06T13/40	关键词		应用领域
摘要	本发明公开了一种基于语音韵律学分解的三维数字人头部动画生成方法，包括以下步骤：通过语言内容、风格和基础频率编码器分别提取音频中的三者相关的潜在变量；通过周期位置编码获得额外的时序信息，使用跨模态偏差多头自注意力模块增强对于长动作序列的泛化性能；计算跨模态的对齐偏差并通过多头注意力模块对齐多模态信息，实现三维数字人头部动画中的唇部动作生成；通过基于Transformer的动作变分自编码器将唇部动作序列映射到低维潜在空间，设计条件概率扩散模型实现基于基础频率的三维数字人头部动画中的头部动作生成。本发明更加深层次挖掘了语音中韵律部分同唇部动作的关系，实现了更加高效的唇部动作序列生成。
创新点
技术分类		标签		战兴产业	数字创意产业数字文化创意活动
运营方式				合作方式
联系人		联系电话		电子邮箱
详细说明