基于多模态统一嵌入空间引导的听话人视频生成方法

专利号	2025113241930	申请日	2025-09-17	专利名称	基于多模态统一嵌入空间引导的听话人视频生成方法
授权日	2025-12-05	专利权人	哈尔滨工业大学(威海)	发明人	张盛平;赵思喆;王晨阳;李宗霖;柳青林
主分类号	G06T13/40	关键词		应用领域
摘要	本申请公开了基于多模态统一嵌入空间引导的听话人视频生成方法，方法包括：获取说话人的第一真实视频，并提取对应的视频特征和音频特征作为发起用户特征；通过预先训练的情感预测模型，根据发起用户特征进行情感预测，得到听话人的接收情感特征；通过模态自适应混合专家编码器，将发起用户特征与接收情感特征融合，得到融合特征；通过预先训练的动作生成模型，基于交叉注意力层，根据融合特征生成听话人对应的动作数据；根据动作数据进行渲染，生成听话人对应的头部视频。专注于生成核心的动作数据，而非直接生成原始像素视频，后续渲染步骤相对独立，降低了实时生成的计算复杂度，提升了响应的实时性潜力。
创新点
技术分类		标签		战兴产业	数字创意产业数字文化创意活动
运营方式				合作方式
联系人		联系电话		电子邮箱
详细说明