| 专利号 | 2025113241930 | 申请日 | 2025-09-17 | 专利名称 | 基于多模态统一嵌入空间引导的听话人视频生成方法 |
| 授权日 | 2025-12-05 | 专利权人 | 哈尔滨工业大学(威海) | 发明人 | 张盛平;赵思喆;王晨阳;李宗霖;柳青林 |
| 主分类号 | G06T13/40 | 关键词 | 应用领域 | ||
| 摘要 | 本申请公开了基于多模态统一嵌入空间引导的听话人视频生成方法,方法包括:获取说话人的第一真实视频,并提取对应的视频特征和音频特征作为发起用户特征;通过预先训练的情感预测模型,根据发起用户特征进行情感预测,得到听话人的接收情感特征;通过模态自适应混合专家编码器,将发起用户特征与接收情感特征融合,得到融合特征;通过预先训练的动作生成模型,基于交叉注意力层,根据融合特征生成听话人对应的动作数据;根据动作数据进行渲染,生成听话人对应的头部视频。专注于生成核心的动作数据,而非直接生成原始像素视频,后续渲染步骤相对独立,降低了实时生成的计算复杂度,提升了响应的实时性潜力。 | ||||
| 创新点 | |||||
| 技术分类 | 标 签 | 战兴产业 | 数字创意产业  数字文化创意活动 | ||
| 运营方式 | 合作方式 | ||||
| 联系人 | 联系电话 | 电子邮箱 | |||
| 详细说明 | |||||