基于多模态融合模型的提高视频问答精度方法及系统

专利号	2020112057241	申请日	2020-11-02	专利名称	基于多模态融合模型的提高视频问答精度方法及系统
授权日	2022-12-09	专利权人	山东师范大学	发明人	徐卫志;蔡晓雅;曹洋;于惠;庄须强;刘志远;孙中志;赵晗;龙开放
主分类号	G06F16/332	关键词		应用领域
摘要	本公开提供了一种基于多模态融合模型的提高视频问答精度方法及系统，包括：采集视频数据和问题特征，获取视频问答的问题；从视频数据中提取视觉特征和字幕特征；将视觉特征和字幕特征进行融合处理，获得融合视觉特征和融合字幕特征；将融合视觉特征、融合字幕特征和问题特征输入多模态融合模型中进行训练，获得训练好的多模态融合模型；将视频问答的问题输入训练好的多模态融合模型，获得问题答案；根据问题的特点针对不同的问题聚焦不同的目标实体实例，提高了模型选择答案的准确性。
创新点
技术分类		标签		战兴产业	新一代信息技术下一代信息网络产业
运营方式				合作方式
联系人		联系电话		电子邮箱
详细说明