基于混合注意力机制的视频对象定位方法及系统

专利号	2021115770339	申请日	2021-12-22	专利名称	基于混合注意力机制的视频对象定位方法及系统
授权日	2022-05-06	专利权人	山东建筑大学	发明人	刘萌;周迪;田传发;齐孟津;郭杰;马玉玲
主分类号	G06F16/33	关键词		应用领域
摘要	本发明提出了基于混合注意力机制的视频对象定位方法及系统，本发明属于视频处理技术领域，包括：获得视频数据以及自然语言描述数据；针对视频数据，提取对象提议的视觉特征、对象提议的位置信息以及全局视觉特征；针对自然语言描述数据，提取词隐藏向量表示，利用文本自注意力机制处理词隐藏向量表示，获取语义角色文本特征；针对提取对象提议的视觉特征，剔除每个对象提议中不被语义角色文本特征中的语义角色期待的特征表示，获得被增强的对象提议的视觉特征；对被增强的对象提议视觉特征与视频的全局视觉特征进行初步融合，获得多模态特征；对多模态特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合，进行视频对象定位。
创新点
技术分类		标签		战兴产业	新一代信息技术下一代信息网络产业
运营方式				合作方式
联系人		联系电话		电子邮箱
详细说明