一种多粒度文本表示和图文融合的视觉问答方法及系统

专利号	2022106670459	申请日	2022-06-14	专利名称	一种多粒度文本表示和图文融合的视觉问答方法及系统
授权日	2024-09-10	专利权人	齐鲁工业大学	发明人	王新刚;刘小玉;李晓敏;成洪路;刘广政;周金岩
主分类号	G06F40/35	关键词		应用领域
摘要	本发明涉及一种多粒度文本表示和图文融合的视觉问答方法及系统，包括以下步骤：获得图片和与图片对应的问题文本，得到图片特征；通过层级扩张卷积提取问题文本中不同级别的句子信息形成文本特征；将得到的图片特征和文本特征进行向量拼接后，经Transformer层融合不同模态的高阶特征得到自适应融合特征向量，经线性变换转换为候选答案维度，通过预测函数得到答案的预测结果。在文本特征表示中进行多层次的文本信息描述保留文本的多层次特征，使用图文自适应融合的方式融合不同模态的高阶特征向量，从多个层面准确的表达问题主题和含义，融合后能够动态的计算图像文本的注意力权重，以便更好的预测答案。
创新点
技术分类		标签		战兴产业	新一代信息技术人工智能
运营方式				合作方式
联系人		联系电话		电子邮箱
详细说明