基于多模态信息融合的水下图像字幕生成方法及系统

专利号	2025104055143	申请日	2025-04-02	专利名称	基于多模态信息融合的水下图像字幕生成方法及系统
授权日	2025-09-23	专利权人	中国石油大学(华东)	发明人	李莉;李环宇;任鹏;王正楷
主分类号	H04N5/278	关键词		应用领域
摘要	本发明公开了基于多模态信息融合的水下图像字幕生成方法及系统，首先，通过Faster R‑CNN提取水下图像的多尺度图像特征，包括全图特征和区域特征，捕获水下图像的场景和显著目标信息。随后，利用CLIP模型生成与水下图像内容相关的文本词嵌入编码，并通过K均值进行多级聚类提取层级化的文本特征，进一步分析文本信息的层级结构。接着，采用基于多头注意力机制的融合方法，有效地将图像特征和文本特征进行融合，增强模型对水下图像的理解能力。最后，融合后的多模态特征输入到基于Transformer的图像字幕生成器中，生成与图像内容和上下文相关的水下图像字幕。该方法能够有效地提升水下图像字幕生成的准确性与鲁棒性，具有较强的实际应用价值。
创新点
技术分类		标签		战兴产业	数字创意产业数字创意技术设备制造
运营方式				合作方式
联系人		联系电话		电子邮箱
详细说明