| 专利号 | 2025104055143 | 申请日 | 2025-04-02 | 专利名称 | 基于多模态信息融合的水下图像字幕生成方法及系统 |
| 授权日 | 2025-09-23 | 专利权人 | 中国石油大学(华东) | 发明人 | 李莉;李环宇;任鹏;王正楷 |
| 主分类号 | H04N5/278 | 关键词 | 应用领域 | ||
| 摘要 | 本发明公开了基于多模态信息融合的水下图像字幕生成方法及系统,首先,通过Faster R‑CNN提取水下图像的多尺度图像特征,包括全图特征和区域特征,捕获水下图像的场景和显著目标信息。随后,利用CLIP模型生成与水下图像内容相关的文本词嵌入编码,并通过K均值进行多级聚类提取层级化的文本特征,进一步分析文本信息的层级结构。接着,采用基于多头注意力机制的融合方法,有效地将图像特征和文本特征进行融合,增强模型对水下图像的理解能力。最后,融合后的多模态特征输入到基于Transformer的图像字幕生成器中,生成与图像内容和上下文相关的水下图像字幕。该方法能够有效地提升水下图像字幕生成的准确性与鲁棒性,具有较强的实际应用价值。 | ||||
| 创新点 | |||||
| 技术分类 | 标 签 | 战兴产业 | 数字创意产业  数字创意技术设备制造 | ||
| 运营方式 | 合作方式 | ||||
| 联系人 | 联系电话 | 电子邮箱 | |||
| 详细说明 | |||||