淄博市知识产权公共服务平台

导航
专利号 2025104055143 申请日 2025-04-02 专利名称 基于多模态信息融合的水下图像字幕生成方法及系统
授权日 2025-09-23 专利权人 中国石油大学(华东) 发明人 李莉;李环宇;任鹏;王正楷
主分类号 H04N5/278 关键词 应用领域
摘要 本发明公开了基于多模态信息融合的水下图像字幕生成方法及系统,首先,通过Faster R‑CNN提取水下图像的多尺度图像特征,包括全图特征和区域特征,捕获水下图像的场景和显著目标信息。随后,利用CLIP模型生成与水下图像内容相关的文本词嵌入编码,并通过K均值进行多级聚类提取层级化的文本特征,进一步分析文本信息的层级结构。接着,采用基于多头注意力机制的融合方法,有效地将图像特征和文本特征进行融合,增强模型对水下图像的理解能力。最后,融合后的多模态特征输入到基于Transformer的图像字幕生成器中,生成与图像内容和上下文相关的水下图像字幕。该方法能够有效地提升水下图像字幕生成的准确性与鲁棒性,具有较强的实际应用价值。
创新点
技术分类 标 签 战兴产业 数字创意产业    数字创意技术设备制造
运营方式 合作方式
联系人 联系电话 电子邮箱
详细说明
【关 闭】