淄博市知识产权公共服务平台

导航
专利号 2025110615759 申请日 2025-07-31 专利名称 基于共享知识挖掘的增量多语言文本识别方法及系统
授权日 2025-09-26 专利权人 山东大学 发明人 许信顺;刘晓倩;罗昕;陈振铎
主分类号 G06F16/35 关键词 应用领域
摘要 本发明公开基于共享知识挖掘的增量多语言文本识别方法及系统,涉及文本检测识别技术领域,训练得到特定于当前语言的特色识别器;将回放集和当前语言的数据集送入所有特色识别器,基于所有特色识别器的预测一致性,挖掘语言之间潜在的共享字符和共享单词;基于共享字符和共享单词,语言域判别器挖掘增量语言之间的依赖性关系,得到字符级别和单词级别的所属语言概率,并基于其对各个特色识别器的预测概率分布进行加权,得到关系加强后的字符级别和单词级别概率分布;对关系加强后的单词级别概率分布作argmax操作,选取概率最大值所对应的索引作为最终识别结果。可以减轻增量学习过程中对旧语言知识的遗忘,从而提高文本识别器的持续学习能力。
创新点
技术分类 标 签 战兴产业 新一代信息技术    下一代信息网络产业
运营方式 合作方式
联系人 联系电话 电子邮箱
详细说明
【关 闭】