淄博市知识产权公共服务平台

导航
专利号 2020105114485 申请日 2020-06-08 专利名称 一种利用先验知识构建文档图像数据集的方法
授权日 2024-05-03 专利权人 青岛科技大学 发明人 许灿辉;史操;孙春奇;陶冶;刘国柱;程远志
主分类号 G06F40/189 关键词 应用领域
摘要 本发明公开一种利用先验知识构建文档图像数据集的方法,首先采用条件随机场对文档版面进行建模;然后训练条件随机场模型参数,获取文档版面先验知识;使用训练好的模型自动生成文档版面布局;进而根据生成的版面布局,生成文档对象的具体内容;最终将文档转换成文档图像,实现对文档图像数据集的构建。本方案基于条件随机场对文档版面结构进行建模,获取文档版面的先验知识,并利用先验知识自动生成文档图像数据集,节省时间和人力成本,避免由于人工标注带来的无效标注;通过条件随机场及先验知识指导生成文档图像的版面结构,使生成的版面更贴近出版物、符合阅读习惯,提高数据集的利用率及深度学习精度;并且,生成文档图像集的同时,能够提供文档图像中文本对象的文字编码信息。
创新点
技术分类 标 签 战兴产业 新一代信息技术    人工智能
运营方式 合作方式
联系人 联系电话 电子邮箱
详细说明
【关 闭】