| 专利号 | 2021113698098 | 申请日 | 2021-11-18 | 专利名称 | 面向领域的文档查重方法及系统 |
| 授权日 | 2024-07-16 | 专利权人 | 青岛科技大学 | 发明人 | 杜军威;岳小龙;李浩杰;陈卓;胡强;于旭;江峰 |
| 主分类号 | G06F40/194 | 关键词 | 应用领域 | ||
| 摘要 | 本发明公开了面向领域的文档查重方法及系统,基于已存在的领域文档建立查重对照库;对查重对照库采用面向领域的方式进行分词处理;通过训练后的模型生成每个分词后词语的分布式向量表示;通过依存句法分析对每个句子的结构进行解析,找到每个句子的主干部分和修饰部分,并给予两个部分不同的权重;按照所设置的权重对向量表示进行合并和降维处理,得到查重对照库的Simhash签名;采用与查重对照库同样的方式,得到待查重文档的Simhash签名;通过比对待查重文档的Simhash签名与查重对照库的Simhash签名,给出文档查重结果。不但能够检测出完全相同的抄袭文本,还能检测修饰词改变、同义词替换条件下的抄袭现象。 | ||||
| 创新点 | |||||
| 技术分类 | 标 签 | 战兴产业 | 新一代信息技术  人工智能 | ||
| 运营方式 | 合作方式 | ||||
| 联系人 | 联系电话 | 电子邮箱 | |||
| 详细说明 | |||||