淄博市知识产权公共服务平台

导航
专利号 2021112018114 申请日 2021-10-15 专利名称 一种行政处罚决定书的信息抽取方法
授权日 2024-05-28 专利权人 山东大学 发明人 李玉军;赵思文;贲晛烨;胡伟凤
主分类号 G06F16/335 关键词 应用领域
摘要 本发明涉及一种行政处罚决定书的信息抽取方法,包括:步骤一:从行政处罚文书网爬取获取各省的行政处罚决定书;步骤二:提取html标签内步骤一中获取的行政处罚决定书的文本内容,构建原始数据集;步骤三:根据行政处罚决定书书写的规范性规则,利用正则表达式对待处理的行政处罚决定书进行数据预处理,构建数据集;步骤四:将步骤三构建的数据集输入利用步骤二构建的原始数据集训练好的信息抽取模块,输出行政处罚文书信息抽取结果。本发明提出一种对行政处罚决定书的信息抽取的方法,可以精确的获得决定书的结构化信息,便于对行政处罚决定书的理解以及类案检索、类案推荐、判决预测等下游任务的实施。
创新点
技术分类 标 签 战兴产业 新一代信息技术    下一代信息网络产业
运营方式 合作方式
联系人 联系电话 电子邮箱
详细说明
【关 闭】