淄博市知识产权公共服务平台

导航
专利号 2022111126417 申请日 2022-09-14 专利名称 一种面向突发性新闻文本的命名实体识别方法
授权日 2024-09-17 专利权人 山东科技大学 发明人 王贵玲;朱淑娟;潘正祥;吴祖扬
主分类号 G06F16/35 关键词 应用领域
摘要 本发明公开了一种面向突发性新闻文本的命名实体识别方法,属于新闻数据处理技术领域,包括如下步骤:获取突发性新闻文本数据;将数据进行启发式欠采样处理;通过突发性新闻文本中数据的训练集对BiLSTM‑CRF模型进行训练,根据相关评价指标的值确定欠采样的最佳比率并获得相应的算法模型;采用验证集进行验证,获得性能良好的BiLSTM‑CRF模型;实时获取突发性新闻领域的文本数据,首先利用二进制鹈鹕优化算法对数据进行启发式欠采样处理,然后基于训练完成且性能良好的BiLSTM‑CRF模型识别当前文本数据的命名实体类型。本发明考虑到了海量信息数据中实体类别不平衡的问题,以更精简、高效、高精度的方式实现突发性新闻领域的命名实体识别任务。
创新点
技术分类 标 签 战兴产业 新一代信息技术    下一代信息网络产业
运营方式 合作方式
联系人 联系电话 电子邮箱
详细说明
【关 闭】