淄博市知识产权公共服务平台

导航
专利号 2017106015396 申请日 2017-07-21 专利名称 一种基于词汇关键度的网络论坛正文提取方法、装置
授权日 2020-01-31 专利权人 山东师范大学 发明人 王红;刘锐
主分类号 G06F16/957 关键词 应用领域
摘要 本发明公开了一种面向论坛主题帖的正文筛选方法,该方法涉及数据挖掘领域,是为解决从论坛主题帖中提取正文而提出的。本算法的实现方法是从网页总体中抽取部分样本,利用去除显著的非正文部分,对剩余内容进行分词,用TF‑IDF方法评价所有词汇的关键度,定位关键度最高的若干词汇所在位置,记录出现最频繁的位置,利用该位置信息对数据集中剩余的主题帖页面进行正文提取。经实验验证,本方法具有较高的准确度和执行效率。
创新点
技术分类 标 签 战兴产业 新一代信息技术    下一代信息网络产业
运营方式 合作方式
联系人 联系电话 电子邮箱
详细说明
【关 闭】