| 专利号 | 2017106015396 | 申请日 | 2017-07-21 | 专利名称 | 一种基于词汇关键度的网络论坛正文提取方法、装置 |
| 授权日 | 2020-01-31 | 专利权人 | 山东师范大学 | 发明人 | 王红;刘锐 |
| 主分类号 | G06F16/957 | 关键词 | 应用领域 | ||
| 摘要 | 本发明公开了一种面向论坛主题帖的正文筛选方法,该方法涉及数据挖掘领域,是为解决从论坛主题帖中提取正文而提出的。本算法的实现方法是从网页总体中抽取部分样本,利用去除显著的非正文部分,对剩余内容进行分词,用TF‑IDF方法评价所有词汇的关键度,定位关键度最高的若干词汇所在位置,记录出现最频繁的位置,利用该位置信息对数据集中剩余的主题帖页面进行正文提取。经实验验证,本方法具有较高的准确度和执行效率。 | ||||
| 创新点 | |||||
| 技术分类 | 标 签 | 战兴产业 | 新一代信息技术  下一代信息网络产业 | ||
| 运营方式 | 合作方式 | ||||
| 联系人 | 联系电话 | 电子邮箱 | |||
| 详细说明 | |||||