淄博市知识产权公共服务平台

导航
专利号 2017105980156 申请日 2017-07-20 专利名称 一种基于网址结构的网络论坛页面聚类方法及设备
授权日 2020-01-31 专利权人 山东师范大学 发明人 王红;刘锐
主分类号 G06F16/958 关键词 应用领域
摘要 本发明涉及本发明公开了一种基于网址结构的网络论坛聚类方法及设备,该方法涉及数据挖掘领域,是为解决大规模网页分类问题而提出的。该方法从网址总体中抽取部分样本,利用网络论坛网址高度结构化的特性,对每个网址进行结构划分,构造结构向量,使用本发明提出的距离函数评估结构向量之间的距离,接着使用密度峰值聚类方法对样本结构向量进行聚类分析,提取出每簇的特征结构,构造用于描述簇中所有样本网址的解析器,用于对总体中剩余网址进行解析和分类。经实验验证,本方法具有较高的准确度和执行效率。
创新点
技术分类 标 签 战兴产业 新一代信息技术    下一代信息网络产业
运营方式 合作方式
联系人 联系电话 电子邮箱
详细说明
【关 闭】