| 专利号 | 2017111473360 | 申请日 | 2017-11-17 | 专利名称 | 一种基于搜索引擎的人物检索系统及方法 |
| 授权日 | 2020-04-10 | 专利权人 | 哈尔滨工业大学(威海) | 发明人 | 刘扬;王佰玲;周奇;辛国栋;孙云霄;王巍 |
| 主分类号 | G06F16/951 | 关键词 | 应用领域 | ||
| 摘要 | 本发明涉及一种基于搜索引擎的人物检索系统及方法,包括依次连接的数据采集模块、数据预处理模块、特征抽取模块、聚类模块;数据采集模块爬取搜索引擎检索人名返回的网页信息;数据预处理模块过滤与人名无关的网页,进行分块处理,过滤网页中与检索人名无关的视觉块;特征抽取模块抽取与检索人物相关的属性和实体,统计视觉块中词频,构造每个网页的向量表示形式,适当增加抽取的特征词在向量空间中对应维数的值,聚类模块将每个网页的向量表示形式作为输入,进行网页文本的聚类,输出网页类别标签组成的列表。本发明有效解决检索人物时返回网页中的人名歧义和信息杂乱的问题,通过抽取人物属性和人物关系构造人物摘要,为用户检索人名提供便利。 | ||||
| 创新点 | |||||
| 技术分类 | 标 签 | 战兴产业 | 新一代信息技术  下一代信息网络产业 | ||
| 运营方式 | 合作方式 | ||||
| 联系人 | 联系电话 | 电子邮箱 | |||
| 详细说明 | |||||