| 专利号 | 2021102795253 | 申请日 | 2021-03-16 | 专利名称 | 一种短文本框聚类方法、系统、设备及存储介质 |
| 授权日 | 2022-05-27 | 专利权人 | 哈尔滨工业大学(威海) | 发明人 | 王超俊;何清刚;魏玉良;王凯;王佰玲 |
| 主分类号 | G06F16/35 | 关键词 | 应用领域 | ||
| 摘要 | 本发明涉及一种短文本框聚类方法、系统、设备及存储介质,该方法包括:对原始短文本进行预处理;提取短文本特征词;将短文本特征词转换为短文本特征向量;先初始化聚类中心,然后将聚类中心映射到LSH表中;再根据短文本到聚类中心的文本相似度,选择若干个候选类;根据哈希值选择短文本特征向量的簇集合;重新计算短文本特征向量的簇集合的新聚类中心;循环执行直到新聚类中心不再发生变化,输出文本聚类结果。本发明中,采用WMD‑IP距离作为文本相似度,考虑词向量的位置,这样便可更充分的利用词语的语义信息,减少中间计算过程的复杂度,提高短文本框聚类结果的精度。 | ||||
| 创新点 | |||||
| 技术分类 | 标 签 | 战兴产业 | 新一代信息技术  下一代信息网络产业 | ||
| 运营方式 | 合作方式 | ||||
| 联系人 | 联系电话 | 电子邮箱 | |||
| 详细说明 | |||||