| 专利号 | 2017113153600 | 申请日 | 2017-12-12 | 专利名称 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
| 授权日 | 2020-09-22 | 专利权人 | 山东科技大学 | 发明人 | 胡晓慧;李超;曾庆田;戴明弟;赵中英 |
| 主分类号 | G06F16/33 | 关键词 | 应用领域 | ||
| 摘要 | 本发明公开了一种基于主题词向量和网络结构的主题关键词提取方法,具体涉及从文本中提取关键词技术领域。该基于主题词向量和网络结构的主题关键词提取方法基于LDA主题模型对文本语料进行主题聚类,并获得每个主题中与该主题相关度为top100的100个关键词;利用word2vec将文本语料中的每个词表示为一个词向量,通过计算获得每两个词之间的语义相似度,分别计算出与关键词中的每个关键词在语义上相似度top5的词,关键词和每个关键词在语义上相似度top5的词共同组成新的关键词集合;构建关键词网络,并获得每个集合top 20的词作为该主题的关键词。该方法既能对文档中词频较高的关键词进行提取,又可以有效地发现词频较低但是与主题关系强的关键词。 | ||||
| 创新点 | |||||
| 技术分类 | 标 签 | 战兴产业 | 新一代信息技术  下一代信息网络产业 | ||
| 运营方式 | 合作方式 | ||||
| 联系人 | 联系电话 | 电子邮箱 | |||
| 详细说明 | |||||