| 专利号 | 2024114871779 | 申请日 | 2024-10-24 | 专利名称 | 基于分组的蛋白质序列聚类方法及系统 |
| 授权日 | 2024-12-17 | 专利权人 | 山东大学 | 发明人 | 殷泽坤;杨阳;闫立峰;张桐;刘卫国 |
| 主分类号 | G16B40/30 | 关键词 | 应用领域 | ||
| 摘要 | 本发明涉及蛋白质序列聚类技术领域,公开了基于分组的蛋白质序列聚类方法及系统;方法包括:对第i个待聚类的蛋白质序列进行分割,得到若干个蛋白质子序列,对每个蛋白质子序列,均采用第j种哈希函数进行哈希映射,得到每个蛋白质子序列对应的哈希值;选择哈希值中的最小值,作为MinHash值;得到序列在M种哈希函数下的MinHash值;进而得到N个待聚类的蛋白质序列在M种哈希函数下的MinHash值;在每一种哈希函数下,遍历所有待聚类的蛋白质序列所对应的MinHash值,将值相同的待聚类的蛋白质序列划入同一个分组中;对每个组内的蛋白质序列进行聚类得到聚类结果。在降低计算复杂度的同时,保持聚类结果的准确性。 | ||||
| 创新点 | |||||
| 技术分类 | 标 签 | 战兴产业 | 生物产业  生物医学工程产业 | ||
| 运营方式 | 合作方式 | ||||
| 联系人 | 联系电话 | 电子邮箱 | |||
| 详细说明 | |||||