淄博市知识产权公共服务平台

导航
专利号 2024114871779 申请日 2024-10-24 专利名称 基于分组的蛋白质序列聚类方法及系统
授权日 2024-12-17 专利权人 山东大学 发明人 殷泽坤;杨阳;闫立峰;张桐;刘卫国
主分类号 G16B40/30 关键词 应用领域
摘要 本发明涉及蛋白质序列聚类技术领域,公开了基于分组的蛋白质序列聚类方法及系统;方法包括:对第i个待聚类的蛋白质序列进行分割,得到若干个蛋白质子序列,对每个蛋白质子序列,均采用第j种哈希函数进行哈希映射,得到每个蛋白质子序列对应的哈希值;选择哈希值中的最小值,作为MinHash值;得到序列在M种哈希函数下的MinHash值;进而得到N个待聚类的蛋白质序列在M种哈希函数下的MinHash值;在每一种哈希函数下,遍历所有待聚类的蛋白质序列所对应的MinHash值,将值相同的待聚类的蛋白质序列划入同一个分组中;对每个组内的蛋白质序列进行聚类得到聚类结果。在降低计算复杂度的同时,保持聚类结果的准确性。
创新点
技术分类 标 签 战兴产业 生物产业    生物医学工程产业
运营方式 合作方式
联系人 联系电话 电子邮箱
详细说明
【关 闭】