淄博市知识产权公共服务平台

导航
专利号 2022103085612 申请日 2022-03-28 专利名称 基于生成树的大规模生物数据聚类方法及系统
授权日 2022-09-16 专利权人 山东大学 发明人 刘卫国;徐晓明;殷泽坤
主分类号 G16B40/30 关键词 应用领域
摘要 本发明提出了基于生成树的大规模生物数据聚类方法及系统,属于大规模基因组数据的数据处理技术领域,解决目前计算效率低的问题,包括:估计基因组序列之间的相似度;基于估计基因组序列之间的相似度流式计算基因组序列之间的距离矩阵和构建最小生成树,通过将距离矩阵划分成子图并且构建子最小生成树来生成最小生成树;剪断最小生成树中超过给定阈值长度的边来生成聚类结果。本发明采用sketch算法估计序列之间的相似度,由于sketch中k‑mer集合的维度远小于原始序列的维度,所以,采用sketch算法进行序列相似度分析的计算时间和空间占用远远小于直接进行原始数据精确比对。
创新点
技术分类 标 签 战兴产业 生物产业    生物医学工程产业
运营方式 合作方式
联系人 联系电话 电子邮箱
详细说明
【关 闭】