双缓冲模型实现大规模数据库聚类方法及系统

专利号	2020102137894	申请日	2020-03-24	专利名称	双缓冲模型实现大规模数据库聚类方法及系统
授权日	2023-05-05	专利权人	山东大学	发明人	刘卫国;徐晓明
主分类号	G16B40/30	关键词		应用领域
摘要	本发明公开了双缓冲模型实现大规模数据库聚类方法及系统，针对基因序列数据库进行长度递减排序；构建匹配字典：稀疏后缀数组，将一条基因序列构建稀疏后缀数组，作为字典，其它基因序列与字典后缀数组进行匹配，匹配过程中在查询序列的某个位置采取二分查找匹配搜索，并采取逆后缀数组、最小公共子前缀数组、后缀链接进行优化提升，计算所得到的匹配值达到阈值之后，即判定为冗余序列。基于大规模数据库生物基因序列的聚类操作以及去除冗余基因序列操作都会用到针对基因序列的精确匹配操作，并且针对大规模数据文件的I/O操作，双缓冲多线程并行操作能够处理上述情况下的数据快速处理。
创新点
技术分类		标签		战兴产业	生物产业生物医学工程产业
运营方式				合作方式
联系人		联系电话		电子邮箱
详细说明