淄博市知识产权公共服务平台

导航
专利号 2022100608312 申请日 2022-01-19 专利名称 海量数据中基于后缀划分的高效用高占用比项集挖掘算法
授权日 2024-11-01 专利权人 哈尔滨工业大学(威海) 发明人 何京璇;韩希先;王金宝
主分类号 G06F16/2458 关键词 应用领域
摘要 本发明公开了海量数据中基于后缀划分的高效用高占用比项集挖掘算法,包括预处理阶段、项集挖掘阶段。预处理阶段包括后缀划分及垂直存储;项集挖掘阶段,依次将每个分区从磁盘读入内存,首先对1‑项集和2‑项集进行计算,判断其是否为高效用高占用比项集;对于长度大于2的项集,构建一个基于链表的双向栈结构存储分区中的拓展项集,再利用双向栈中的项构建一棵集合枚举树,在集合枚举树上按照深度优先搜索的顺序对项集进行遍历挖掘;同时根据支持度向下闭合属性、效用占用比向下闭合属性、3‑项集完全剪枝策略对项集进行剪枝,结合项集链接策略和剩余TID交叉计数策略进行挖掘。本发明有效解决了当前算法无法处理大规模数据集的问题。
创新点
技术分类 标 签 战兴产业 新一代信息技术    互联网与云计算、大数据服务
运营方式 合作方式
联系人 联系电话 电子邮箱
详细说明
【关 闭】