淄博市知识产权公共服务平台

导航
专利号 2017101769310 申请日 2017-03-22 专利名称 一种定制数据爬取工作流的方法及系统
授权日 2021-01-29 专利权人 山东大学 发明人 郭伟;宋伟凤;于富强;鹿旭东;崔立真
主分类号 G06F16/953 关键词 应用领域
摘要 本发明公开了一种定制数据爬取工作流的方法及系统,其中,该定制数据爬取工作流的方法包括:配置网页的参数及存储路径,生成定制网页并同步存储至XML文件中;采用DOM方式来解析XML文件并生成爬虫树;编译运行爬虫树,进而抓取出相应网页数据。本发明在数据抽取的通用性、灵活性方面的得到巨大改进,能够让用户在短时间内准确的筛选出需要的内容。
创新点
技术分类 标 签 战兴产业 新一代信息技术    下一代信息网络产业
运营方式 合作方式
联系人 联系电话 电子邮箱
详细说明
【关 闭】