| 专利号 | 2017101769310 | 申请日 | 2017-03-22 | 专利名称 | 一种定制数据爬取工作流的方法及系统 |
| 授权日 | 2021-01-29 | 专利权人 | 山东大学 | 发明人 | 郭伟;宋伟凤;于富强;鹿旭东;崔立真 |
| 主分类号 | G06F16/953 | 关键词 | 应用领域 | ||
| 摘要 | 本发明公开了一种定制数据爬取工作流的方法及系统,其中,该定制数据爬取工作流的方法包括:配置网页的参数及存储路径,生成定制网页并同步存储至XML文件中;采用DOM方式来解析XML文件并生成爬虫树;编译运行爬虫树,进而抓取出相应网页数据。本发明在数据抽取的通用性、灵活性方面的得到巨大改进,能够让用户在短时间内准确的筛选出需要的内容。 | ||||
| 创新点 | |||||
| 技术分类 | 标 签 | 战兴产业 | 新一代信息技术  下一代信息网络产业 | ||
| 运营方式 | 合作方式 | ||||
| 联系人 | 联系电话 | 电子邮箱 | |||
| 详细说明 | |||||