| 专利号 | 2021111333696 | 申请日 | 2021-09-27 | 专利名称 | 一种基于web日志的网站反爬虫方法 |
| 授权日 | 2024-04-26 | 专利权人 | 中国石油大学(华东) | 发明人 | 肖军弼;魏娇娇 |
| 主分类号 | G06F21/56 | 关键词 | 应用领域 | ||
| 摘要 | 本发明公开一种基于web日志的网站反爬虫方法,该方法包含:首先获取web日志进行预处理,包括清除噪声数据、数据过滤等,并将其存储到关系数据库中;从web日志中提取观测序列作为HMM算法的训练集,得出爬虫检测模型;利用似然函数计算爬虫序列在HMM算法下的平均极大似然估计值,确定出爬虫的平均极大似然估计值区间;计算待检测序列的平均极大似然估计值,结合上一步获得的平均极大似然估计值区间判断待检序列是否为爬虫;最后,利用风格化迁移技术捕捉原始图像的风格与内容特征,并通过训练卷积神经网络将其转移到目标图像之上,完成图像重建,通过多次优化图像,生成难破解的验证码,应用于易被爬虫程序攻击的网站,以达到反爬虫的目的。 | ||||
| 创新点 | |||||
| 技术分类 | 标 签 | 战兴产业 | 新一代信息技术  下一代信息网络产业 | ||
| 运营方式 | 合作方式 | ||||
| 联系人 | 联系电话 | 电子邮箱 | |||
| 详细说明 | |||||