国家企业信息公开系统是企业和个人在工商局备案信息的平台。该平台的反爬行策略非常严格。以下是如何批量收集企业信息公示系统。
一、省情分类
通过对31个省的统计,各省的情况如下:
1. 通过Cookie、JsessionID、日期与认证机制关联的省份:
省:
北京、天津、江苏、浙江、陕西、内蒙古、重庆、新疆、河南、湖南、河北、陕西、吉林、黑龙江、上海、江西、安徽、山东、广西、海南、四川、贵州、云南、西藏、甘肃、宁夏、青海。
自定义状态:无需自定义,可直接收集。
2. 动态加密的省份:
:广东省
自定义状态:需要自定义,字符加密需要进一步解析。
http://www.zhucesz.com/:
省份:辽宁、福建。
定制:需要定制,框架生成的内容需要进一步解析。
4. 密码盘的认证机制:
湖北省:。
自定义状态:无需自定义即可实现手动识别和采集。如果要实现机器识别就需要解决验证码的问题。
下载安装工具
百度“ForeSpider”可下载。安装完成后登录时,在“Ex-sniff”官网注册时填写账号密码。也可以不输入帐号和密码直接登录系统。但是,您只能在不注册的情况下配置系统。
三。测试过程
以天津市为例,采用人工验证码进行测试。
1. 设置企业名称的关键字
2. 配置模板1的链路提取功能
3.配置模板2的链路提取功能
4. 配置模板2的链接脚本
5. 配置模板3的链路提取功能
6. 配置模板4的数据提取
7. 验证码手动识别
8. 数据收集
9. 数据浏览
测试过程中的验证码识别采用人工识别的方法,测试过程分为验证码识别和获取程。
1. 验证码识别
在一台计算机上测试,验证码只能在单个线程上打开,因为涉及到Cookie验证。单线程手动识别20分钟,识别480个验证码。
如果需求侧有多台计算机,识别过程可以是多线程的。加快识别。
2. 收集过程
收集过程从一台计算机开始,并启动10个线程。如果需求侧硬件配置好,可以打开100个左右的线程。
收集后,在1000秒内共收集到6410条链路(与数据相关和不相关的链路总数)和2423条数据(每条数据对应一个企业的信息)。
也就是说,在打开10个线程的计算机的情况下:
1000秒——6410条链接——2423条数据
1小时——23076条链接——8723条数据
24小时——553,824条链接——209,347条数据
如需了解更多公司核名、企业注册核名、商标核名、网上核名、关注了解更多公司核名等资讯。