1.进入企名网官方网站注册登录。2.然后按F12弹出开发者工具。点击Network,然后会看到企名网的网址。单击它,然后您可以找到我们需要复制的头(用户代理和Cookie)。这是非常关键的一步。记住这个头(用户-代理和Cookie)是注册后登录成功后得到的头(用户-代理和Cookie),这样保存一次后在一定时间内访问网站查询就方便了。
整个代码的意思是:冒充用户登录(返回200状态码代表登录成功)。有些人爬不上信息,可能是因为自己的账号密码不对,或者自己复制的User-Agent和cookie不对。如果你不知道你写的是否正确,执行下面的代码来证明:
上面的函数get_company_message(),顾名思义,用于获取公司的文本信息。一般来说,它包括三个步骤。
该代码是针对爬网表格文本内容的文本识别过程,只适用于表格格式2中的第二张图片。如果出现值“无法收集”,很可能是因为爬网的表文本中不存在该值。
至此,您可以获得关于这两家公司的一些详细信息。
①点击“深圳市腾讯计算机系统有限公司”按F12进入开发者调试页面②,右键点击,然后选择“勾选”选项,即可看到开发者调试页面自动跳转到相关位置。③我们可以看到这是一个html代码,有一个标签和类作为标题,所以如果报告错误,可以根据这个操作进行替换。例如,如果将class更改为company_title,则代码可以更改为:('
A',{'class':'company_title'})[0].get('href')最后,我们要注意的是,爬行的时候,需要适当设置休眠时间,否则会检测到爬行机器人在操作,可能会弹出一个弹窗让你验证,导致循环中断,第二个就是在一定的时间段内,爬行量尽量不要太大,否则会检测到。
完整的代码贴在这里,你可以参考Beautifusoup的妙用。
注:转载时需注明原地址链接,违法行为使用代码与本人无关。