1.进入企名网官网注册登录。2.然后按F12弹出开发者工具,点击网络,就会看到企名网的网址。点击后,您可以找到我们需要复制的头(用户代理和cookie)。这是非常关键的一步。记住这个头(User-Agent和cookie)是你注册后成功登录的头,这样你保存一次后就可以在一定时间内无限次访问网站进行查询。
整个代码的意思是:冒充用户登录(返回200状态码表示登录成功)。有些人爬不上信息,可能是账号密码不对,或者是复制的User-Agent和cookie不对。如果不知道自己写的是否正确,可以通过执行下面的代码来证明:
上面的函数get_company_message(),顾名思义,是用来获取公司的文本信息的。一般包括三个步骤。
这段代码识别被抓取表格的文本内容,只适用于表格格式2的第二张图片。如果值“无法收集”出现,可能是因为该值在已爬网的表文本中不存在。
至此,你可以得到这两家公司的一些详细信息。
按F12进入开发者调试页面就“深圳市腾讯计算机系统有限公司”的点击操作来说,右键然后选择“检查”选项,就可以看到开发者调试页面自动跳转到相关位置。我们可以看到这是一个带有A标签和类标题的html代码。所以如果报错,可以按照这个操作进行更换。比如类改成company_title,代码可以相应的改成:(' a ',{ ' class ' 3360 ' company _ title ' })[0]。Get ('href ')。最后需要注意的是,爬行时睡眠时间要设置好,否则会检测到爬行机器人在操作,可能会弹出一颗子弹。二是在一定时间内尽量不要爬太多,否则会被检测出来。
完整代码贴在这里,可以参考《学习BeautifuSoup的魔力》。
注:转载需注明原地址链接,与本人利用代码实施违法行为无关。