本文文字及图片均在网络上,仅供学习交流,不具有任何商业用途。如有任何疑问,请及时与我们联系处理。
以下文章基于Python爬虫数据分析与挖掘,作者李云晨
1.进入企名网官方网站注册登录。2、然后按F12弹出开发者工具,点击网络,就会看到企名网的网址。点击
然后我们就可以找到我们需要复制的头,这是非常关键的一步。切记此表头是注册后登录成功后获得的表头,方便保存一次后在一定时间内访问网站查询。
整个代码的意思是:冒充用户登录(返回200状态码代表登录成功)。
上面的代码表示已经执行了两个步骤。
这段代码是用来获取文本内容进行文本识别处理的,只能处理大部分内容,可能有很少的空值,如果有兴趣可以自己重写。
这里只是写一个案例,所以随便写一个列表,一般自己运行的代码是读取自己的csv文件中关于公司名称的那一列,然后变成列表)
至此,您可以获得关于这两家公司的一些详细信息。
PS:如果您在这里遇到一些错误('a',{'class':'title'})[0]。get('href'),可能是天眼查更新了网页代码,你可以根据这个操作更新代码。
①按F12进入开发人员调试页面
②就点击“深圳市腾讯计算机系统有限公司”而言,点击右键,然后选择“勾选”选项,就可以看到开发者调试页面自动跳转到相关位置。
正如我们所看到的,这是一个A标签。
类是title的html代码,因此如果报告了错误,可以根据此操作进行替换。例如,如果将class更改为company_title,则代码可以更改为:('a',{'class':'company_title'})[0]。获取('href')
最后需要注意的是,爬行时需要适当设置休眠时间,否则会检测到爬行机器人正在操作,可能会弹出弹窗让你验证,导致循环中断。二是一定时间内尽量不要爬行过多,否则会被察觉。
完整的代码贴在这里,你可以参考Beautifusoup的妙用。
文章来源