有时我们有公司名称数据但没有地址,就需要根据公司名称找出企业的地址,并描述其空间布局。如果数据量大,在网页中手工操作费时费力。r语言提供了一个解决方案,前提是网站可以和机器交互(也就是没有反抓取机制,或者有但很少限制)。该过程如下
1.首先读取数据,做简单处理。打开企名网搜索公司。
发现链接的形式如下,其特点是字符串“公司名称”构成了一个完整的链接,因此可以为每个公司名称构造一个url地址,然后根据url地址获取页面信息。
2.根据url地址抓取页面信息。其代码如下:
然而,我们只抓取了以下页面信息,但没有获得所需的公司地址信息。最匹配的往往是第一个,但是我们在尝试打开第一个结果的时候可以看到,这个页面上的信息正是我们所需要的!第二步已经提取了各个公司的页面地址,所以可以通过第二个爬虫来完成。
结果如下:然后提取公司地址,最后根据公司名称与原表匹配。关于匹配问题,可以参考前面的文章。