**1.**通常我们攀登领英是为了攀登那家公司所有员工的领英。所以我们有两种方法(我知道),一种是百度(领英+公司名称),从中提取个人领英页面,从而进入个人领英页面抓取信息,一般百度只提供前75页的信息,所以,你不一定能全部抓到,但这里我提供一个思路,这种思路只有想完整把握简历才有:领英个人界面右侧一般提供推荐认识的人。你只需要在广度或深度上遍历推荐人的右侧,然后建立筛选机制,应该能够成功把握,需要付出代价(时间成本太高,很难控制)。二是直接在领英官网上搜索公司名称,通过这种方式,可以获得该公司所有员工的信息。然而,由于LinkedIn的网络限制,你可能无法获得大多数人的信息。我说一个便宜的方法。你注册一个LinkedIn账号,然后成为公司的员工,然后添加好友,这样就可以最大程度地获取所有人的信息。这是前期的准备工作。**2.**我的爬虫是这样的。在LinkedIn搜索门户中搜索公司消息后,单击下一页并查看page=After url,您可以复制该消息并将其填写在LinkedIn_Crawler下:
**3.**众所周知,LinkedIn的反爬网非常严格。如果你稍有不慎,就会被要求上传个人信息,因为它会认为你是恶意的。为了解决这种情况,最大程度避免爬虫随时可能中断的情况,我采取了以下措施来应对这种情况:(1):使用cookie池假冒为非恶意爬虫:
(2)使用redis记录已经抓取的内容:
下面关于我是如何分析个人页面的,毫无疑问,LinkedIn的前端工程师确实有过人的智慧,我个人很佩服他们写的js代码,真的很厉害。(1):
(2):
(3)
:
(4):
5我觉得写的不是很好,如果你想看我的代码,可以输入我的github仓库地址看:如果你觉得好,不要忘了小星星,你可以带主义,但是请不要把我的代码当成你的劳动成果去传播,那是一件丢人的事情,希望你三思。