教你使用Python在网站上抓取赞助公司的名称
上岛。com是一家移动游戏发行推荐和投融资交易平台。平台聚集了手游CP、手游发行、手游渠道、手游外包、投资方和IP授权方、IP合作、一站式服务。并为他们提供合作贸易机会。
今天就教大家如何在网站上爬取赞助公司名称,方便相关人士投资。
获取相应的公司名称并保存文档。
软件:PyCharm
所需库:requests、fake_useragent、time
{}.html
点击下一页时,每增加一页p-{}。html将增加1,用{}替换变量,然后用for循环遍历URL,实现多个URL请求。
导入请求
从lxml导入etree
从fake_useragent导入UserAgent
导入时间
上岛类(对象):
def__init__(self):
=“{}.html”网站
Def main(self):
通过
如果__name__=='__main__':
Siper=上岛()
()
对于范围为(1,50)的i:
={
'User-Agent':,
}
Def get_page(self,url):
RES=(url=url,headers=)
Html=(“UTF-8”)
RET
Urn html
Def page_page(self,html):
Parse_html=(html)
一=('//H2/A/text()')
因为我是一体的:
打印(i)
F=open('http://www.zhucesz.com/','a',encoding='utf-8')以'w'的形式打开文件
(str(i))
Def main(self):
Stat=int(input(“input start(2start):”))
End=int(input(“input:”))
对于范围内的页面(状态,结束+1):
URL=(页面)
打印(URL)
HTML=(URL)
(html)
打印(“===============================================================================================”页成功爬行!!!!======“页”
()
单击绿色小三角形运行输入起始页和结束页(从第0页开始)。
频道公司的名称,结果显示在控制台中。
保存文档。
要了解更多关于Python网络爬虫和数据挖掘的信息,请访问专业网站:返回企名网查看更多信息