虫子阵容代码(云顶之弈阵容代码)
网络爬虫是一种在互联网上自动抓取数据的技术。它可以通过程序自动化地访问网站,并提取其中的信息。爬虫技术被广泛应用于数据挖掘、信息收集、搜索引擎等领域。
今天使用的只有两个包
requests:向服务器发起请求,并获得网页源码
etree: 对网页源码解析,并获得想要的信息

’=‘等号左边的是名字,可以拼音,可以英文,数字不能开头
我这边英文不好就用拼音代替
网页地址是最顶部内容


mo_ni={'User-Agent':'Mozilla/5.0 (Windows NT 1
0.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Geko) Chrome/124.0.0.0 Safari/537.36'}
wang_zhi:是把网页地址赋值给wang_zhi
mo_ni:我是虫子,我要打扮的像计算器,不能被服务器看穿,要不然就不给我数据了

向服务器发起请求,并获得数据
进入网页右键点击检查


找上一级<div / <ul / <li /< a <img 。class是名字,应为网页中有很多个div,ui,li,a,
div:是一个大盒子 大盒子里有很多个(li)房间,每个房间对应的一个数据(详情页网址,名字,图片网址)


<a里面有很多东西比如:详情页网址,名字,图片网址。
每条数据前面对应的有href src alt ,想要那个,替换就行

for :是循环,它对每个房间进行串门,并拿走点东西是没有经过房主的同意 的哦

保存:(txt pdf html mp3 mp4 ) 格式 数据库 表格 等等
整个代码


