2023-03-06 299
网络爬虫一旦启动将采取定制、自动化模式爬取目标网页的数据,首先从初始页面的URL地址开始,通过向目标站点发送一个Web请求,等待服务器响应;然后获取响应的页面内容,可能包含HTML、JSON字符串、二进制等数据类型,根据响应网页数据类型,辅助以用正则表达式等网页解析库进行解析,获得目标数据;最后保存数据,将数据保存为文本格式或者保存至数据库。如果目标数据涉及URL地址嵌套关联,就要通过分析页面中的其他相关URL,抓取新的网页链接,反复循环,直至爬取、分析和获取所有页面内容。
本人使用Python 3.6.4版本作为开发环境,采用集成工具PyCharm 2020.1版本开发。
爬虫核心代码如下:
#Requests技术爬虫核心代码
#获取响应返回信息,辅助解析库进行解析
response=requests.get(url="目标网页URL地址")
#Selenium技术爬虫核心代码
#安装调取浏览器驱动driver=webdriver.Chrome(executable_path="\chromedriver.exe")
#获取响应返回信息,辅助解析库进行解析
driver.get("目标网页URL地址")
#获取按钮对象
button=driver.find_element(by=By.XPATH,value="按钮XPATH值")
time.sleep(20)#程序睡眠,以便手动在网页输入信息
button.click()#程序自动点击按钮,实现跳转
username.send_keys("用户名信息")#文本框内容赋值
cookies=driver.get_cookies()#获取网页所有的cookie
#Scrapy技术爬虫核心代码
#数据字段的py文件,框架要求
class StockstarItem(Item):#item类定义目标数据的字段
info=Field()#info字段表示网页数据
class StockSpider(Spider):#解析爬虫的py文件,框架要求
start_urls=["目标网页URL地址"]#框架固定参数,定义目标URL #框架固定方法,调用后自动获取目标网页返回内容
def parse(self,response):
infovalue=response.xpath("自定义规则语言解析")
.getall()
item["info"]=infovalue #将网页数据赋值StockstarItem文件
yield item#框架固定的返回方法
#项目管道的py文件,框架要求
class StockstarPipeline:
def process_item(self,item,spider):#框架固定方法
re turn item#自动获取解析爬虫py文件提交的爬取数据
原文链接:http://rbd.lianqin.cc/liuhen/21.html
=========================================
http://rbd.lianqin.cc/ 为 “谷歌留痕-外链代发” 唯一官方服务平台,请勿相信其他任何渠道。
软件 2023-03-02
技术 2023-02-25
原创 2023-03-02
技术 2023-03-02
技术 2023-02-25
原创 2023-03-06
原创 2023-02-23
技术 2023-03-06
原创 2023-02-25
技术 2023-03-06
扫码二维码
获取最新动态