首页 原创 正文
网络爬虫程序框架设计及爬虫核心代码实现

 2023-03-06    299  

网络爬虫一旦启动将采取定制、自动化模式爬取目标网页的数据,首先从初始页面的URL地址开始,通过向目标站点发送一个Web请求,等待服务器响应;然后获取响应的页面内容,可能包含HTML、JSON字符串、二进制等数据类型,根据响应网页数据类型,辅助以用正则表达式等网页解析库进行解析,获得目标数据;最后保存数据,将数据保存为文本格式或者保存至数据库。如果目标数据涉及URL地址嵌套关联,就要通过分析页面中的其他相关URL,抓取新的网页链接,反复循环,直至爬取、分析和获取所有页面内容。


网络爬虫程序框架设计及爬虫核心代码实现 第1张

本人使用Python 3.6.4版本作为开发环境,采用集成工具PyCharm 2020.1版本开发。

爬虫核心代码如下:

#Requests技术爬虫核心代码

#获取响应返回信息,辅助解析库进行解析

response=requests.get(url="目标网页URL地址")

#Selenium技术爬虫核心代码

#安装调取浏览器驱动driver=webdriver.Chrome(executable_path="\chromedriver.exe")

#获取响应返回信息,辅助解析库进行解析

driver.get("目标网页URL地址")

#获取按钮对象

button=driver.find_element(by=By.XPATH,value="按钮XPATH值")

time.sleep(20)#程序睡眠,以便手动在网页输入信息

button.click()#程序自动点击按钮,实现跳转

username.send_keys("用户名信息")#文本框内容赋值

cookies=driver.get_cookies()#获取网页所有的cookie

#Scrapy技术爬虫核心代码

#数据字段的py文件,框架要求

class StockstarItem(Item):#item类定义目标数据的字段

info=Field()#info字段表示网页数据

class StockSpider(Spider):#解析爬虫的py文件,框架要求

start_urls=["目标网页URL地址"]#框架固定参数,定义目标URL #框架固定方法,调用后自动获取目标网页返回内容

def parse(self,response):    

 infovalue=response.xpath("自定义规则语言解析")

.getall()    

item["info"]=infovalue #将网页数据赋值StockstarItem文件     

yield item#框架固定的返回方法

#项目管道的py文件,框架要求

class StockstarPipeline: 

    def process_item(self,item,spider):#框架固定方法      

re turn item#自动获取解析爬虫py文件提交的爬取数据


添加谷歌搜索留痕QQ获取更多免费工具:QQ:2843670184,

原文链接:http://rbd.lianqin.cc/liuhen/21.html

=========================================

http://rbd.lianqin.cc/ 为 “谷歌留痕-外链代发” 唯一官方服务平台,请勿相信其他任何渠道。