【python爬虫专项（29）】链家二手房源数据采集2（深度信息采集）（python爬取二手房信息）-eolink官网

【python爬虫专项（29）】链家二手房源数据采集2（深度信息采集）（python爬取二手房信息）

链家二手房源数据深度采集

这部分的实践是基于上一个博客获得的数据，具体的参考网址如下：

爬虫逻辑：【提取mongo里面的具体网页的链接】–> 【设置动态ip】–> 【获取详细信息】

函数式编程：

函数1：url_extract(database,table,field) → 【数据网页url提取】函数 database：数据库 table：源数据mongo集合对象 field：url字段

函数2：get_data(ui,d_h,ips,table) → 【数据采集及mongo入库】函数 ui：数据信息网页 d_h：user-agent信息 ips：代理设置 table：mongo集合对象

前期准备并封装第一个函数

上一个博客已经完成了分页中各个列表里面标题所对应的url（链接）采集，这里只需要加载一下即可

导入相关库、代码分区和配置数据库

import reimport requestsimport timefrom bs4 import BeautifulSoupimport pymongoif __name__ == '__main__': myclient = pymongo.MongoClient("mongodb://localhost:27017/") db = myclient['链家二手房_1'] datatable = db['data_1']

数据提取

dlst = datatable.find()print(dlst)print(dlst[0])

输出结果为：（dlst是一个可以迭代的对象，这里取出第一个元素示例）

3) 封装第一个函数

def url_extract(database,table,field): '''【数据网页url提取】函数 database：数据库 table：源数据mongo集合对象 field：url字段 ''' dlst = table.find() lst = [] for item in dlst: lst.append(item[field]) return lst urllst = url_extract(db,datatable,'链接')[:10]print(urllst)

输出结果为：（网页均可以打开）

[‘‘‘‘‘‘= url_extract(db,datatable,'链接')[:10]u = urllst[0]r = requests.get(u,headers = dic_headers, cookies = dic_cookies)soup = BeautifulSoup(r.text, 'lxml')dic = {}dic['标题'] = soup.h1.textprice = soup.find('div', class_="price").textdic['总价_万'] = re.search(r'(\d+)万', price).group(1)dic['单价_元'] = re.search(r'(\d+)元', price).group(1)base_info = soup.find('div', class_="base").find('ul').find_all('li')for li in base_info: st = re.split(r'<.*?>',str(li)) dic[st[2]] = st[3] transaction_info = soup.find('div', class_="transaction").find('ul').find_all('li')for li in transaction_info: st = re.split(r'<.*?>',str(li)) dic[st[2]] = st[4].replace('\n','').replace(' ','') loc = re.search(r"resblockPosition:'([\d.]+),([\d.]+)'",r.text)dic['lng'] = loc.group(1)dic['lat'] = loc.group(2)print(dic)

输出的结果为：

封装第二个函数及输出可视化

关于base_info和transaction_info获取的过程有点难度

def get_data(ui,d_h,d_c,ips,table): ''' 【数据采集及mongo入库】函数 ui：数据信息网页 d_h：user-agent信息 ips：代理设置 table：mongo集合对象 ''' r = requests.get(ui,headers = d_h, cookies = d_c) soup = BeautifulSoup(r.text, 'lxml') dic = {} dic['标题'] = soup.h1.text price = soup.find('div', class_="price").text dic['总价_万'] = re.search(r'(\d+)万', price).group(1) dic['单价_元'] = re.search(r'(\d+)元', price).group(1) base_info = soup.find('div', class_="base").find('ul').find_all('li') for li in base_info: st = re.split(r'<.*?>',str(li)) dic[st[2]] = st[3] transaction_info = soup.find('div', class_="transaction").find('ul').find_all('li') for li in transaction_info: st = re.split(r'<.*?>',str(li)) dic[st[2]] = st[4].replace('\n','').replace(' ','') loc = re.search(r"resblockPosition:'([\d.]+),([\d.]+)'",r.text) dic['lng'] = loc.group(1) dic['lat'] = loc.group(2) table.insert_one(dic)

最后的可视化代码如下

urllst = url_extract(db,datatable,'链接')[:100]errorlst = []count = 1for u in urllst: print("程序正在休息......") time.sleep(5) try: get_data(u,dic_headers,dic_cookies,'a', datatable2) print(f'成功采集{count}条数据') count += 1 except: errorlst.append(u) print('数据采集失败，网址为：',u)

输出结果：

数据库中的数据

使用SpringBoot实现API接口

257 2022-08-25

【python爬虫专项（29）】链家二手房源数据采集2（深度信息采集）（python爬取二手房信息）

Spring中的aware接口详情

29、OSPF配置实验之被动接口

使用SpringBoot实现API接口

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

软件接口设计怎么做？前后端分离软件接口设计思路

接口管理平台推荐，几大接口管理平台总有一款适合你！