news 2026/4/23 17:28:57

基于Selenium的自动化Web数据采集实践

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
基于Selenium的自动化Web数据采集实践

文章目录

    • 1. 环境配置与浏览器启动
    • 2. 文件上传操作
    • 3. 搜索框交互
    • 4. 图片批量下载
    • 5. 分页数据抓取
    • 6. 商品信息抓取

1. 环境配置与浏览器启动

首先需要配置 Selenium 环境并启动浏览器。以下是使用 Microsoft Edge 浏览器的基本设置:

importos.pathimporttimeimportrequestsfromseleniumimportwebdriverfromselenium.webdriver.edge.optionsimportOptionsfromselenium.webdriver.common.keysimportKeysfromselenium.webdriver.common.byimportBy edge_options=Options()edge_options.binary_location=r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"driver=webdriver.Edge(options=edge_options)

2. 文件上传操作

Selenium 可以模拟用户上传文件的操作。以下代码展示了如何通过文件输入框上传本地图片:

driver.get("https://graph.baidu.com/pcpage/index?tpl_from=pc")input_element=driver.find_element(by=By.NAME,value="file")input_element.send_keys(r"D:\Code\PythonTest\Picture1\1.jpg")time.sleep(5)element=driver.find_element(by=By.CLASS_NAME,value="graph-guess-word")print(element.text)

分析

  • send_keys()方法用来向文件输入框传递本地文件路径

3. 搜索框交互

自动化搜索是常见的 Web 交互场景。以下示例展示了如何在 B 站搜索内容:

driver.get('http://www.bilibili.com')driver.find_element(by=By.TAG_NAME,value="input").send_keys("python"+Keys.RETURN)time.sleep(5)

分析

  • 使用By.TAG_NAME定位器找到第一个<input>元素
  • send_keys()方法不仅发送文本,还可以发送特殊按键
  • Keys.RETURN模拟回车键,提交搜索表单

4. 图片批量下载

自动化下载网页图片是数据抓取的常见需求。以下代码展示了如何从百度图片批量下载图片:

ifnotos.path.exists("./Picture2"):os.mkdir("./Picture2")driver.get('https://image.baidu.com/search/index?tn=baiduimage&ie=utf-8&word=迪丽热巴')driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")time.sleep(8)img_list=driver.find_elements(By.XPATH,value="//img[@class='img_7rRSL']")i=1forimginimg_list:img_url=img.get_attribute("src")img_data=requests.get(img_url)withopen(f"./Picture2/{i}.png",'wb')asf:f.write(img_data.content)i+=1

分析

  • driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")使用 JavaScript 执行器滚动页面到底部

  • document.body.scrollHeight获取文档总高度,确保滚动到底部

5. 分页数据抓取

处理分页内容是 Web 抓取中的常见操作。以下代码展示了如何抓取苏宁易购的商品评价:

driver.get("https://review.suning.com/cluster_cmmdty_review/cluster-38249278-000000012389328846-0000000000-1-good.htm?originalCmmdtyType=general&safp=d488778a.10004.loverRight.166")hp_file=open('好评1.txt','w',encoding="utf-8")defget_py_content(file):pj_elements_content=driver.find_elements(by=By.CLASS_NAME,value="body-content")forelementinpj_elements_content:file.write(element.text+"\n")get_py_content(hp_file)next_elements=driver.find_elements(by=By.XPATH,value='//*[@class="next rv-maidian "]')print(next_elements)whilenext_elements!=[]:next_elements=next_elements[0]time.sleep(1)next_elements.click()get_py_content(hp_file)next_elements=driver.find_elements(by=By.XPATH,value='//*[@class="next rv-maidian "]')hp_file.close()

关键方法分析

  • 使用 XPath 定位器精确查找下一页按钮://*[@class="next rv-maidian "]
  • find_elements()(复数)返回元素列表,即使没有找到元素也不会抛出异常
  • next_elements[0].click()点击第一个符合条件的元素
  • 循环条件next_elements != []检查是否还有下一页

6. 商品信息抓取

综合示例-抓取苏宁易购上医用口罩的商品信息:

edge_options=Options()edge_options.binary_location=r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"driver=webdriver.Edge(options=edge_options)driver.get("http://www.suning.com")element=driver.find_element(by=By.ID,value="searchKeywords")element.send_keys("医用口罩"+Keys.RETURN)time.sleep(10)driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")time.sleep(10)price_elements=driver.find_elements(by=By.CLASS_NAME,value='def-price')title_elements=driver.find_elements(by=By.CLASS_NAME,value='title-selling-point')evaluate_elements=driver.find_elements(by=By.CLASS_NAME,value='info-evaluate')store_elements=driver.find_elements(by=By.CLASS_NAME,value='store-stock')a=time.strftime('%Y-%m-%d')f=open(a+'医用口罩.txt','w',encoding='utf-8')foriinrange(len(price_elements)):f.write(price_elements[i].text+'\t')f.write(title_elements[i].text+'\t')f.write(evaluate_elements[i].text+'\t')f.write(store_elements[i].text+'\n')f.close()

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 6:14:41

WorkshopDL:无需Steam账号,轻松下载创意工坊模组的终极神器

WorkshopDL&#xff1a;无需Steam账号&#xff0c;轻松下载创意工坊模组的终极神器 【免费下载链接】WorkshopDL WorkshopDL - The Best Steam Workshop Downloader 项目地址: https://gitcode.com/gh_mirrors/wo/WorkshopDL 还在为Epic或GOG平台的游戏无法体验Steam创意…

作者头像 李华
网站建设 2026/4/23 15:47:37

LobeChat能否连接数据库做查询?NL2SQL功能验证

LobeChat 能否连接数据库做查询&#xff1f;NL2SQL 功能验证 在企业数字化转型不断加速的今天&#xff0c;一线业务人员常常面临一个尴尬局面&#xff1a;他们最清楚该问什么问题&#xff0c;却无法直接获取答案。一份简单的“上个月销量最高的产品”查询&#xff0c;可能需要层…

作者头像 李华
网站建设 2026/4/23 12:49:09

如何快速使用NBTExplorer:我的世界数据编辑终极指南

如何快速使用NBTExplorer&#xff1a;我的世界数据编辑终极指南 【免费下载链接】NBTExplorer A graphical NBT editor for all Minecraft NBT data sources 项目地址: https://gitcode.com/gh_mirrors/nb/NBTExplorer 想要彻底掌控你的我的世界游戏体验吗&#xff1f;N…

作者头像 李华
网站建设 2026/4/23 17:07:05

轮播组件视觉重构:从dots定制到设计系统思维

你是否遇到过这样的场景&#xff1a;精心设计的页面因为轮播组件默认样式过于简陋而显得不够协调&#xff1f;作为前端开发中最常用的交互组件之一&#xff0c;slick轮播提供了强大的视觉定制能力。本文将通过全新的三段式结构&#xff0c;带你从问题诊断到深度定制&#xff0c…

作者头像 李华
网站建设 2026/4/23 11:27:06

分布式事务的概念及常用解决方案介绍

本文总结&#xff1a;本文探讨了分布式事务的概念及解决方案。分布式事务指在分布式系统中多个服务协同完成业务时&#xff0c;需确保各服务事务同时成功或失败。针对这一问题&#xff0c;文章分析了多种解决方案&#xff1a;1&#xff09;2PC/XA协议采用强一致性&#xff0c;通…

作者头像 李华
网站建设 2026/4/23 11:27:18

小红书数据采集终极指南:xhs工具2025完全解析

小红书数据采集终极指南&#xff1a;xhs工具2025完全解析 【免费下载链接】xhs 基于小红书 Web 端进行的请求封装。https://reajason.github.io/xhs/ 项目地址: https://gitcode.com/gh_mirrors/xh/xhs 在内容营销和数据分析日益重要的今天&#xff0c;小红书平台已成为…

作者头像 李华