# selenium **Repository Path**: chenbool/selenium ## Basic Information - **Project Name**: selenium - **Description**: selenium 自动化测试 采集 案例 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2022-07-19 - **Last Updated**: 2026-04-28 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 体育赛事比分爬虫 > 基于 Selenium 的自动化数据采集工具,支持多浏览器驱动 ## 功能特性 | 功能 | 说明 | |:---|:---| | 数据采集 | 自动抓取体育赛事比分数据 | | 多浏览器 | 支持 Chrome、Firefox、Edge、IE、PhantomJS | | 数据存储 | SQLite 本地数据库持久化 | | 自动去重 | 智能判断新增/更新数据 | ## 技术栈 ``` Python 3.x ├── Selenium # 浏览器自动化 ├── BeautifulSoup4 # HTML 解析 └── Dataset # 数据库操作 ``` ## 项目结构 ``` selenium/ ├── app.py # 主程序入口 ├── app - 副本.py # 备用版本 ├── data.db # SQLite 数据库 ├── driver/ # 浏览器驱动 │ ├── chromedriver.exe │ ├── geckodriver.exe │ ├── IEDriverServer.exe │ ├── msedgedriver.exe │ └── phantomjs.exe └── README.md # 项目文档 ``` ## 快速开始 ### 1. 安装依赖 ```bash pip install selenium beautifulsoup4 dataset ``` ### 2. 配置驱动 在 `app.py` 中选择需要的浏览器驱动: ```python # Edge (推荐) self.driver = webdriver.Edge('./driver/msedgedriver.exe') # Chrome self.driver = webdriver.Chrome('./driver/chromedriver.exe') # Firefox self.driver = webdriver.Firefox('./driver/geckodriver.exe') # PhantomJS (无头) self.driver = webdriver.PhantomJS('./driver/phantomjs.exe') ``` ### 3. 运行程序 ```bash python app.py ``` ## 数据表结构 | 字段 | 类型 | 说明 | |:---|:---|:---| | id | INTEGER | 主键 (自增) | | title | TEXT | 赛事标题 | | time | TEXT | 比赛时间 | | status | TEXT | 赛事状态 | | name_1 | TEXT | 主队名称 | | score | TEXT | 全场比分 | | name_2 | TEXT | 客队名称 | | half | TEXT | 半场比分 | | update_date | REAL | 更新时间戳 | ## 注意事项 - 请确保对应浏览器驱动版本与浏览器版本匹配 - 目标网站:`http://live.titan007.com/oldIndexall.aspx` - 隐式等待时间:10秒 ## 许可证 MIT License