# 整站爬取蜘蛛.py 帮助文档 ## 程序简介 “整站爬取蜘蛛.py”是一个用于爬取网站内容的工具。它可以从指定的种子网址开始,递归地爬取网站中的所有页面,并记录每个页面的标题、延迟等信息。程序支持自定义用户代理、代理服务器、IP伪装等功能,以提高爬取的效率和安全性。 ## 功能特点 1. **多浏览器用户代理**:程序会随机生成不同浏览器的用户代理(User-Agent),模拟真实用户访问。 2. **IP伪装**:支持通过指定IP地址伪装访问来源,适用于需要特定IP访问的场景。 3. **HTTPS证书验证**:可以选择是否忽略未验证的SSL证书警告,方便测试和开发。 4. **递归爬取**:可以从种子网址开始,递归地爬取网站中的所有页面,支持设置最大爬取深度。 5. **结果记录**:爬取结果会保存到文件中,包括每个页面的URL、标题和延迟。 6. **错误处理**:程序会捕获并打印错误信息,方便调试和排查问题。 ## 使用方法 ### 1. 程序启动 运行程序前,请确保已安装以下依赖库: - requests - beautifulsoup4 - pandas - rich