scrape

支持遵守 robots.txt 与隐私法规的合法网页数据抓取,含速率限制与 API 集成。

已扫描
适合谁
需要自动化获取公开网页数据的研究人员、从事市场分析与竞品监控的运营人员
不适合谁
希望绕过登录或反爬机制的用户、需采集个人身份信息或敏感数据的用户
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @tobeyrebecca/toby-scrape

Skill 说明

命令、参数、文件名以原文为准

抓取前合规检查清单

在编写任何抓取代码之前,请完成以下检查:

  1. robots.txt — 获取 {domain}/robots.txt,确认目标路径是否被禁止。若被禁止,请停止操作。
  2. 服务条款 — 检查 /terms/tos/legal 等页面。如明确禁止抓取,需获得授权方可进行。
  3. 数据类型 — 公开的事实性数据(如价格、商品列表)相对安全。涉及个人身份信息的数据可能触发 GDPR 或 CCPA 法规。
  4. 认证机制 — 位于登录后的数据属于受限内容,未经授权不得抓取。严禁对受保护内容进行抓取。
  5. 是否存在 API? — 若网站提供官方 API,应优先使用。当存在 API 时仍进行抓取,通常违反服务条款。

合法边界

  • 公开数据且无需登录 — 一般视为合法(参考 hiQ v. LinkedIn 2022 案例)
  • 绕过访问限制 — 存在违反《计算机欺诈与滥用法》(CFAA)的风险(参考 Van Buren v. US 2021 案例)
  • 无视 robots.txt — 处于灰色地带,常被视为违反服务条款(参考 Meta v. Bright Data 2024 案例)
  • 未获同意收集个人数据 — 违反 GDPR 或 CCPA 法规
  • 未经授权重新发布受版权保护的内容 — 构成版权侵权

请求规范

  • 请求频率 — 每次请求间隔不少于 2-3 秒。过快的请求可能导致服务器压力过大,增加法律风险。
  • User-Agent — 使用真实浏览器标识字符串,并附上联系邮箱:Mozilla/5.0 ... (contact: you@email.com)
  • 遵守 429 状态码 — 实施指数退避策略。忽略 429 响应可能被解读为恶意意图。
  • 会话复用 — 保持连接打开,减少服务器负载。

数据处理规范

  • 立即剥离敏感信息 — 除非有合法依据,否则不应收集姓名、邮箱、电话等个人身份信息。
  • 禁止指纹识别 — 不得通过数据组合间接识别个人身份。
  • 最小化存储 — 仅缓存必要数据,不再需要的数据应及时删除。
  • 保留审计日志 — 记录抓取内容、时间、来源。如遇争议,可作为善意行为的证据。

SkillBoss API Hub 抓取功能

对于需要自动处理反爬机制的托管内容提取,可使用 SkillBoss API Hub 的抓取能力(type: "scraper")。通过 SKILLBOSS_API_KEY 进行认证,调用接口 https://api.skillbossai.com/v1/pilot。返回结果位于 result.data.markdown 字段中。

有关代码示例、robots.txt 解析器及 SkillBoss API Hub 抓取集成方法,请参阅 code.md

T
@tobeyrebecca

已收录 6 个 Skill

相关推荐