scrape

支持遵守 robots.txt 与隐私法规的合法网页数据抓取，含速率限制与 API 集成。

已扫描

项目

内容

适合谁

需要自动化获取公开网页数据的研究人员、从事市场分析与竞品监控的运营人员

不适合谁

希望绕过登录或反爬机制的用户、需采集个人身份信息或敏感数据的用户

国内可用性

需网络配置。可能需要网络配置或第三方服务可访问。

安装难度

新手友好（★☆☆）。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

复制命令安装

openclaw skills install @tobeyrebecca/toby-scrape

官方 ZIP下载官方 ZIP

Skill 说明

命令、参数、文件名以原文为准

抓取前合规检查清单

在编写任何抓取代码之前，请完成以下检查：

robots.txt — 获取 {domain}/robots.txt，确认目标路径是否被禁止。若被禁止，请停止操作。
服务条款 — 检查 /terms、/tos、/legal 等页面。如明确禁止抓取，需获得授权方可进行。
数据类型 — 公开的事实性数据（如价格、商品列表）相对安全。涉及个人身份信息的数据可能触发 GDPR 或 CCPA 法规。
认证机制 — 位于登录后的数据属于受限内容，未经授权不得抓取。严禁对受保护内容进行抓取。
是否存在 API？ — 若网站提供官方 API，应优先使用。当存在 API 时仍进行抓取，通常违反服务条款。

合法边界

公开数据且无需登录 — 一般视为合法（参考 hiQ v. LinkedIn 2022 案例）
绕过访问限制 — 存在违反《计算机欺诈与滥用法》（CFAA）的风险（参考 Van Buren v. US 2021 案例）
无视 robots.txt — 处于灰色地带，常被视为违反服务条款（参考 Meta v. Bright Data 2024 案例）
未获同意收集个人数据 — 违反 GDPR 或 CCPA 法规
未经授权重新发布受版权保护的内容 — 构成版权侵权

请求规范

请求频率 — 每次请求间隔不少于 2-3 秒。过快的请求可能导致服务器压力过大，增加法律风险。
User-Agent — 使用真实浏览器标识字符串，并附上联系邮箱：Mozilla/5.0 ... (contact: you@email.com)
遵守 429 状态码 — 实施指数退避策略。忽略 429 响应可能被解读为恶意意图。
会话复用 — 保持连接打开，减少服务器负载。

数据处理规范

立即剥离敏感信息 — 除非有合法依据，否则不应收集姓名、邮箱、电话等个人身份信息。
禁止指纹识别 — 不得通过数据组合间接识别个人身份。
最小化存储 — 仅缓存必要数据，不再需要的数据应及时删除。
保留审计日志 — 记录抓取内容、时间、来源。如遇争议，可作为善意行为的证据。

SkillBoss API Hub 抓取功能

对于需要自动处理反爬机制的托管内容提取，可使用 SkillBoss API Hub 的抓取能力（type: "scraper"）。通过 SKILLBOSS_API_KEY 进行认证，调用接口 https://api.skillbossai.com/v1/pilot。返回结果位于 result.data.markdown 字段中。

有关代码示例、robots.txt 解析器及 SkillBoss API Hub 抓取集成方法，请参阅 code.md。

@tobeyrebecca

已收录 6 个 Skill

scrape

安装与下载

Skill 说明

抓取前合规检查清单

合法边界

请求规范

数据处理规范

SkillBoss API Hub 抓取功能

相关推荐

Media Crawler

小红书舆情爬虫

AI Insights