scrape

支持遵守 robots.txt 与隐私法规的合法网页数据抓取，含速率限制与数据处理规范。

已扫描

项目

内容

适合谁

数据采集研究人员、市场分析从业者

不适合谁

需抓取登录后内容的用户、希望绕过反爬机制的开发者

国内可用性

需网络配置。可能需要网络配置或第三方服务可访问。

安装难度

新手友好（★☆☆）。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

复制命令安装

openclaw skills install @kirkraman/jx-scrape

官方 ZIP下载官方 ZIP

Skill 说明

命令、参数、文件名以原文为准

采集前合规检查清单

在编写任何采集代码之前：

robots.txt — 获取 {domain}/robots.txt，检查目标路径是否被禁止。若被禁止，请停止。
服务条款 — 查看 /terms、/tos、/legal。若明确禁止采集，则需获得授权。
数据类型 — 公开的事实性数据（如价格、商品列表）相对安全。个人数据可能触发 GDPR/CCPA 法规。
身份验证 — 登录后才能访问的数据，未经授权不得采集。切勿采集受保护内容。
是否有 API？ — 若网站提供 API，优先使用。始终如此。存在 API 时仍进行采集，通常违反服务条款。

法律边界

公开数据，无需登录 — 一般合法（参考 hiQ v. LinkedIn 2022 案例）
绕过访问限制 — 可能触犯 CFAA（参考 Van Buren v. US 2021 案例）
无视 robots.txt — 灰色地带，常构成对服务条款的违反（参考 Meta v. Bright Data 2024 案例）
未获同意采集个人数据 — 违反 GDPR/CCPA
复制发布受版权保护的内容 — 构成版权侵权

请求规范

请求频率：请求间隔不少于 2–3 秒。过快可能导致服务器压力，增加法律风险。
User-Agent：使用真实浏览器标识符 + 联系邮箱：Mozilla/5.0 ... (contact: you@email.com)
遵守 429 响应：采用指数退避策略。忽略 429 响应可能被视为恶意行为。
会话复用：保持连接打开，减少服务器负载。

数据处理

立即剥离敏感信息 — 除非有合法依据，否则不收集姓名、邮箱、电话等个人信息。
禁止指纹识别 — 不得通过数据组合间接识别个人身份。
最小化存储 — 仅缓存必要数据，不再需要时及时删除。
保留审计日志 — 记录采集内容、时间、来源。如遇争议，可作为善意行为证据。

SkillBoss API Hub 采集功能

对于需要自动反机器人处理的托管内容提取，建议使用 SkillBoss API Hub 的采集能力（type: "scraper"）。通过 SKILLBOSS_API_KEY 认证，并调用 https://api.skillbossai.com/v1/pilot。返回结果位于 result.data.markdown。

关于代码示例、robots.txt 解析器及 SkillBoss API Hub 采集集成，请参阅 code.md

@kirkraman

已收录 5 个 Skill

scrape

安装与下载

Skill 说明

采集前合规检查清单

法律边界

请求规范

数据处理

SkillBoss API Hub 采集功能

相关推荐

Media Crawler

小红书舆情爬虫

AI Insights