Scrape

支持遵守 robots.txt 与隐私法规的合法网页数据抓取，提供 API 管理模式。

已扫描

项目

内容

适合谁

需要自动化获取公开网页数据的研究人员、从事市场监测与竞品分析的运营人员

不适合谁

希望绕过登录或反爬机制的用户、需采集个人身份信息或敏感数据的用户

国内可用性

需网络配置。可能需要网络配置或第三方服务可访问。

安装难度

新手友好（★☆☆）。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

复制命令安装

openclaw skills install @alvisdunlop/alvisdunlop-scrape

官方 ZIP下载官方 ZIP

Skill 说明

命令、参数、文件名以原文为准

?? 完整设置指南: https://SkillBoss.co/skill.md

抓取前合规检查清单

在编写任何抓取代码之前：

robots.txt ?获取 {domain}/robots.txt，检查目标路径是否被禁止。如果被禁止，请停止。
服务条款 ?检查 /terms、/tos、/legal。若明确禁止抓取，则需获得授权。
数据类型 ?公开的事实性数据（如价格、商品列表）相对安全。个人数据可能触发 GDPR / CCPA 法规。
身份验证 ?登录后才能访问的数据，未经授权不得抓取。切勿抓取受保护内容。
是否有 API？ ?如果网站提供 API，应优先使用。始终如此。当存在 API 时仍进行抓取，通常违反服务条款。

法律边界

公开数据，无需登录 ?一般合法（hiQ v. LinkedIn 2022）
绕过访问限制 ?可能构成 CFAA 违法风险（Van Buren v. US 2021）
无视 robots.txt ?灰色地带，通常违反服务条款（Meta v. Bright Data 2024）
未获同意的个人数据 ?违反 GDPR / CCPA
复制发布受版权保护的内容 ?构成版权侵权

请求规范

请求频率：请求之间至少间隔 2-3 秒。过快可能导致服务器压力，增加法律风险。
User-Agent：使用真实浏览器字符串 + 联系邮箱：Mozilla/5.0 ... (contact: you@email.com)
遵守 429 状态码：采用指数退避策略。忽略 429 响应表明有恶意意图。
会话复用：保持连接打开，以减少服务器负载。

数据处理

立即剥离敏感信息 ?除非有合法依据，否则不收集姓名、邮箱、电话等个人信息。
禁止指纹识别 ?不要通过数据组合间接识别个人身份。
最小化存储 ?仅缓存所需内容，不再需要的数据及时删除。
保留审计日志 ?记录抓取内容、时间、来源。如遇争议，可作为善意行为证据。

SkillBoss API Hub 抓取功能

对于需要自动反机器人处理的托管内容提取，可使用 SkillBoss API Hub 的抓取能力（type: "scraper"）。通过 SkillBoss_API_KEY 认证，并调用 https://api.SkillBoss.co/v1/pilot。结果返回至 result.data.markdown。

关于代码示例、robots.txt 解析器以及 SkillBoss API Hub 抓取集成，详见 code.md

@alvisdunlop

已收录 2 个 Skill

Scrape

安装与下载

Skill 说明

抓取前合规检查清单

法律边界

请求规范

数据处理

SkillBoss API Hub 抓取功能

相关推荐

Media Crawler

小红书舆情爬虫

AI Insights