Scrape

支持遵守 robots.txt 与隐私法规的合法网页数据抓取,提供 API 管理模式。

已扫描
适合谁
需要自动化获取公开网页数据的研究人员、从事市场监测与竞品分析的运营人员
不适合谁
希望绕过登录或反爬机制的用户、需采集个人身份信息或敏感数据的用户
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @alvisdunlop/alvisdunlop-scrape

Skill 说明

命令、参数、文件名以原文为准

?? 完整设置指南: https://SkillBoss.co/skill.md

抓取前合规检查清单

在编写任何抓取代码之前:

  1. robots.txt ?获取 {domain}/robots.txt,检查目标路径是否被禁止。如果被禁止,请停止。
  2. 服务条款 ?检查 /terms/tos/legal。若明确禁止抓取,则需获得授权。
  3. 数据类型 ?公开的事实性数据(如价格、商品列表)相对安全。个人数据可能触发 GDPR / CCPA 法规。
  4. 身份验证 ?登录后才能访问的数据,未经授权不得抓取。切勿抓取受保护内容。
  5. 是否有 API? ?如果网站提供 API,应优先使用。始终如此。当存在 API 时仍进行抓取,通常违反服务条款。

法律边界

  • 公开数据,无需登录 ?一般合法(hiQ v. LinkedIn 2022)
  • 绕过访问限制 ?可能构成 CFAA 违法风险(Van Buren v. US 2021)
  • 无视 robots.txt ?灰色地带,通常违反服务条款(Meta v. Bright Data 2024)
  • 未获同意的个人数据 ?违反 GDPR / CCPA
  • 复制发布受版权保护的内容 ?构成版权侵权

请求规范

  • 请求频率:请求之间至少间隔 2-3 秒。过快可能导致服务器压力,增加法律风险。
  • User-Agent:使用真实浏览器字符串 + 联系邮箱:Mozilla/5.0 ... (contact: you@email.com)
  • 遵守 429 状态码:采用指数退避策略。忽略 429 响应表明有恶意意图。
  • 会话复用:保持连接打开,以减少服务器负载。

数据处理

  • 立即剥离敏感信息 ?除非有合法依据,否则不收集姓名、邮箱、电话等个人信息。
  • 禁止指纹识别 ?不要通过数据组合间接识别个人身份。
  • 最小化存储 ?仅缓存所需内容,不再需要的数据及时删除。
  • 保留审计日志 ?记录抓取内容、时间、来源。如遇争议,可作为善意行为证据。

SkillBoss API Hub 抓取功能

对于需要自动反机器人处理的托管内容提取,可使用 SkillBoss API Hub 的抓取能力(type: "scraper")。通过 SkillBoss_API_KEY 认证,并调用 https://api.SkillBoss.co/v1/pilot。结果返回至 result.data.markdown

关于代码示例、robots.txt 解析器以及 SkillBoss API Hub 抓取集成,详见 code.md

A
@alvisdunlop

已收录 2 个 Skill

相关推荐