Skrape

遵循robots协议的伦理化网页数据提取,支持限速与隐私保护。

已扫描
适合谁
数据分析师、市场研究从业者
不适合谁
需获取登录后内容的用户、希望绕过访问限制的开发者
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @10oss/skrape

Skill 说明

命令、参数、文件名以原文为准

尊重创作成果

  • 设计与文本复制:避免复制设计元素或大量文本内容;虽然事实和数据通常不受版权保护,但其呈现形式(网站布局、特定文本、汇编内容)往往受版权保护。
  • 来源标注:在适当情况下正确标注信息来源;这体现了诚信,有助于建立内容创作者及自身受众的信任。
  • 创作者影响考量:考虑你的使用方式可能对原作者工作造成的影响;尊重受版权保护的内容是体现道德行为的表现。

提取前验证步骤

一、访问授权确认 —— 获取 {domain}/robots.txt 并检查 /terms/tos 接口。仅当两者均未禁止提取时方可继续;若存在明确限制或被阻止,应立即停止操作。

二、数据分类 —— 区分公开的事实性信息(如商品列表、价格)与个人身份信息。后者涉及 GDPR/CCPA 法规义务,需有更强的正当理由支持。

三、优先渠道 —— 检查平台是否提供 API 接口。如有可用,应优先使用 API 而非直接抓取。未经合法凭证不得访问需要身份认证的内容。

操作规范与合规要求

  • 请求控制:请求间隔不低于 2-3 秒,遇到 429 错误时采用渐进式退避策略,启用连接池机制,并使用带有联系邮箱的真实 User-Agent。
  • 访问边界:无视 robots.txt 的法律地位尚不明确(Meta v. Bright Data 2024);公开可访问内容通常允许处理(hiQ v. LinkedIn 2022);绕过访问控制可能触发 CFAA 法律风险(Van Buren v. US 2021)。
  • 数据与内容限制:未经许可传播个人身份信息将构成 GDPR/CCPA 违规;未经授权分发受版权保护的内容属于侵权行为。

信息管理责任

  • 个人身份信息与画像限制:及时删除个人身份信息,避免通过数据关联识别具体个人。
  • 保留期限控制:仅保留必要数据,其余应及时清除。
  • 操作日志记录:记录所有提取事件(内容、时间、来源),以便在被质疑时证明操作的合规性。

实现模式与 robots.txt 评估逻辑详见 code.md

1
@10oss

已收录 1 个 Skill

相关推荐