Scrapeless Pro Skill

基于 Playwright 的无痕网页抓取,支持动态页面渲染与结构化数据提取。

已扫描
适合谁
需要自动化网页数据采集的技术用户、从事内容聚合或市场调研的运营人员
不适合谁
无需网页抓取的普通用户、希望免密使用且不接受付费授权的用户
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @showmemercy19-rgb/scrapeless-pro-skill

Skill 说明

命令、参数、文件名以原文为准

Scrapeless Pro 🕷️

适用于 OpenClaw 的专业网页抓取工具。 采用隐蔽模式的 Playwright 自动化技术,可渲染 JavaScript,绕过反机器人检测,并从任意现代网站提取结构化数据。

OpenClaw 内置的 web_fetch 在 75% 的 JavaScript 重度网站上会失败。Scrapeless Pro 可解决此问题。

为什么选择 Scrapeless Pro?

  • JavaScript 渲染支持 — 兼容 React、Vue、SPA 及动态网站
  • 隐蔽模式 — 随机用户代理、视口大小、指纹伪装,内置反检测脚本
  • 自动数据提取 — 提取标题、链接、段落、图片、元标签等
  • 自定义选择器 — 使用 CSS 选择器精准定位目标元素
  • 多格式输出 — 支持 JSON、CSV、Markdown 格式
  • 命令行与程序化调用 — 可通过命令行使用,也可在技能中导入

购买许可证

$49 一次性付费 — 终身使用权,包含一年更新支持。

获取许可证:https://cosmic-lollipop-a61cc5.netlify.app

安装步骤

1. 安装

clawhub install scrapeless-pro

2. 设置许可证密钥

export SCRAPELESS_LICENSE_KEY="SCRAPELESS-XXXX-XXXX-XXXX-XXXX"

3. 安装 Playwright(如尚未安装)

npm install playwright
npx playwright install chromium

使用方法

命令行使用

# 基础抓取
node scraper.js scrape https://example.com

# 指定输出格式
node scraper.js scrape https://example.com --format csv
node scraper.js scrape https://example.com --format markdown

# 保存到文件
node scraper.js scrape https://example.com -o data.json

# 使用自定义选择器
node scraper.js scrape https://example.com --selectors '{"products":".product","prices":".price"}'

# 验证许可证
node scraper.js validate

OpenClaw 代理调用

向你的 OpenClaw 代理提问:

抓取 https://example.com/products 并提取所有产品名称和价格

程序化调用

const { scrape } = require('scrapeless-pro');

const data = await scrape('https://quotes.toscrape.com', {
    format: 'json',
    headless: true,
});
console.log(data.title);
console.log(data.headings);

实际输出示例

测试网址:https://quotes.toscrape.com (2026-04-18)

{
  "title": "Quotes to Scrape",
  "url": "https://quotes.toscrape.com/",
  "timestamp": "2026-04-18T11:15:40.071Z",
  "headings": [
    { "level": "H1", "text": "Quotes to Scrape" },
    { "level": "H2", "text": "Top Ten tags" }
  ],
  "links": [
    { "text": "Login", "href": "https://quotes.toscrape.com/login" },
    { "text": "(about)", "href": "https://quotes.toscrape.com/author/Albert-Einstein" },
    { "text": "change", "href": "https://quotes.toscrape.com/tag/change/page/1/" }
  ],
  "paragraphs": ["Login", "Quotes by: GoodReads.com"]
}

命令行选项

选项描述默认值
-f, --format输出格式:json、csv、markdownjson
-s, --selectors以 JSON 格式指定 CSS 选择器自动识别
-o, --output输出保存至文件标准输出
-t, --timeout导航超时时间(毫秒)30000
-d, --delay导航前随机延迟时间(毫秒)1000
--no-headless显示浏览器窗口隐藏

隐蔽功能特性

  • 随机用户代理轮换(5 种真实设备代理)
  • 随机视口尺寸(如 1920x1080、1366x768 等)
  • navigator.webdriver 重写(隐藏自动化标识)
  • Chrome 运行时注入
  • Function.prototype.toString 重写
  • 权限 API 欺骗
  • 随机滚动行为
  • 真实的导航延迟

依赖项

  • playwright — 浏览器自动化
  • commander — 命令行接口

无外部 API 依赖,无需付费服务,不向第三方发送任何数据。

技术支持

  • 邮件:showmemercy19@gmail.com
  • 许可证页面:https://cosmic-lollipop-a61cc5.netlify.app

*Scrapeless Pro v1.0.3 — OpenClaw 商业技能*

SR
@showmemercy19-rgb

已收录 1 个 Skill

相关推荐