Web Scraper

支持动态页面渲染的网页数据抓取技能,可使用多种选择器提取结构化信息。

已扫描
适合谁
需要自动化采集网页数据的运营人员、从事数据分析与市场调研的技术用户
不适合谁
无编程基础且无法配置环境的普通用户、希望直接获取完整网站内容的非技术用户
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @jpengcheng523-netizen/jpeng-web-scraper

Skill 说明

命令、参数、文件名以原文为准

Web Scraper

从网站中提取数据,支持动态内容渲染。

何时使用

  • 用户希望从网页中抓取数据
  • 从 HTML 中提取结构化数据
  • 处理 JavaScript 渲染的页面
  • 爬取多个页面

功能特性

  • 静态页面:快速进行 HTML 解析
  • 动态页面:使用 Playwright/Puppeteer 渲染
  • 选择器支持:CSS、XPath、正则表达式
  • AI 数据提取:自动识别数据模式

使用方法

简单抓取

python3 scripts/scrape.py \
  --url "https://example.com/products" \
  --selector ".product-name" \
  --output ./products.json

启用 JavaScript 渲染

python3 scripts/scrape.py \
  --url "https://spa-example.com/data" \
  --render \
  --wait 2000 \
  --selector ".data-item"

提取多个字段

python3 scripts/scrape.py \
  --url "https://example.com/listings" \
  --fields '{
    "title": "h1.title",
    "price": ".price",
    "description": ".desc"
  }'

爬取多个页面

python3 scripts/scrape.py \
  --url "https://example.com/page/1" \
  --crawl 'a[href*="/page/"]' \
  --max-pages 10 \
  --selector ".item"

AI 驱动的数据提取

python3 scripts/scrape.py \
  --url "https://example.com/article" \
  --ai-extract "Extract the title, author, and publication date"

输出示例

{
  "success": true,
  "url": "https://example.com/products",
  "items": [
    {"name": "Product 1", "price": "$99"},
    {"name": "Product 2", "price": "$149"}
  ],
  "scraped_at": "2024-01-15T10:30:00Z"
}

速率限制

  • 默认请求间隔:1 秒
  • 自动遵守 robots.txt 规则
  • 可自定义 User-Agent
JN
@jpengcheng523-netizen

已收录 4 个 Skill

相关推荐