Web Scraper

支持动态页面渲染的网页数据抓取技能，可使用多种选择器提取结构化信息。

已扫描

项目

内容

适合谁

需要自动化采集网页数据的运营人员、从事数据分析与市场调研的技术用户

不适合谁

无编程基础且无法配置环境的普通用户、希望直接获取完整网站内容的非技术用户

国内可用性

需网络配置。可能需要网络配置或第三方服务可访问。

安装难度

新手友好（★☆☆）。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

复制命令安装

openclaw skills install @jpengcheng523-netizen/jpeng-web-scraper

官方 ZIP下载官方 ZIP

Skill 说明

命令、参数、文件名以原文为准

Web Scraper

从网站中提取数据，支持动态内容渲染。

何时使用

用户希望从网页中抓取数据
从 HTML 中提取结构化数据
处理 JavaScript 渲染的页面
爬取多个页面

功能特性

静态页面：快速进行 HTML 解析
动态页面：使用 Playwright/Puppeteer 渲染
选择器支持：CSS、XPath、正则表达式
AI 数据提取：自动识别数据模式

使用方法

简单抓取

python3 scripts/scrape.py \
  --url "https://example.com/products" \
  --selector ".product-name" \
  --output ./products.json

启用 JavaScript 渲染

python3 scripts/scrape.py \
  --url "https://spa-example.com/data" \
  --render \
  --wait 2000 \
  --selector ".data-item"

提取多个字段

python3 scripts/scrape.py \
  --url "https://example.com/listings" \
  --fields '{
    "title": "h1.title",
    "price": ".price",
    "description": ".desc"
  }'

爬取多个页面

python3 scripts/scrape.py \
  --url "https://example.com/page/1" \
  --crawl 'a[href*="/page/"]' \
  --max-pages 10 \
  --selector ".item"

AI 驱动的数据提取

python3 scripts/scrape.py \
  --url "https://example.com/article" \
  --ai-extract "Extract the title, author, and publication date"

输出示例

{
  "success": true,
  "url": "https://example.com/products",
  "items": [
    {"name": "Product 1", "price": "$99"},
    {"name": "Product 2", "price": "$149"}
  ],
  "scraped_at": "2024-01-15T10:30:00Z"
}

速率限制

默认请求间隔：1 秒
自动遵守 robots.txt 规则
可自定义 User-Agent

@jpengcheng523-netizen

已收录 4 个 Skill

Web Scraper

安装与下载

Skill 说明

Web Scraper

何时使用

功能特性

使用方法

简单抓取

启用 JavaScript 渲染

提取多个字段

爬取多个页面

AI 驱动的数据提取

输出示例

速率限制

相关推荐

Ot Aiops

Self Apply Pressure

Latitude Observability