PulpMiner Web Scraper - Convert Any Webpage to Realtime JSON API

通过AI将任意网页转换为结构化JSON数据,支持动态参数和API调用。

已扫描
适合谁
需要自动化采集网页数据的技术人员、从事电商监控或市场分析的运营人员
不适合谁
无网络访问能力的环境使用者、对API密钥管理不熟悉的初学者
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @melvin2016/webscraper-pulpminer

Skill 说明

命令、参数、文件名以原文为准

PulpMiner — AI 网页抓取与 JSON API

PulpMiner 可将任意网页转换为结构化 JSON 数据。您只需提供一个 URL,可选地再提供一个 JSON 模板,PulpMiner 会抓取页面内容,通过大语言模型(LLM)处理,并返回清洗后的结构化数据。

认证方式

所有 API 调用都需要包含 apikey 请求头:

apikey: <PULPMINER_API_KEY>

在 https://pulpminer.com/api 获取您的 API 密钥——如果没有密钥,请点击“重新生成密钥”。

核心工作流程

PulpMiner 的工作分为两个阶段:

  1. 创建已保存的 API —— 通过 PulpMiner 控制台(https://pulpminer.com/api)配置 URL、爬虫设置、大语言模型以及可选的 JSON 模板。
  2. 调用已保存的 API —— 使用外部端点并附带 API 密钥,获取结构化 JSON 数据。

调用已保存的 API

静态 API(固定 URL)

curl -X GET "https://api.pulpminer.com/external/<apiId>" \
  -H "apikey: <PULPMINER_API_KEY>"

返回配置网页中提取的 JSON 数据。

动态 API(含变量的 URL)

对于保存时使用模板 URL(如 https://example.com/search?q={{query}}&page={{page}})的 API:

curl -X POST "https://api.pulpminer.com/external/<apiId>" \
  -H "apikey: <PULPMINER_API_KEY>" \
  -H "Content-Type: application/json" \
  -d '{"query": "javascript frameworks", "page": "1"}'

保存的 URL 中的 {{variable}} 占位符将被您提供的值替换。

响应格式

成功响应返回:

{
  "data": { ... },
  "errors": null
}

错误响应返回:

{
  "data": null,
  "errors": "描述错误原因的提示信息"
}

缓存机制

  • 默认情况下,API 响应缓存时间为 24 小时
  • 若缓存超过 15 分钟,PulpMiner 会先返回缓存结果,同时在后台异步刷新
  • 可在控制台设置中按 API 关闭缓存

配置选项(在控制台中设置)

在 https://pulpminer.com/api 创建已保存的 API 时,可配置以下选项:

选项说明
URL要抓取的网页地址
JSON 模板可选的 JSON 结构,供 LLM 参照(例如:{"name": "", "price": ""}
渲染 JavaScript启用以支持单页应用(SPA)和 JS 重度加载的页面(使用无头浏览器)
CSS 选择器仅提取页面特定部分(例如:.product-list#main-content
额外指令提供给 AI 的补充说明(例如:“仅提取价格高于 $50 的项目”)
动态 URL启用 URL 中使用 {{variable}} 语法的模板变量
缓存开启或关闭响应缓存

与 Zapier 集成

用于在 Zapier 工作流中进行异步抓取:

# 静态 API
curl -X POST "https://api.pulpminer.com/external/zapier/get/<apiId>" \
  -H "apikey: <PULPMINER_API_KEY>" \
  -d '{"callbackURL": "https://hooks.zapier.com/..."}'

# 动态 API
curl -X POST "https://api.pulpminer.com/external/zapier/post/<apiId>" \
  -H "apikey: <PULPMINER_API_KEY>" \
  -d '{"callbackURL": "https://hooks.zapier.com/...", "query": "value"}'

立即返回 201 状态码。当抓取完成后,将数据发送至回调地址。

与 n8n 集成

验证认证:

curl -X GET "https://api.pulpminer.com/external/n8n/auth" \
  -H "apikey: <PULPMINER_API_KEY>"

随后可使用标准的 /external/<apiId> 端点获取数据。

积分说明

  • 每次 API 调用消耗 0.25–0.4 积分,具体取决于接口类型
  • 启用 JavaScript 渲染额外增加 0.1 积分
  • 新用户赠送 5 个免费积分
  • 更多积分请访问 https://pulpminer.com/credits 购买

使用建议

  • 使用 CSS 选择器 缩小抓取范围,提升准确率
  • 提供 JSON 模板 以确保输出结构一致且可预测
  • 仅在必要时启用 JavaScript 渲染 —— 静态页面抓取更快,消耗更少积分
  • 使用 额外指令 引导 AI 行为(例如:“返回 ISO 8601 格式的日期”)
  • 适用于监控场景时,保持 缓存开启 以减少积分消耗
  • 先使用 沙盒测试工具 验证 URL 是否可抓取,再保存 API 配置
  • 动态 API 适合搜索页、分页内容及参数化 URL 场景

相关链接

  • 官方网站:https://pulpminer.com
  • API 控制台:https://pulpminer.com/api
M
@melvin2016

已收录 1 个 Skill

相关推荐