Crawler

提供网页爬取与数据抓取的完整技术参考，涵盖协议、框架与合规建议。

已扫描

项目

内容

适合谁

Web开发人员、数据采集初学者

不适合谁

需要直接抓取数据的用户、希望自动化执行抓取任务的用户

国内可用性

需网络配置。可能需要网络配置或第三方服务可访问。

安装难度

新手友好（★☆☆）。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

复制命令安装

openclaw skills install @bytesagain3/crawler

命令、参数、文件名以原文为准

网页爬取与数据抓取参考 —— 包括 robots.txt 协议、Scrapy 框架、反爬虫检测、无头浏览器以及法律注意事项。无需 API 密钥或凭证 —— 仅输出参考文档。

命令	描述
`intro`	爬取与抓取的区别，robots.txt 协议，网站地图
`standards`	HTTP 缓存机制，结构化数据，元标签
`troubleshooting`	反爬虫检测，JavaScript 渲染，编码问题
`performance`	并发控制，去重处理，增量爬取，分布式爬取
`security`	法律环境，伦理准则，代理使用
`migration`	BeautifulSoup 迁移到 Scrapy，requests 迁移到 Playwright
`cheatsheet`	Scrapy 命令，CSS/XPath 选择器，curl 命令，User-Agent 设置
`faq`	合法性问题，JavaScript 页面处理，请求被屏蔽，数据存储

所有命令均通过 heredoc 输出纯文本参考文档。不调用外部 API，无需凭证，不进行网络访问。

已收录 8 个 Skill