Crawler

提供网页爬取与数据抓取的完整技术参考,涵盖协议、框架与合规建议。

已扫描
适合谁
Web开发人员、数据采集初学者
不适合谁
需要直接抓取数据的用户、希望自动化执行抓取任务的用户
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @bytesagain3/crawler

Skill 说明

命令、参数、文件名以原文为准

爬虫

网页爬取与数据抓取参考 —— 包括 robots.txt 协议、Scrapy 框架、反爬虫检测、无头浏览器以及法律注意事项。无需 API 密钥或凭证 —— 仅输出参考文档。

命令

命令描述
intro爬取与抓取的区别,robots.txt 协议,网站地图
standardsHTTP 缓存机制,结构化数据,元标签
troubleshooting反爬虫检测,JavaScript 渲染,编码问题
performance并发控制,去重处理,增量爬取,分布式爬取
security法律环境,伦理准则,代理使用
migrationBeautifulSoup 迁移到 Scrapy,requests 迁移到 Playwright
cheatsheetScrapy 命令,CSS/XPath 选择器,curl 命令,User-Agent 设置
faq合法性问题,JavaScript 页面处理,请求被屏蔽,数据存储

输出格式

所有命令均通过 heredoc 输出纯文本参考文档。不调用外部 API,无需凭证,不进行网络访问。

B
@bytesagain3

已收录 8 个 Skill

相关推荐