妈妈网爬虫

爬取妈妈网育儿文章并保存为Markdown文件,支持分类与关键词搜索。

已扫描
适合谁
育儿内容创作者、母婴领域研究者
不适合谁
无网络访问能力的用户、需要实时更新数据的用户
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @zton100/mama-crawler

Skill 说明

命令、参数、文件名以原文为准

妈妈网育儿知识爬虫(PC端)

命令

python3 scripts/mama_crawler.py --category <分类> --max-pages <页数> --max-articles <数量>

按分类爬取妈妈网文章(PC端)。

分类选项:

  • baby — 亲子
  • yingyang — 营养
  • disease — 疾病
  • lady — 女性
  • yongpin — 用品
  • life — 生活

python3 scripts/mama_crawler.py --search <关键词> --max-articles <数量>

通过PC端搜索爬取相关文章。

python3 scripts/mama_crawler.py --all --max-pages 3 --max-articles 30

爬取所有分类(慎用,会花较长时间)。

输出

文章保存到 ~/.yuzhi/crawls/mama_cn/<分类名>/ 目录下,每个文章一个 .md 文件,包含标题、来源、日期和正文。

反爬机制

  • 每次请求间隔 2-5 秒随机延迟
  • 使用桌面浏览器 User-Agent
  • 不验证 SSL 证书

技术说明

  • 默认 PC 端(www.mama.cn),结构稳定
  • 文章 URL 格式:https://www.mama.cn/z/art/<id>/
  • PC 端分类页面文章较少,建议使用 --search 关键词搜索模式获取更多内容
Z
@zton100

已收录 1 个 Skill

相关推荐