Data Toolkit

支持多格式数据转换、验证与清洗,适用于数据处理流程。

已扫描
适合谁
数据工程师、自动化脚本开发者
不适合谁
无编程基础的普通用户、仅需简单表格操作的非技术人员
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @atlasnexusops/data-toolkit

Skill 说明

命令、参数、文件名以原文为准

Data Toolkit

OpenClaw 代理的完整数据处理工具集。

功能

转换器

  • JSON ↔ CSV - 支持双向转换,具备模式推断能力
  • JSON ↔ YAML - 格式整洁,保留注释
  • JSON ↔ XML - 可配置根元素和属性
  • CSV ↔ YAML - 直接转换,无需中间步骤
  • 多格式批量转换 - 处理整个目录文件

验证器

  • JSON Schema 验证 - 按 JSON Schema 规范验证数据
  • CSV 结构验证 - 检查表头、列数、数据类型
  • 数据类型推断 - 自动检测并验证数据类型
  • 自定义规则 - 定义业务逻辑验证规则

清洗器

  • 去重 - 智能去重,支持自定义键值
  • 空值/空字段处理 - 移除或替换空值
  • 数据标准化 - 统一格式(日期、数字、字符串)
  • 空白字符清理 - 去除首尾空格,合并多个空格
  • 列操作 - 删除、重命名、重新排序列

获取 Data Toolkit

🛒 Gumroad (€10): https://nexusatlas.gumroad.com/l/bsyacx

📦 ClawHub: https://clawhub.ai/skills/data-toolkit

MIT 许可证 — 兼容 Python 3.8+,无依赖项。

使用方法

转换数据

# JSON 转 CSV
./src/convert.py --input data.json --output data.csv --format csv

# CSV 转 JSON
./src/convert.py --input data.csv --output data.json --format json

# JSON 转 YAML
./src/convert.py --input data.json --output data.yaml --format yaml

# XML 转 JSON
./src/convert.py --input data.xml --output data.json --format json

# 批量转换
./src/convert.py --input-dir ./raw --output-dir ./processed --format json

验证数据

# 按 JSON Schema 验证
./src/validate.py --input data.json --schema schema.json

# 验证 CSV 结构
./src/validate.py --input data.csv --check-headers --check-types

# 自定义验证规则
./src/validate.py --input data.json --rules validation-rules.yaml

清洗数据

# 去除重复项
./src/clean.py --input data.json --dedupe --key id

# 处理空值
./src/clean.py --input data.csv --remove-nulls
./src/clean.py --input data.csv --replace-nulls "N/A"

# 数据标准化
./src/clean.py --input data.json --normalize dates,numbers,strings

# 完整清洗流程
./src/clean.py --input messy.csv --dedupe --remove-nulls --normalize all --output clean.csv

API 使用(Python)

from data_toolkit import convert, validate, clean

# 转换
convert.json_to_csv('input.json', 'output.csv')
convert.csv_to_yaml('input.csv', 'output.yaml')

# 验证
is_valid = validate.json_schema('data.json', 'schema.json')
errors = validate.csv_structure('data.csv')

# 清洗
clean.remove_duplicates('data.json', key='id')
clean.normalize_dates('data.csv', format='ISO8601')

示例

请查看 examples/ 目录中的完整工作流:

  • examples/etl-pipeline.sh - 完整的 ETL 流程
  • examples/api-data-processing.py - API 响应处理
  • examples/batch-conversion.sh - 批量文件转换

安装

依赖项极少且常见:

  • Python 3.8+
  • PyYAML
  • pandas(可选,用于高级 CSV 操作)
pip install pyyaml pandas

系统要求

  • Node.js(用于 JSON/YAML 解析)
  • Python 3.8+
  • 10MB 磁盘空间

许可证

MIT

支持

问题反馈:https://github.com/forge-agent/data-toolkit

文档:请参阅 docs/ 目录

A
@atlasnexusops

已收录 1 个 Skill

相关推荐