Spreadsheet & Data Wrangling Master
提供完整的数据处理流程,涵盖清洗、转换、分析与自动化报告生成。
下载 27
自动处理脏数据、去重、格式标准化,输出干净数据与清洗报告。
openclaw skills install @tujinsama/data-cleaning-claw命令、参数、文件名以原文为准
处理脏数据的专用 skill。核心脚本:scripts/data_clean.py。
用户可通过以下方式提供数据:
如果用户没有明确说明,询问以下信息(可一次性问完):
如果用户说"全部清洗"或"帮我清洗一下",默认执行所有规则:strip-html,deduplicate,fill-missing,standardize,validate。
使用 exec 运行脚本:
python3 ~/.openclaw/skills/data-cleaning-claw/scripts/data_clean.py \
--input "<输入文件路径>" \
--output "<输出文件路径>" \
--rules "strip-html,deduplicate,fill-missing,standardize,validate" \
--key-fields "<可选:去重关键字段,逗号分隔>"可用规则(--rules 参数,逗号分隔):
strip-html — 去除 HTML 标签和广告噪音deduplicate — 去重(默认全字段;--key-fields 指定关键字段)fill-missing — 缺失值填充(数值→中位数,文本→"未知")standardize — 格式标准化(自动识别日期/金额/电话列)validate — 数据验证,异常行添加 _数据质量标记 列可选字段强制指定参数:
--date-fields — 强制指定日期列(逗号分隔列名)--amount-fields — 强制指定金额列--phone-fields — 强制指定电话列脚本自动生成两个文件:
<output> — 清洗后的数据文件<output>.report.json — 清洗报告(删除行数、各列处理情况)向用户展示清洗报告摘要,并发送清洗后的文件。
需要了解具体规则时读取:
references/cleaning-rules.md — 去重、缺失值、格式标准化的详细规则references/noise-patterns.md — HTML噪音、广告文案、无效字符的识别模板references/data-types.md — 日期、金额、电话、邮箱的识别正则_数据质量标记 列),不直接删除,保留人工复核pandas numpy openpyxl beautifulsoup4,如缺少依赖先运行 pip install pandas numpy openpyxl beautifulsoup4已收录 3 个 Skill