Finance Data Analysis
AI驱动的财务分析与可视化工具,支持KPI追踪与自动化报告生成。
从Kaggle下载时间序列数据,清洗后上传至标注平台完成配置与分组。
openclaw skills install @deyashmukh/data-cleaning-annotation-workflow命令、参数、文件名以原文为准
完整端到端的时间序列数据集准备与标注流程,适用于数据标注平台(data.smlcrm.com)。
该技能记录了从发现到“已清理”状态的完整时间序列数据集处理流程(能源、制造、气候领域):
从 Kaggle 到标注数据集的完整流程:
1. 在 Kaggle 上查找数据集
2. 下载数据(浏览器或 kaggle CLI)
3. 使用 scripts/clean_dataset.py 清洗数据
4. 将原始数据上传至 data.smlcrm.com(附带元数据)
5. 点击“清洗”并上传清洗后的文件
6. 配置列元数据(类型、单位)
7. 为变量分配分组
8. 上传清洗后数据 → 状态变为 CLEAN通过 Kaggle(浏览器方式):
替代方案:Kaggle CLI
# 如需安装:pip install kaggle
# 配置:kaggle competitions list
scripts/download_kaggle.sh <dataset-name> [output-dir]
# 示例:scripts/download_kaggle.sh csafrit2/steel-industry-energy-consumption上传前必须运行清洗脚本:
python3 scripts/clean_dataset.py <input.csv> [-o <output.csv>]脚本执行内容:
输出结果:
- 名称:描述性数据集名称
- 领域:所属类别(能源、制造、气候等)
- 来源链接:Kaggle 或原始数据源地址
- 描述:对数据集的简要说明
结果: 数据集出现在列表中,状态为 RAW
| 设置 | 说明 |
|---|---|
| 名称 | 列名(可编辑) |
| 单位 | 测量单位(kWh、°C、%、比例、tCO2 等) |
| 类型 | 时间 / 目标 / 协变量 / 分组 |
列类型说明:
批量配置:
常见单位模式:
目的: 分组变量定义数据在分析中的划分方式。
操作流程:
- 目标变量
- 所有协变量
- 点击第一个分组标签(如 WeekStatus)→ 所有选中变量均添加此分组
- 点击第二个分组标签(如 Day_of_week)→ 所有选中变量均添加此分组
- 点击第三个分组标签(如 Load_Type)→ 所有选中变量均添加此分组
- 依此类推,完成所有可用分组标签的添加
重要提示: 必须同时为 目标变量 和 所有协变量 分配分组。
来源: https://www.kaggle.com/datasets/csafrit2/steel-industry-energy-consumption
元数据:
列配置:
| 列名 | 类型 | 单位 |
|---|---|---|
| Timestamps | 时间 | - |
| Usage_kWh | 目标 | kWh |
| Lagging_Current_Reactive.Power_kVarh | 协变量 | kVarh |
| Leading_Current_Reactive_Power_kVarh | 协变量 | kVarh |
| CO2(tCO2) | 协变量 | tCO2 |
| Lagging_Current_Power_Factor | 协变量 | 比例 |
| Leading_Current_Power_Factor | 协变量 | 比例 |
| NSM | 协变量 | 秒 |
| WeekStatus | 分组 | - |
| Day_of_week | 分组 | - |
| Load_Type | 分组 | - |
分组分配:
有关平台配置的详细指导,请参阅 [references/platform_guide.md](references/platform_guide.md)。
“下一步”按钮不可用:
分组未显示:
上传失败:
| 脚本 | 用途 |
|---|---|
scripts/clean_dataset.py | 清洗并准备 CSV 文件以供上传 |
scripts/download_kaggle.sh | 通过 Kaggle CLI 下载数据集 |
数据标注平台:https://data.smlcrm.com
已收录 1 个 Skill