Data Analyst

支持Excel/CSV/JSON的数据清洗、分析与可视化,自动生成报告。

已扫描
适合谁
数据分析师、运营人员
不适合谁
无编程基础且无法安装依赖的用户、需要远程云端处理敏感数据的用户
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @wuyandong8/smart-data-insights

Skill 说明

命令、参数、文件名以原文为准

Data Analyst 技能

自动清洗、分析并可视化企业数据。

功能特性

功能描述参考文档
数据清洗去除重复项,处理缺失值,统一格式references/data_cleaning.md
数据分析统计分析、趋势识别、相关性分析references/data_analysis.md
可视化图表、图形、仪表板references/visualization.md
报告生成自动生成洞察与建议references/report_generation.md

快速开始

步骤 1:准备数据

将你的数据文件(Excel/CSV/JSON)放置在已知位置。

步骤 2:分析数据

# 基础分析
{baseDir}/tools/analyze.py data.csv

# 指定选项进行分析
{baseDir}/tools/analyze.py data.xlsx --clean --visualize --report

步骤 3:获取结果

输出包含:

  • 清洗后的数据文件
  • 分析摘要
  • 可视化图表
  • 洞察报告

可用工具

工具功能输入输出
analyze.py主要分析入口数据文件摘要 + 选项
clean.py数据清洗原始数据清洗后数据
visualize.py生成图表数据PNG/PDF 图表
report.py生成报告分析结果Markdown 报告

使用示例

示例 1:快速分析

“帮我分析这个销售数据”

# 将文件命名为 sales_data.csv
{baseDir}/tools/analyze.py sales_data.csv

输出:

✅ 数据已加载:1,234 行,8 列
📊 已生成统计摘要
📈 可视化:sales_trend.png
💡 发现 3 个关键洞察

示例 2:数据清洗 + 分析

“清洗并分析客户数据”

{baseDir}/tools/analyze.py customer_data.xlsx --clean --visualize

示例 3:生成完整报告

“生成完整的数据报告”

{baseDir}/tools/analyze.py data.csv --report --output report.md

支持的格式

格式读取写入说明
CSV通用格式
Excel (.xlsx)需要 openpyxl
JSON结构化数据
TSV制表符分隔

输出文件

文件描述
*_cleaned.csv清洗后的数据
*_summary.txt统计摘要
*_chart_*.png可视化图表
*_report.md完整分析报告

常见应用场景

业务分析

  • 销售趋势分析
  • 客户分群
  • 收入预测
  • 绩效仪表板

数据质量

  • 重复项检测
  • 缺失值处理
  • 格式标准化
  • 异常值检测

报告生成

  • 执行摘要
  • 部门报告
  • 趋势分析
  • KPI 跟踪

高级功能

自定义分析

# 仅指定列
{baseDir}/tools/analyze.py data.csv --columns "sales,date,region"

# 时间序列分析
{baseDir}/tools/analyze.py data.csv --timeseries --date-column "date"

# 按类别分组
{baseDir}/tools/analyze.py data.csv --group-by "region" --aggregate "sum,mean"

可视化选项

# 图表类型
{baseDir}/tools/visualize.py data.csv --type bar
{baseDir}/tools/visualize.py data.csv --type line
{baseDir}/tools/visualize.py data.csv --type scatter
{baseDir}/tools/visualize.py data.csv --type pie

# 样式设置
{baseDir}/tools/visualize.py data.csv --style professional
{baseDir}/tools/visualize.py data.csv --colors "blue,green,red"

安装配置

# 安装依赖
pip3 install pandas openpyxl matplotlib seaborn

# 验证安装
python3 -c "import pandas, matplotlib; print('Dependencies OK')"

注意事项

  • ⚠️ 大文件(>100MB)可能需要较长时间处理
  • ⚠️ Excel 文件需安装 openpyxl
  • ⚠️ 图表默认保存为 PNG 格式
  • ⚠️ 所有处理均在本地完成(数据不会外传)

故障排查

“模块未找到”

pip3 install pandas openpyxl matplotlib

“文件编码错误”

  • 先尝试转换为 UTF-8 编码
  • 或指定编码:--encoding gbk

“大文件内存不足”

  • 分块处理:--chunk-size 10000
  • 或采样处理:--sample 0.1
W
@wuyandong8

已收录 1 个 Skill

相关推荐