Data Analysis

支持 CSV/Excel 文件分析,生成统计、图表与洞察摘要。

已扫描
适合谁
需要快速分析业务数据的运营人员、需处理报表和数据报告的职场办公者
不适合谁
无数据文件输入需求的用户、希望进行复杂建模或机器学习的高级数据科学家
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @di5cip1e/director-data-analysis

Skill 说明

命令、参数、文件名以原文为准

数据分析技能

分析数据文件(CSV、Excel)并生成可操作的洞察。

快速开始

  1. 读取文件 - 使用合适的库:

- CSV:csv 模块或 pandas.read_csv()

- Excel:pandas.read_excel() 并使用 openpyxl 引擎

  1. 探索数据 - 获取数据形状、列名、数据类型、缺失值情况
  1. 生成洞察 - 计算:

- 描述性统计(均值、中位数、众数、标准差、最小值、最大值)

- 数值列之间的相关性

- 分类列的值频次

- 若存在日期列,分析时间趋势

  1. 创建可视化 - 使用 matplotlib:

- 条形图:用于分类数据

- 折线图:用于时间序列

- 直方图:用于分布展示

- 散点图:用于相关性分析

  1. 总结 - 用通俗易懂的中文写出发现结论

常见模式

销售数据

import pandas as pd

df = pd.read_csv('sales.csv')
summary = {
    'total_revenue': df['amount'].sum(),
    'avg_order': df['amount'].mean(),
    'top_products': df['product'].value_counts().head(5),
    'monthly_trend': df.groupby(pd.to_datetime(df['date']).dt.month)['amount'].sum()
}

客户数据

demographics = df.groupby('segment').agg({
    'age': ['mean', 'median'],
    'income': ['mean', 'std'],
    'id': 'count'
})

时间序列

df['date'] = pd.to_datetime(df['date'])
monthly = df.resample('M', on='date')['value'].sum()

输出格式

始终包含:

  1. 概览 - 数据内容说明(行数、列数、时间范围)
  2. 关键指标 - 5-10个可操作的核心数值
  3. 洞察 - 3-5条数据揭示的关键发现
  4. 可视化 - 对于超过100行的数据集,至少提供2张图表
  5. 建议 - 基于分析结果提出的下一步行动建议

错误处理

  • 处理缺失值:使用 df.fillna(0)df.dropna()
  • 处理日期解析:使用 pd.to_datetime(..., errors='coerce')
  • 处理大文件:对于大于100MB的文件,采用分块方式读取
D
@di5cip1e

已收录 2 个 Skill

相关推荐