Data Cog

基于CellCog的AI数据清洗、分析与可视化,支持多种格式上传并生成报告。

已扫描
适合谁
需要快速分析数据的业务分析师、缺乏编程基础但需数据洞察的职场人士
不适合谁
无网络环境无法调用API的用户、对数据隐私要求极高的敏感场景使用者
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @nitishgargiitd/data-cog

Skill 说明

命令、参数、文件名以原文为准

Data Cog - 你的数据有答案,CellCog 找到它们

从上传的文件中进行数据分析与可视化。

大多数 AI 工具在你询问数据时返回的是代码。而 CellCog 返回的是实际结果——真正的图表、干净的数据集、统计报告和可视化仪表板。只需上传混乱的 CSV 文件并给出简短提示,CellCog 的编码代理就会探索你的数据,发现其中的模式,并以美观的方式呈现结果。全程支持 Python 能力,涵盖从数据清洗到机器学习模型评估的所有操作。

如何使用

在会话中首次使用 CellCog 任务时,请阅读 cellcog 技能文档以获取完整的 SDK 参考信息——包括文件处理、聊天模式、超时设置等。

OpenClaw(无需等待):

result = client.create_chat(
    prompt="[你的任务提示]",
    notify_session_key="agent:main:main",
    task_label="my-task",
    chat_mode="agent",
)

除 OpenClaw 外的所有代理(阻塞直到完成):

from cellcog import CellCogClient
client = CellCogClient(agent_provider="openclaw|cursor|claude-code|codex|...")
result = client.create_chat(
    prompt="[你的任务提示]",
    task_label="my-task",
    chat_mode="agent",
)
print(result["message"])

Data-Cog 的独特之处

代码是工具,而非输出结果

其他 AI 工具会给你一段 Python 代码并说“运行这个”。而 CellCog 会为你执行代码,直接交付结果:

其他 AI 工具Data-Cog
“这是分析你数据的 pandas 脚本”这里是你的实际洞察与图表
“运行这段 matplotlib 代码查看图表”这就是图表,附带发现的注释
“这个 SQL 查询可以找出异常值”已发现 23 个异常值,这里解释其含义
“你需要 scikit-learn 来完成这个”模型已训练完成,这里展示准确率和特征重要性

你上传数据。你获得答案。代码在后台自动运行。


你可以完成的数据工作

探索性数据分析

快速理解你的数据:

  • 数据集概览:“分析这个 CSV —— 分布、缺失值、异常值、相关性以及数据质量摘要”
  • 模式发现:“这份销售数据中存在哪些模式和趋势?给我惊喜一下。”
  • 异常检测:“在这份服务器日志数据中找出异常模式——什么看起来不正常?”
  • 关系分析:“在该数据集中,哪些因素最强烈地影响客户流失?”

示例提示:

“分析这个数据集:

<SHOW_FILE>/path/to/customer_data.csv</SHOW_FILE>

我对这个数据了解不多。请提供:

  • 总体情况:行数、列数、数据类型、缺失值
  • 关键分布与统计摘要
  • 最有趣的关联关系
  • 异常值或数据质量问题
  • 3–5 个突出的发现

以交互式 HTML 报告形式呈现,包含图表。”

数据清洗与转换

将混乱的数据整理成可用格式:

  • 清理混乱数据:“清理这个 CSV —— 修复不一致的日期格式,处理缺失值,删除重复项,统一列名”
  • 数据转换:“将这些交易数据按产品类别汇总为月度报表”
  • 数据合并:“将这三个 CSV 文件基于 customer_id 合并,生成一个统一数据集”
  • 特征工程:“从这份原始数据中创建有助于预测房价的有用特征”

示例提示:

“清理并转换这个数据集:

<SHOW_FILE>/path/to/messy_data.csv</SHOW_FILE>

我知道的问题包括:

  • 日期格式混用(MM/DD/YYYY 和 YYYY-MM-DD)
  • 'Revenue' 列部分数值带有 $ 符号和逗号
  • 存在重复行
  • 'Region' 列有缺失值

清理后返回一份干净的 CSV,并附上你所做的修改说明。”

统计分析

严谨的分析,基于真实数据:

  • 假设检验:“我们的 A 与 B 变体之间转化率是否存在显著差异?”
  • 回归分析:“在该 HR 数据集中,哪些因素能预测员工薪资?构建回归模型。”
  • 时间序列分析:“分析这份月度收入数据——趋势、季节性,并预测未来 6 个月”
  • 用户分群分析:“按注册月份创建用户留存的分群分析”

示例提示:

“我在结账页面上进行了 A/B 测试:

<SHOW_FILE>/path/to/ab_test_results.csv</SHOW_FILE>

字段:user_id, variant (A 或 B), converted (0/1), revenue, timestamp

请告诉我:

  • B 版本是否具有统计学意义的优势?(p 值、置信区间)
  • 转化率差异
  • 每用户收入差异
  • 样本量是否足够?
  • 我的建议:上线 B 版本还是继续测试?

用清晰的图表和通俗易懂的结论呈现。”

可视化与报告

将数据转化为视觉故事:

  • 图表生成:“根据这份数据创建一组展示季度表现的图表”
  • 仪表板报告:“基于这份销售数据构建一个可交互的仪表板,支持按地区和产品筛选”
  • 演示级图表:“从这份研究数据中创建出版级别的图表”
  • 对比可视化:“可视化我们的指标与行业基准的对比情况”

机器学习

无需繁琐配置即可应用机器学习:

  • 分类任务:“基于这份数据预测客户是否会流失——训练模型并展示特征重要性”
  • 聚类分析:“根据行为将这些客户划分为若干群体——有多少个自然聚类?”
  • 预测建模:“使用历史数据预测下一季度的销售额”
  • 模型评估:“我已训练好模型,这是预测结果。请评估:准确率、精确率、召回率、混淆矩阵、ROC 曲线”

示例提示:

“从这个数据集中预测客户流失:

<SHOW_FILE>/path/to/customer_features.csv</SHOW_FILE>

目标列:'churned'

  • 训练模型,尝试至少两种算法
  • 展示特征重要性——哪些因素导致流失?
  • 混淆矩阵和ROC曲线
  • 用通俗易懂的中文总结:“客户流失的前三个原因是……”
  • 基于发现提出可执行的建议

我需要的是洞察,而不仅仅是指标。”


支持的数据格式

格式发送方式
CSV通过 SHOW_FILE 上传
Excel (XLSX)通过 SHOW_FILE 上传
JSON通过 SHOW_FILE 上传
Parquet通过 SHOW_FILE 上传
SQL 导出文件通过 SHOW_FILE 上传导出的文件
内联数据将小规模数据直接在提示中描述

输出格式

格式适用场景
交互式 HTML 仪表板可探索的图表、筛选功能、下钻分析
PDF 报告可分享的分析报告,包含图表与结论
干净的 CSV/XLSX用于后续流程的清洗或转换后的数据文件
Markdown快速获取洞察,便于集成到文档中

数据分析聊天模式

场景推荐模式
快速数据清洗、简单图表、基础统计分析"agent"
深度分析,多种技术结合,机器学习建模,全面报告"agent team"

**大多数数据任务推荐使用 "agent"。** 数据清洗、探索性分析(EDA)、图表生成和标准统计分析在 agent 模式下表现良好。

**复杂分析项目推荐使用 "agent team"** —— 多方法分析、机器学习模型对比,或需要深入理解数据含义的场景。


示例提示

最简提示,最大洞察:

“分析这个数据:

<SHOW_FILE>/path/to/data.csv</SHOW_FILE>

告诉我所有有趣的内容。”

仅此而已。CellCog 的代码代理将自动完成数据概览、探索性分析、模式识别,并以图表形式呈现发现。你无需知道该问什么——代理会自行判断。

业务分析:

“分析我们的电商数据:

<SHOW_FILE>/path/to/orders.csv</SHOW_FILE>

我需要:

  • 收入趋势(每日、每周、每月)
  • 表现最好和最差的产品
  • 客户购买频率分布
  • 平均订单价值趋势
  • 季节性规律
  • 提升收入的前5条可执行建议

输出为交互式 HTML 仪表板,包含所有图表。”

研究数据分析:

“分析这份来自500名受访者的调查数据:

<SHOW_FILE>/path/to/survey.csv</SHOW_FILE>

研究问题:

  1. 年龄组与产品偏好之间是否存在显著关联?
  2. 不同地区满意度得分是否有差异?(ANOVA)
  3. 哪些因素最能预测推荐意愿?(回归分析)

包含:统计检验、p值、效应量,以及适合发表的图表。

输出为 PDF 报告格式。”


更好数据分析的技巧

  1. 直接上传并提问:无需逐列描述。CellCog 会自动读取数据并识别内容。
  1. 明确你的问题:“什么导致客户流失?”比“分析这个数据”更聚焦。两者都有效,但前者能更快获得结果。
  1. 说明受众:“给我的CEO看”意味着要提供高层摘要;“给数据团队看”则需展示分析方法。
  1. 说明用途:“我要向董事会汇报” vs “我需要干净数据用于机器学习管道”——上下文会影响输出形式。
  1. 不要过度指定方法:让 CellCog 自主选择合适的统计方法。重点是想了解什么,而不是必须用哪个算法。
  1. 迭代推进:上传数据 → 获取初步分析 → 提出后续问题 → 深入挖掘。CellCog 会在多轮对话中保持上下文。

如果未安装 CellCog

运行 /cellcog-setup(或根据工具不同使用 /cellcog:cellcog-setup)进行安装与认证。

OpenClaw 用户:请运行 clawhub install cellcog

手动安装:执行 pip install -U cellcog 并设置 CELLCOG_API_KEY。详见 cellcog 技能的 SDK 文档。

N
@nitishgargiitd

已收录 2 个 Skill

相关推荐