Data Cleaning and Statistical Analysis Skill

支持定量数据清洗、质量检查及学术化统计分析,适用于心理学与教育研究。

已扫描
适合谁
心理学/教育学研究者、论文撰写或课题组成员
不适合谁
无数据分析基础的初学者、需要直接生成可运行代码的开发者
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @scc-nyy/data-cleaning-and-statistical-analysis-skill

Skill 说明

命令、参数、文件名以原文为准

数据清洗与统计分析技能

目的

本技能支持定量数据集的数据清洗、质量检查、统计分析及学术解读,特别适用于实验心理学、临床研究、行为科学、教育研究、问卷调查以及项目制数据分析。

使用场景

当用户需要以下帮助时,请使用此技能:

  • 清洗原始的 CSV、Excel、SPSS 导出、PsychoPy、PsychoJS 或在线实验数据。
  • 判断行为数据是否有效或可用。
  • 识别缺失值、重复行、异常反应时间、不可能的响应或编码错误。
  • 拆分或合并数据集。
  • 创建衍生变量,如正确率、平均反应时、遗漏错误、错误反应、学习得分、区块级别表现或变化分数。
  • 根据研究设计选择合适的统计检验。
  • 执行描述性统计、t 检验、ANOVA、重复测量 ANOVA、混合 ANOVA、相关分析、回归分析、卡方检验或非参数检验。
  • 用学术语言解释统计结果。

输入要求

用户可提供:

  • 数据文件,如 .csv.xlsx.sav.tsv
  • 研究设计说明。
  • 变量名称与编码规则。
  • 分组信息,例如患者组 vs 健康对照组。
  • 实验条件标签,如区块、试次类型、一致/不一致、目标/非目标,或前后测。
  • 输出格式要求,如 APA 格式、论文写作、表格、图表或通俗易懂的解释。

核心工作流程

1. 理解研究设计

在分析前需明确:

  • 设计类型:组间、组内、混合、横断面、纵向或前后测。
  • 自变量是什么。
  • 因变量是什么。
  • 主要研究问题是组间差异、条件差异、关联性、预测关系还是随时间的变化。
  • 数据来源:行为任务、问卷、临床量表或生理测量。

2. 检查数据集

检查内容包括:

  • 行数与列数。
  • 变量名称。
  • 数据类型。
  • 缺失值情况。
  • 重复的参与者 ID。
  • 非预期的类别标签。
  • 关键变量的取值范围与分布。
  • 试次编号与区块编号是否符合预期实验设计。

3. 数据清洗

常见清洗步骤包括:

  • 在正式分析中剔除练习试次,仅保留实验试次。
  • 排除无效试次,如无反应、超时或错误反应(若仅分析正确试次的反应时间)。
  • 根据任务特性规则过滤不合理反应时间。
  • 重编码分类变量。
  • 构建参与者级别的汇总得分。
  • 计算条件级别的均值与正确率。
  • 检查每位参与者是否有足够的有效试次。

4. 选择统计检验

根据研究设计选择合适方法:

  • 两组独立样本:独立样本 t 检验 或 Mann-Whitney U 检验。
  • 两组配对条件:配对样本 t 检验 或 Wilcoxon 符号秩检验。
  • 三组及以上重复测量条件:重复测量 ANOVA 或 Friedman 检验。
  • 组别 × 条件设计:混合 ANOVA 或线性混合模型。
  • 变量间关联:Pearson 相关 或 Spearman 秩相关。
  • 预测模型:线性回归、逻辑回归 或 混合效应回归。
  • 分类变量比较:卡方检验 或 Fisher 精确检验。

5. 报告结果

报告应包含:

  • 描述性统计。
  • 检验统计量。
  • 适用时的自由度。
  • p 值。
  • 效应量。
  • 适当情况下提供置信区间。
  • 与研究假设相关的解释。

输出要求

助手应提供:

  • 数据质量的清晰总结。
  • 数据清洗决策与排除标准说明。
  • 有参考价值的关键描述性统计表格。
  • 推荐的统计检验及其理由。
  • 可理解的学术语言结果表述。
  • 当数据结构不符合预期设计时发出警告。
  • 若发现问题,提出改进数据收集或编码的建议。

风格指南

  • 对假设保持透明。
  • 不夸大统计显著性。
  • 区分描述性趋势与统计显著发现。
  • 若用户为初学者,用易懂语言解释统计概念。
  • 若用户撰写论文、报告或伦理申请,使用学术化表达。
  • 除非用户明确要求,否则保留原始数据。

示例用户请求

  • “帮我检查这个 CPT 数据是否正确。”
  • “请帮我清洗 PsychoPy 导出的数据,并计算每个 block 的正确率和反应时。”
  • “我的研究是患者组和健康组在四个 block 中的表现差异,应该用什么统计方法?”
  • “帮我把这个数据整理成 SPSS 可以分析的格式。”
  • “根据这个结果帮我写 APA 风格的统计结果。”
SN
@scc-nyy

已收录 1 个 Skill

相关推荐