Clinical Data Cleaner

用于临床试验数据清洗与标准化,符合FDA/EMA监管要求。

已扫描
适合谁
医药研发数据分析师、临床研究项目经理
不适合谁
非医疗领域数据处理人员、无CDISC标准知识的初学者
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @renhaosu2024/clinical-data-cleaner

Skill 说明

命令、参数、文件名以原文为准

临床数据清洗工具

将临床试验数据清洗、验证并标准化,以符合 CDISC SDTM 标准,用于向 FDA 或 EMA 提交监管资料。

快速开始

from scripts.main import ClinicalDataCleaner

# 初始化用于基本人口统计域(DM)
cleaner = ClinicalDataCleaner(domain='DM')

# 使用默认设置清洗数据
cleaned = cleaner.clean(raw_data)

# 保存带审计追踪的报告
cleaner.save_report('output.csv')

核心功能

1. SDTM 域验证

cleaner = ClinicalDataCleaner(domain='DM')  # 或 'LB', 'VS'
is_valid, missing = cleaner.validate_domain(data)

必填字段:

  • DM: STUDYID, USUBJID, SUBJID, RFSTDTC, RFENDTC, SITEID, AGE, SEX, RACE
  • LB: STUDYID, USUBJID, LBTESTCD, LBCAT, LBORRES, LBORRESU, LBSTRESC, LBDTC
  • VS: STUDYID, USUBJID, VSTESTCD, VSORRES, VSORRESU, VSSTRESC, VSDTC

2. 缺失值处理

cleaner = ClinicalDataCleaner(
    domain='DM',
    missing_strategy='median'  # 可选: mean, median, mode, forward, drop
)
cleaned = cleaner.handle_missing_values(data)

3. 异常值检测

cleaner = ClinicalDataCleaner(
    domain='LB',
    outlier_method='domain',  # 可选: iqr, zscore, domain
    outlier_action='flag'     # 可选: flag, remove, cap
)
flagged = cleaner.detect_outliers(data)

临床阈值范围:

参数范围单位
血糖50-500mg/dL
血红蛋白5-20g/dL
收缩压70-220mmHg

4. 日期格式标准化

standardized = cleaner.standardize_dates(data)
# 转换为 ISO 8601 格式:2023-01-15T09:30:00

5. 完整处理流程

cleaner = ClinicalDataCleaner(
    domain='DM',
    missing_strategy='median',
    outlier_method='iqr',
    outlier_action='flag'
)
cleaned_data = cleaner.clean(data)
cleaner.save_report('output.csv')

输出文件:

  • output.csv - 清洗后的 SDTM 数据
  • output.report.json - 用于监管提交的审计追踪记录

命令行使用

# 清洗基本人口统计数据
python scripts/main.py \
  --input dm_raw.csv \
  --domain DM \
  --output dm_clean.csv \
  --missing-strategy median \
  --outlier-method iqr \
  --outlier-action flag

# 使用临床阈值清洗实验室数据
python scripts/main.py \
  --input lb_raw.csv \
  --domain LB \
  --output lb_clean.csv \
  --outlier-method domain

常见使用模式

详见 [references/common-patterns.md](references/common-patterns.md) 获取详细示例:

  • 监管提交准备
  • 中期分析数据准备
  • 数据库迁移清理
  • 外部实验室数据整合

故障排查

详见 [references/troubleshooting.md](references/troubleshooting.md) 获取以下问题的解决方案:

  • 验证失败
  • 日期解析错误
  • 大数据集导致的内存问题
  • 异常值检测异常

质量检查清单

清洗前:

  • [ ] 已获取 IACUC 批准(动物研究)
  • [ ] 样本量具备足够统计效能
  • [ ] 随机化方法已记录

清洗后:

  • [ ] 已根据 CDISC SDTM 指南进行验证
  • [ ] 已审查审计追踪中的所有清洗操作
  • [ ] 已在分析软件中测试导入

参考资料

  • references/sdtm_ig_guide.md - CDISC SDTM 实施指南
  • references/domain_specs.json - 各域特定字段要求
  • references/outlier_thresholds.json - 临床异常值阈值
  • references/common-patterns.md - 详细使用模式说明
  • references/troubleshooting.md - 问题解决指南

技能 ID: 189 | 版本: 2.0 | 许可证: MIT

R
@renhaosu2024

已收录 1 个 Skill

相关推荐