Spreadsheet & Data Wrangling Master
提供完整的数据处理流程,涵盖清洗、转换、分析与自动化报告生成。
用于临床试验数据清洗与SDTM标准标准化,支持FDA/EMA合规提交。
openclaw skills install @aipoch-ai/clinical-data-cleaner-1命令、参数、文件名以原文为准
清洗、验证并标准化临床试验数据,以符合 CDISC SDTM 标准,用于向 FDA 或 EMA 提交监管文件。
scripts/main.py。references/ 目录中。Python: 3.10+。当前打包技能的基准版本。numpy: unspecified。在 requirements.txt 中声明。pandas: unspecified。在 requirements.txt 中声明。scipy: unspecified。在 requirements.txt 中声明。cd "20260318/scientific-skills/Data Analytics/clinical-data-cleaner"
python -m py_compile scripts/main.py
python scripts/main.py --help示例运行计划:
CONFIG 块或文档中说明的参数。python scripts/main.py。详见上方“工作流程”部分。
scripts/main.py。references/ 包含支持性规则、提示或检查清单。在深入执行前,使用以下命令验证打包脚本入口点是否可解析。
python -m py_compile scripts/main.py使用以下具体命令进行验证。这些命令自包含,不使用占位符路径。
python -m py_compile scripts/main.py
python scripts/main.py --help
python scripts/main.py --input "审计验证样本,包含明确症状、病史、评估内容及下一步计划。"from scripts.main import ClinicalDataCleaner
# 初始化用于人口统计学域(Demographics)
cleaner = ClinicalDataCleaner(domain='DM')
# 使用默认设置清洗数据
cleaned = cleaner.clean(raw_data)
# 保存带审计追踪的报告
cleaner.save_report('output.csv')cleaner = ClinicalDataCleaner(domain='DM') # 或 'LB', 'VS'
is_valid, missing = cleaner.validate_domain(data)必填字段:
cleaner = ClinicalDataCleaner(
domain='DM',
missing_strategy='median' # 可选: mean, median, mode, forward, drop
)
cleaned = cleaner.handle_missing_values(data)cleaner = ClinicalDataCleaner(
domain='LB',
outlier_method='domain' # 可选: iqr, zscore, domain
outlier_action='flag' # 可选: flag, remove, cap
)
flagged = cleaner.detect_outliers(data)临床阈值参考:
| 参数 | 范围 | 单位 |
|---|---|---|
| 血糖 | 50–500 | mg/dL |
| 血红蛋白 | 5–20 | g/dL |
| 收缩压 | 70–220 | mmHg |
standardized = cleaner.standardize_dates(data)
# 转换为 ISO 8601 格式:2023-01-15T09:30:00cleaner = ClinicalDataCleaner(
domain='DM',
missing_strategy='median',
outlier_method='iqr',
outlier_action='flag'
)
cleaned_data = cleaner.clean(data)
cleaner.save_report('output.csv')输出文件:
output.csv —— 清洗后的 SDTM 数据output.report.json —— 用于监管提交的审计追踪记录python scripts/main.py \
--input dm_raw.csv \
--domain DM \
--output dm_clean.csv \
--missing-strategy median \
--outlier-method iqr \
--outlier-action flag
python scripts/main.py \
--input lb_raw.csv \
--domain LB \
--output lb_clean.csv \
--outlier-method domain
详见 [references/common-patterns.md](references/common-patterns.md) 中的详细示例:
详见 [references/troubleshooting.md](references/troubleshooting.md) 中的解决方案:
清洗前:
清洗后:
references/sdtm_ig_guide.md - CDISC SDTM 实施指南references/domain_specs.json - 各领域特定字段要求references/outlier_thresholds.json - 临床异常值阈值references/common-patterns.md - 详细使用模式说明references/troubleshooting.md - 问题解决指南技能 ID: 189 | 版本: 2.0 | 许可证: MIT
每次最终响应应明确包含以下内容(如适用):
scripts/main.py 执行失败,应报告失败位置,总结仍可安全完成的部分,并提供手动替代方案。本技能仅接受符合 clinical-data-cleaner 文档目的且具备足够上下文以安全完成工作流的请求。
若请求超出范围、缺少关键输入或需依赖不支持的假设,不应继续执行,而应返回:
clinical-data-cleaner仅处理其文档中定义的工作流。请提供缺失的必要输入,或切换至更合适的技能。
对于非简单请求,请使用以下固定结构:
若请求较为简单,可压缩结构,但必须在影响正确性时明确说明假设和限制。
已收录 4 个 Skill