Uplo Data Analytics

AI驱动的数据分析知识管理,支持文档搜索与结构化提取。

已扫描
适合谁
数据工程师、数据分析员
不适合谁
非技术背景的普通用户、无需处理数据文档的业务人员
国内可用性
需网络配置。可能需要网络配置或第三方服务可访问。
安装难度
新手友好(★☆☆)。基于终端操作、依赖、API Key 和本地环境要求的初步判断。

安装与下载

openclaw skills install @roojenkins/uplo-data-analytics

Skill 说明

命令、参数、文件名以原文为准

UPLO Data Analytics — 记忆数据的元数据

数据团队面临一个随时间不断累积的文档问题:数据仓库中有 3,000 张表,但只有 200 张有描述;Looker 中的仪表板由两年前离职的人员创建;数据治理政策虽然存在,但没人能找到实际批准的版本。UPLO Data Analytics 将这些分散的“部落知识”转化为可搜索、结构化的知识库:包含管道文档、模式定义、数据质量规则、仪表板规格和治理政策,全部集中管理。

会话开始

get_identity_context

此命令用于确认你的分析角色(如数据工程师、分析师、治理负责人等),并显示你有权访问的数据域。部分数据集因涉及个人身份信息(PII)或商业敏感性而受到限制。

检查当前指令——数据团队通常有活跃的迁移时间表、弃用通知或数据质量 SLA 目标等要求:

get_directives

使用场景

  • 有利益相关方询问某个特定指标的含义,你需要快速找到其标准定义,包括 SQL 逻辑、源表和业务规则
  • 正在构建新数据管道,想确认仓库中是否已有类似数据,避免重复建设
  • 调查数据质量问题,需要追溯从源系统到转换过程再到受影响仪表板的完整数据血缘
  • 准备数据治理审查,需整理数据分类、保留策略和访问控制的相关文档
  • 新分析师入职,需要了解仓库的命名规范、dbt 项目结构以及如何申请权限
  • 评估一个提议的模式变更是否会破坏下游依赖,通过搜索被影响表的引用情况来判断
  • 寻找列名模糊(如 status_cdtype_flag)的数据字典条目

典型工作流

指标定义争议处理

财务团队与产品团队报告的 DAU(日活跃用户)数值不一致。分析负责人需要定位并协调两种定义。

search_with_context query="daily active users DAU metric definition SQL logic business rules"

查找具体仪表板实现:

search_knowledge query="product analytics dashboard DAU calculation Looker explore"
search_knowledge query="finance reporting DAU user count methodology monthly report"

若发现定义确实存在差异且需协调:

propose_update target_table="entries" target_id="<metric-definition-entry-id>" changes='{"data":{"note":"DAU 定义在产品(事件驱动)与财务(登录驱动)之间存在分歧;需治理评审"}}' rationale="发现产品与财务 DAU 报告存在不一致"

数据血缘调查

仪表板突然出现空值,而上周尚无此问题。数据工程师需追踪问题根源。

search_with_context query="customer_orders table pipeline transformations source systems dependencies"
search_knowledge query="customer_orders ETL job schedule dbt model upstream sources"

检查是否存在已知数据质量问题:

search_knowledge query="data quality incident customer data source system outage recent"
log_conversation summary="已将订单仪表板中的空值问题追溯至上游源系统模式变更;customer_orders dbt 模型需进行迁移" topics='["data-quality","lineage","pipeline-break"]' tools_used='["search_with_context","search_knowledge"]'

数据分析核心工具

search_with_context — 数据问题本质上是关系问题:表连接管道,管道连接源系统,仪表板依赖模型。图遍历能有效追踪这些关联。示例:search_with_context query="revenue_summary table lineage source transformations consumers"

search_knowledge — 针对特定技术资产的直接查询:dbt 模型定义、数据字典条目、治理政策版本等。示例:search_knowledge query="dbt model dim_customers grain deduplication logic"

flag_outdated — 数据文档的过期速度远超其他内容类型。初期建仓时编写的表说明可能仍引用已废弃的源系统;迁移前的模式图可能仍显示不存在的表。应主动标记过时内容。

report_knowledge_gap — 大多数数据仓库中,未记录的表和未定义的指标是常态。当你发现某张表无数据字典条目,或某指标无标准定义时,请报告该知识缺口。治理团队将据此优先安排文档补全工作。

propose_update — 当发现数据字典条目错误(例如某列描述为“客户创建日期”,实际存储的是“首次下单日期”)时,提出修正建议。

使用建议

  • 技术标识符是最有效的搜索关键词。使用精确的表名(如 dim_customers)、列名(如 order_status_cd)、dbt 模型名和 Looker Explore 名称。提取引擎会精准索引这些内容。
  • 调查数据质量问题时,建议先使用 search_with_context 获取血缘图谱,再用 search_knowledge 查找具体转换逻辑。从现象反推源头,比正向搜索更高效。
  • 数据治理政策常存在多个版本(草稿、已批准、已取代)。查询时加入“approved”或“current”等关键词,有助于筛选出权威版本。
  • 最有价值的知识贡献是附带 SQL 的指标定义。当解决指标争议后,记录本次会话并提交更新,将标准 SQL 作为参考,避免下一位使用者重复排查。
R
@roojenkins

已收录 5 个 Skill

相关推荐