数据治理新解法:AI驱动的企业数据平权与洞察
创始人
2025-09-30 10:15:41
0

本文根据老师在〖dbaplus直播:AI驱动的企业数据平权与洞察〗线上分享演讲内容整理而成。(文末有回放的方式,不要错过)

目录

一、企业数据治理和使用的痛点

二、AI带来的企业数据治理和掘金新机会

三、落地和展望

一、企业数据治理和使用的痛点

当前,国内互联网已步入“业务3.0”阶段——由增量蓝海转为存量红海,增长逻辑从高速扩张转向精耕细作。企业唯有依赖既有数据资产,挖掘潜在机会,方能在存量竞争中保持优势。然而,数据价值释放面临两大掣肘:

  • 历史包袱沉重

业务1.0、2.0阶段侧重快速迭代,数据沉淀缺乏统一规划,字段口径频繁变更,脏数据、冗余数据比例高,直接拉低挖掘效果。

  • 治理成本高昂

传统数据治理需投入大量人力与时间,周期长、见效慢,与业务“短平快”诉求矛盾,导致“想挖掘先治理”难以落地。

AI技术的成熟为上述困境提供新解:通过智能化手段低成本完成数据清洗、口径对齐与质量评估,缩短治理链路,使企业以最小代价获得可信赖的数据底座,从而真正迈入“数据驱动增长”的3.0时代。

聚焦当前数据痛点,剖析其阻碍“数据驱动增长”之机理,核心矛盾体现在两大维度:

  • 横向不一致

酒店、机票等垂直业务线各自沉淀指标,字段口径、命名规范及更新频度差异显著,导致跨域数据难以对齐。据此设定增长目标或评估潜在空间时,结果常被系统性偏差干扰,出现“目标失真、举措错位”现象。

  • 纵向不一致

同一业务在不同发展阶段关注焦点不同:早期以获客为核心,模型围绕 PV、UV 构建;中后期转向收益,模型又基于 GMV、利润率重塑。前后指标定义、粒度与衍生逻辑互不兼容,致使历史数据无法连贯追溯,难以通过“子指标改善→整体指标提升”的拆解路径释放增量价值。

综上,数据口径失序直接削弱目标设定的科学性与策略落地的可达性,成为业务增长必须首先破除的壁垒。

企业内部“取数”可归纳为三大环节、十项痛点,各环节层层叠加,终致数据使用成本居高不下。

  • 找数难

底表规模庞大且人员流动频繁,交接过程常使高频查询口径遗失。

交叉业务需跨团队沟通,组织壁垒抬高获取门槛。

业务方向调整迅速,原有积累失效,团队需重复从零梳理。

  • 取数难

同一指标存在多种底表与口径,元信息晦涩,产运人员难以快速定位所需字段。

复杂 SQL 编写与校验耗时,即便技术岗亦需投入大量精力,产运侧更无力承担。

复用历史脚本时,复制粘贴易引致标点、字段等低级错误。

产品在既有 SQL 上凭直觉修改,缺乏语法校验,出错概率高。

  • 使用难

汇报场景要求口径严格一致,但同名指标在不同语境下定义常异,导致数据与管理层预期错位。

业务术语与经营指标需人工映射翻译,增加额外理解与转换成本,拉高整体使用门槛。

挖掘数据价值的常见问题:

  • 效率低下

日常、重复及长尾分析占据大量时间,产运人员反复执行相似脚本,价值密度低。

  • 周期冗长

复杂分析需多层拆解,逢汇报节点更集中爆发;跨团队场景需汇聚多业务域数据,协调与清洗过程进一步拉长周期。

  • 难度陡增

精细化运营驱动下,指标维度常超 10 个,人工已无法有效遍历组合,仅能凭经验筛选少数维度,易遗漏关键洞察。

若依赖专业数据分析师,则受限于稀缺编制,仅能覆盖战略级课题,产运侧需求普遍处于排队状态。

传统解法无外乎“加人”或“提能”,均面临成本与规模瓶颈,难以普及。

在数据价值链中,三类核心角色本应各司其职:

  • 产品:提出需求并使用数据,驱动业务决策;
  • 数仓:治理数据,保障资产质量与架构稳定;
  • 商分:深度分析,输出洞察与策略。

由于前述痛点,现实出现明显错位:产品忙于口径对齐与寻数,数仓疲于应付临时 SQL,商分被迫自建中间表。三方相互补位、协同低效,难以形成“数据驱动业务”的闭环。为破解此困局,团队启动 AI 方案,以技术手段替代人工补位,促使各角色回归高价值工作。

二、AI带来的企业数据治理和掘金新机会

对大语言模型在数据领域的应用潜力,我们归纳于四个层面:

1、知识库与数据治理

模型可自动规范化元数据,并嵌入 AI 工作流或智能体,实现治理标准化;历史经验沉淀后供“永不离职”的模型持续复用,形成可传承、可扩展的资产。

2、Chatbot 问答

以自然语言交互替代人工咨询,支持底表、字段、需求及 SQL 的即时问答,降低沟通成本。

3、智能体(Agent)

依托工具调用与代码执行能力,完成端到端任务交付,对长尾、低 ROI 需求提供低成本解决方案,释放被压抑的产运需求。

4、模型原生能力

大语言模型具备专业数据知识与编码能力,可生成高质量 SQL 及复杂分析代码,直接媲美中级数据分析师,为深度洞察提供技术底座。

AI 对数据价值链各核心角色的赋能路径如下:

1、业务产品

  • 自然语言即取数:以口语化提问自动获得对应 SQL 与结果,无需技术背景
  • 口径问答:实时核查指标定义,确保与全局口径一致,消除“同名不同义”风险

2、数仓治理

  • 自动打标:基于模型识别字段业务含义,生成标准化标签
  • 实体与关系识别:自动发现表间关联、主外键及冗余字段,辅助构建一致性数据资产

(示例见后页)

3、商业分析

  • 行业洞察:利用模型内置商业知识,快速生成市场趋势、竞品对标结论
  • 复杂分析:面向预测、用户行为路径等场景,自动生成分析代码与可视化报告,显著缩短深度研究周期

AI 构建业务知识库的实践路径可归纳为五个层面:

1、模型实体识别

面对海量异构及非结构化日志,模型可自动抽取出订单、资金、产品、用户等核心实体,实现 schema-free 资产的快速结构化。

2、血缘关系识别

通过解析监控与链路日志,建立指标级血缘:

当总量指标异常时,一键定位上游波动源;

识别同链路指标的同涨同跌规律,辅助归因;

支撑搜索请求量暴涨等场景的下钻分析,自动拆解至用户类型、产品维度等细分因子。

3、业务标签打标

对航班、行程、产品等静态数据赋予场景化标签(如“红眼航班”“周末亲子游”),使搜索结果与用户需求精准匹配,显著提升转化率。

4、情感与正负向分析

  • 失败厌恶识别:连续搜索无结果即触发券激励策略;
  • 操作日志情感打分:区分成功、失败与未达预期事件,为系统优化提供实时信号。

5、流程自动提取

针对 1.0–3.0 阶段累积的老系统,利用模型从现有日志中反向解析完整业务流程,生成可定期更新的“活”流程图,解决“人口述不全”的痛点,实现知识库的持续自我进化。

实体识别流程如图:输入数据经模型解析后完成关系抽取,输出结构化实体。

以下为用户会话实体示例。该实体系新增定义,此前并未建模,现借助大模型直接从主流程日志提取,可一次性还原用户连续动作(列表浏览、往返筛选、详情查看、出发到达及日期选择等)。无需额外建设模型与管理平台,即可沉淀高价值属性,反哺主流程体验优化与潜在问题定位。

流程提取案例如下:依托埋点日志与既有链路串联能力,对复杂订单业务进行实体识别,锁定订单相关事件后生成流程图。为确保跨平台一致性,采用 Mermaid DSL 描述并可视化输出。

业务流程提取实现流程可划分为三阶段:

1、原始数据获取

采集最细粒度日志,结合工具与 AI 完成初步结构化;对无法直接结构化的字段,由模型按业务语义对齐并补全。

2、DSL 生成

将结构化结果转换为 Mermaid DSL,自动输出标准化流程图,确保跨平台呈现一致。

3、交互式追问

依托真实日志与 DSL,支持“为何订单进入某节点”等回溯问询,模型即时给出基于规则与数据的解释。

该方案已解决多条历史遗留、人工难以梳理的复杂业务流程,显著降低梳理成本并提升可维护性。

历史数据沉淀曾因“用途不明”而被忽视。AI 大模型出现后,其 ROI 立即显性化,价值释放体现在三点:

1、稳定价值流

模型可支撑“治理→使用”全链路闭环,数据挖掘与训练频率由“周”缩短至“小时”,后续案例将给出量化对比。

2、稳定角色

模型“永不离职”,治理思路、规则与中间产物可长期保鲜,避免人员流失导致知识断层。

3、成本递减

AI 嵌入现有流程或重构新流程均可行,治理边际成本显著下降;同时覆盖率提升,核心业务表与长尾交叉指标可一并纳入治理范围,实现低成本、全量级数据资产管理。

此图展示 SQL Agent 知识库的迭代流程,意在说明:把 AI 嵌入数据治理可显著提升效率。评测 Agent 与 SQL 生成 Agent 可自动发现知识缺口并触发补充,形成闭环,持续加速知识库演进。

以下通过“工单降门槛”案例,展示 AI 在数据使用环节的价值。

1、原有流程

线上缺陷触发工单 → 值班开发人工检索日志、代码、Wiki → 定位问题耗时高,且每周轮值带来显著心智负担。

2、AI 改造

将系统日志、PRD、代码与 Wiki 统一接入知识库,构建问答式接口。业务方以自然语言描述现象,模型即时返回关联日志片段、异常根因及修复建议,无需再经开发侧排查。该方案显著释放开发人力,同时缩短业务方获取数据与答案的路径。

成效以“航变验证”场景为例:

过去,订单是否真实发生航变,需由产运提交工单,等待开发或数仓人工核查日志、比对代码逻辑,耗时数小时至数天。

接入 AI 问答后,产运直接输入订单号与自然语言提问,模型即时聚合系统日志、解析代码分支,秒级返回结论。该流程已完全无需开发介入,实现业务问题自助式闭环。

常规底表与数仓查询亦可通过自然语言直接提问,模型即时返回结果。

AI 对数据使用场景的扩展可从“数据域”与“使用域”双维度展开:

1、数据域

类型延伸:由结构化数据(SQL、ES)拓展至日志、文本、图像等非结构化数据,无需前置治理即可直接解析。

输入扩展:用户行为日志、系统运行日志等原始痕迹成为可即时查询的数据源,省去传统提取与加工环节。

交叉融合:跨领域数据仅需一次性合并提问,模型自动完成关联分析,显著降低治理与协同成本。

2、使用域

依托上述数据,可实时完成情感识别、意图识别及场景化推荐,实现从“取数”到“用数”的闭环升级。

以下场景侧重非结构化日志的实时应用:

1、数据源

主流程日志呈典型非结构化特征,涵盖多业务线埋点事件。

2、实时分析

借助大模型对滑动时间窗口内的用户行为流进行情感与意图挖掘,即时判断操作异常或需求倾向。

3、会话建模

结合实体识别能力,将离散事件聚合为“用户会话”实体,实现行为序列的结构化表达。

4、标签与营销

会话模型与组织层标签体系打通,可实时输出高意向标签。例如,持续查询一年后航班的用户被标记为“远期行程不确定”,系统即刻触发价格稳定性提示或优惠券投放。

该链路在 AI 介入前需搭建重资产实时计算平台,现依托模型即可低成本完成“日志→洞察→动作”的秒级闭环。

下图展示数据分析智能体的端到端线性回归案例。

  • 左侧:模型自动规划完整分析链路——数据探索、特征选择、建模、预测、评估五步闭环。
  • 右侧:按规划逐行执行并输出可解释结果,生成可直接部署的模型文件。

该能力将预测建模门槛降至“零算法基础”,一线产运即可自助完成训练与上线,确保业务逻辑与模型假设高度契合。

依托 AI 自动建模,某业务场景效率指标大幅跃升:数据闭环由 T+1 缩短至小时级,可即时评估前一小时的经营表现;模型训练频次从人工 7 天一次提升至每日一次,并支持多模型并行训练,整体效率呈数量级提升。

如图所示,每日 06:00 系统自动触发多模型并行训练——该时段人工无法值守,AI 依既定策略完成全流程并产出模型。关键信息已脱敏,仅展示运行概况。

三、落地与展望

  • 已完成

上半年聚焦产运日常分析及重点项目深度应用,实现取数、归因、报表全流程 AI 化。

  • 进行中

下半年扩展至专业商分场景,涵盖预测、洞察等复杂分析,目前正与业务方共建验证。

  • 关键认知

技术加 AI 不足以保证成功,必须依赖需求方制定成功标准并持续共创;闭门造车无法产生实际业务价值。合作的,不是我们开发自己在那闭门造车这个造出来了,因为我们自己闭门造车的东西,大多数情况之下可能都是没有什么实际价值的。

主流程数据应用已落地三类场景:

  • 航班推荐

针对国际长航线,综合多重因素实时生成个性化航班方案,降低用户决策难度与出行风险。

  • 低价实时营销

基于主流程行为信号,模型即时判断价格敏感人群并触发精准优惠,具体策略略。

  • 用户挽留

实时预测离网意图,立即推送干预权益。相较传统模型,AI 方案链路更短、成本更低。

下一阶段目标紧扣“业务 3.0”数据驱动诉求,以 AI 为牵引,分层推进四项建设:

  • 数据治理

持续优化治理效率,并将治理流程本身数字化,确保全链路高效、可追溯。

  • 业务数字化

同步完成各业务域的线上化、指标化改造,夯实数据底座。

  • 深度分析

与商分团队共建,依托 AI 拓展预测、归因、优化等高级分析场景,突破 Excel 级统计局限,输出可落地的策略建议。

  • 体验简化

迭代“九章 AI”交互,使取数、用数、分析全程口语化即可完成,最终实现“会说话即可享有专属数仓/数分”的数据平权愿景;在长尾需求普遍满足的同时,把高价值场景推向更专业的洞察深度。

Q&A

Q1:老师你们的AI的自然语言处理与结构化查询是怎样融合的?

A1:通过和业务数仓配合,提升数据质量质量,基于确认后的业务和数据整体知识库,包含业务术语、业务指标、schema说明等核心内容,通过问题澄清、歧义消除agent和sql生成和检查agent来完成自然语言到结构化查询的转化。

Q2:老师,你们引入agent后遇到的最难解决的问题是啥?

A2:最难的是测试案例集合覆盖不到生产的全部案例,部分生产的案例解决起来费力度很高,需要从底层大模型选型、知识补充和工程优化如agent执行流程设计优化等多个手段一起来解决问题。

Q3:知识库平台是每个领域搭建一个吗?数据领域的知识库是不是单独搭建的?

A3:每个业务子领域都搭建了一个知识库,这样既能避免业务子领域之间出现交叉歧义,又能很好提升数据召回并控制上下文大小

Q4:AI在数据分析中是怎样降低多维度指标分析和预测任务的难度?

A4:多维度指标分析场景下,用AI可以采用暴力分析的方法,将多个维度进行排列组合,哪个组合结果分析结果有价值就用哪个。

获取本期PPT,请添加群秘微信号:dbachen

↓复制链接可回看本期直播

https://weixin.qq.com/sph/Af3S9HMPY

相关内容

Snowflake携手An...
Anthropic与Snowflake宣布达成合作协议,该协议将允...
2025-12-05 23:16:17
立中集团:公司产品暂不涉及...
证券之星消息,立中集团(300428)12月05日在投资者关系平台...
2025-12-05 22:17:21
全球百万亿Token交互背...
基于OpenRouter平台超100万亿Token的实证研究显示,...
2025-12-05 22:16:01
AI浪潮中,联想凌拓如何成...
在当今数字化浪潮中,人工智能(AI)与大数据已成为推动全球产业变革...
2025-12-05 20:15:30
AI入局,在re:Inve...
NBA官宣了一笔“签约”,但这个“球员”没有身高体重数据。 202...
2025-12-05 19:45:36

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...