数禾科技X瓴羊:数据处理能力提升8倍,数据生产链路0事故

摘要:在与瓴羊建立合作后,数禾科技通过Dataphin在数据架构、数据建模、数据治理等维度,进行了增强管控,同时结合行业最佳实践,沉淀出了一整套独具特色的数据资产建设方法论。在引入了新工具、新范式后,数禾科技的数据处理能力提升了8倍,做到了数据生产链路0事故。

普惠金融服务的落地,离不开数字技术的快速发展。

作为专注于普惠民生的金融科技公司,数禾科技多年来秉承着“让人人享有金融服务最优解”的使命,凭借先进的大数据、人工智能等技术,将金融的普惠价值通过数字科技的力量,落地到更多的场景与客群当中。

以数禾科技旗下的还呗小微贷产品为例,这是一款为资金周转困难的小微企业主提供的专属信贷产品,让小微业主借的省心,借的轻松,借的方便。目前还呗小微贷面向40万小微企业主提供金融服务近140亿元,实现这样一个业务服务规模,背后需要一套完善的智能化金融服务平台来做支撑。

1. 数禾科技主题域模型

1.png

“虽然各家的业务不一样,但需要的数字化能力可以是一样的。”

当被问到作为数禾科技的CDO,如何来规划数禾科技的数字化能力建设方案,王冠军的回应非常简单直接,那就是「向最优秀者看齐」。无论是各行各业的最佳实践,还是在数据处理、分析领域有着抢眼表现的阿里,都是数禾科技对标的对象。

“Dataphin代表了阿里先进的数据生产力,我们怀着开放的心态,把先进的工具引入进来,并践行方法论和最佳实践,数禾要站在巨人的肩膀上,对自身业务场景进行全方位赋能。”

数字化能力建设离不开顶层设计,数禾科技逐渐发展沉淀出了「一环四化」规划蓝图,即业务数据化、数据资产化、资产服务化、服务价值化,以及贯穿事前、事中、事后的数据治理闭环。

2. 数字化顶层规划

image.png

曾经,数禾科技也因缺乏科学的数据体系建设和治理的指导,面临了“数据湖”变成“数据沼泽”的尴尬处境。在与瓴羊建立合作后,数禾科技通过Dataphin在数据架构、数据建模、数据治理等维度,进行了增强管控,内外兼修,积极拥抱阿里生态,迅速拉齐到业内领先水平。

与此同时,基于瓴羊过去在阿里内部实践沉淀下的方法论,数禾科技结合行业最佳实践,根据自身业务场景进行二次创新,沉淀出了一整套独具特色的数据资产建设方法论,下面通过三个实例进行说明。

一、设计DBus机制,让数据有序流转

「数据资产化」是数禾科技四化环节的重中之重,即通过对业务过程进行建模、提炼指标、萃取标签、特征工程等等,进行数据资产的沉淀。

其中,以数据团队为主导构建的相对稳定和通用的数据资产体系,被数禾科技定义为「官方资产」,此类资产可以解决企业60%-70%的共性问题,剩余与业务场景强相关的个性化需求,数据团队会通过Dataphin开放数据能力给到业务团队,如私有化数据集市、沙箱体系等,让业务开放创新地将数据资产用起来。

3. 数据中台项目启动至今使用增长情况

image.png

目前数禾科技全公司有近一半的同事,都在自主使用Dataphin作为数字决策辅助工具。但业务团队所生产的「私有化数据」都需要按照一定的标准规则被强管控起来,不可以无序流转。

因为在「数据资产化」阶段,想要数据资产被最大化地有序利用,需要企业清晰掌握数据使用的链路,找到那批可持续复用的数据资产进行下沉,逐步将数据有序分批地沉淀到「官方资产」,而过于个性化的数据资产,则留在项目空间里由业务方自行处理。

4. DBus机制

image.png

通过Dataphin提供的端到端数据血缘探查和管理能力,数禾科技形成了DBus机制,来负责私有化数据流转的标记、监控和管理,以此保障数据资产化能够高效有序开展。

数禾科技数据团队成员表示,过去,由于数据的生产流转缺少工具进行管理和监控,导致数据的关系网络极其复杂,调用链路被各种上下游牵制,往往是牵一发而动全身,有些节点想做下线处理十分棘手。

在数据资产建设过程中形成的DBus机制,是通过标准和架构设计,让数据的流转能够通过一个数据共享总线来统一管理。比如私有数据集需要符合数据治理的规范和标准,才可以进入到DBus数据总线进行共享流通。数据团队会监控DBus总线上的数据资产,通过Dataphin将这批资产打标,持续跟踪资产流转情况。

如果某批资产被跨团队高频调用,就会由数据团队下沉到公共数据体系,发布到数据目录上,个性化的数据资产就此有了「身份」,并入「官方资产」,以此保障共享型的数据资产能够被充分利用起来。

王冠军表示,“之所以会在数禾内部诞生这类数据流转机制,正是因为企业必然需要在中台的稳定性,和业务的敏捷性之间做出平衡。”Dataphin可以通过项目空间的隔离,让业务侧享受到充分的用数自由,同时让具备高共享价值的私有化数据,及时下沉到「官方资产」,最大化释放数据价值。

二、独创DCube方法论,清晰管理个性化指标

“数据资产在数禾内部是层层流动的,并且这种流动是有序的。通过Dataphin基于OneData方法论设计的标准研发流程,数据从原子指标经组合公式生成派生指标,在这个过程中,我们会发现数禾还有很多特有的指标需求。“

王冠军说话语速偏快,能够根据问题迅速组织出清晰、全面的表达内容,这可能和他长期保持以不同组织视角来思考问题的习惯有关。

“我们数据团队是以客户为中心的,这个客户指代的是数禾内部的业务团队,所以,我们需要通过特定的方法,让他们能够更便利地使用个性化指标,不要重复建设公共指标。”

数禾科技的数据团队借助Dataphin,用可视化拖拉拽方式快速生成一个公共指标层,目的是消除二义性,让指标的生成更加标准和规范,同时增加了一个扩展层,也就是DCube,生成面向业务场景的个性化指标,DCube层更便于业务理解,让他们能快捷地使用起来。

5. “统一指标+”方案基于Dataphin统一指标工具的增强版

image.png

通过DCube层的规范设计,数禾科技的数据团队在数据资产化环节,有效平衡了通用性和灵活性的资产建设需求,并在后续的「资产服务化」环节,通过API接口调用、文件服务、消息队列调用这3种标准服务的方式,使得数据资产可以快速地被对接到BI,以及其他应用系统,进一步将「服务价值化」。

在数据中台上,数据团队逐渐形成了BI分析产品、CDP产品、全视角用户洞察产品等,不仅提升了数据团队的交付效率和质量,也真正帮助业务团队更方便地使用数据,在营销、风控等场景准确识别用户需求,高效开展普惠金融服务。

三、开发治理一体化,让数据治理从Day1做起

提到数据治理工作的启动,数禾科技的数据团队成员是有很多苦水要吐的。

“曾经的数据湖架构,同一个实体和字段有不同版本,数据关系存在大量的冗余和不对称,在迁移任务到Dataphin的过程中,扒逻辑就扒了12层,如果开发Owner离职,这个逻辑真的没有人可以理清楚了。”

6.png

通过Dataphin落实了DBus机制后,逻辑变得扁平化,引用关系简单清晰。我们使用Dataphin构建清晰的总线矩阵,划分并定义数据域、业务过程、维度、原子指标、统计周期和派生指标,消除了指标的二义性。这就使得数据资产的开发、管理、运营都变得更加清晰明确。

其次是「生产隔离」设置。以前做数据湖,不太关注生产环境和分析探索环境的管理,大家都各自在里头做数据分析,生产调度作业很多都是探索实验任务,生命周期很短,逻辑变更频繁,数据作业只上不下,结果就造成生产环境越来越混沌。

“现在,我们通过Dataphin严格区分了数据探索和生产环境:探索环境可以非常灵活,我们给业务同事提供了沙箱环境,他们可以自由发挥创新精神,不使用就全部抹掉;而在生产环境,我们需要保障数据质量、时效性和稳定性,因为这部分环境中的数据,需要支撑业绩报表、数据决策、交易增长等一系列与企业经营密切关联的场景。”

在企业中,数据治理往往不是发起一个独立的运作项目那么简单,它被深深地嵌入到了企业经营的每一个细节当中。王冠军认为数据治理工作旨在不断调节降低大数据系统熵值,从而使得数据质量、数据安全、资源成本都得到有效的管控,持续为业务价值创造提供可信的数据资产。

“我不觉得成立一个数据治理组织是最关键的,我们数据治理的机制和能力,都是通过不断解决问题进化出来的。”

7.png

事后出现问题,比如SLA数据延迟,到了原定的时间没有出来,就先建工单分配到数据工程师解决问题,然后启动复盘改进,往前推,到事中的告警触发,事前的检查规范和制度是否有被落实等等。“一个故障越是在前期被防控,对我们来说成本越低,我们的数据治理工作就是这样一步一步通过Dataphin的工具能力被前置到Day1。”说到数据团队所遇到的各种问题,王冠军表现出来的是一种非常积极的处理态度,他把这些都视为团队治理能力进化的推力,而非阻力。

自从在数据架构、数据建模、数据治理等环节引入了新工具、新范式,数禾科技的数据处理能力提升了8倍,做到了数据生产链路0事故,王冠军微笑着说这要感谢Dataphin的助力,但这样一支勤于思考,精于做事的数据团队,发展得越来越好也是必然。

分享到:

相关推荐

评论 抢沙发

评论前必须登录!

 

精彩评论