瓴羊Dataphin V3.8 升级丨强化数据治理、提升标签洞察力…

一、关于Dataphin(智能数据建设与治理)

Dataphin(智能数据建设与治理)是阿里巴巴集团数据治理方法论基于内部实践的产品化输出,致力于帮助企业用中台方法论治理企业级好数据,构建起质量可靠、消费便捷、生产安全经济的企业级数据中台。

二、DataphinV3.8版本升级功能点

01- 企业级数据中台,适应多样的管理诉求

•公共日历&条件调度:设置企业的日历,用于调度;根据条件组合规则用于调度属性设置

•自定义项目角色:根据企业的组织架构和资质,设置不同的角色

•自定义告警消息模板:设置不同告警消息的消息模板,满足个性化需求

•负责人转交:快速一键转交负责人,降低管理成本

•OpenAPI:丰富API,满足个性化诉求的定制开发

02-研发体验优化,加速企业数字能力建设

•数据源源扩展:GaussDB、SAP Table、StarRocks、Hudi等数据源支持

•实时集成扩展:支持将PostgreSQL的数据实时集成到Kafka和Hive目标库

•逻辑表研发体验优化:事件事实逻辑表支持自动的延迟数据处理,支持单实例进行多周期补数据

•补数据优化:新增按周期补数据,并提供优化补数据列表

•元表体验优化:适配不同的数据源类型进行优化

03-数据治理能力提升,保障企业数据质量与安全

•标准:① 全局落标明细;② 公共标准集属性增加系统属性“数据类型”并内置元数据监控配置

•安全:手动设置资产的分类分级

04-Dataphin集成标签平台,完备企业数智化建设能力

•标签平台:标签、群组开发新增版本管理、方便用户修改加工逻辑替换线上版本;简化更新、服务设置及上下架操作,增加群组对比分析;优化个体画像展示方式,图形界面更加生动直观。

三、新版本重点特性详解及应用场景示例

特性1:公共日历+条件调度,灵活调度设置

应用场景:根据企业业务属性设置日历,并结合条件调度进行任务的灵活调度设置。

任务调度主要是两个核心设置, 一是依赖关系, 二是日期时间. 在日期时间的设置上, 有非常多的场景, 需要产品提供灵活个性化的设置项. 公共日历可以让用户在日历上灵活的设置标签, 条件调度可以使用这些标签来运行或者暂停任务, 比如以下场景:

1.金融企业需要在交易日正常运行任务, 非交易日不运行. 可以在公共日历上创建"交易日"标签, 条件调度上设置, 当业务日期为"交易日"时, 运行任务, 非"交易日"时暂停任务.

2.某些企业在月初(1号)需要计算上一个月的总账, 数据计算量比较大, 任务需要延迟到系统的闲时运行. 可以在条件调度设置每月1日, 调度时间比其他日子晚 5 个小时.

功能概览:

1.公共日历

a.支持多个公共日历

b.支持设置工作日/假日

c.支持创建标签

2.条件调度

特性2:自定义项目角色

应用场景:适配企业的团队架构和职责,可设置不同角色的权限

不同企业对角色的管控诉求不同,如对于运维角色,部分企业认为运维只能做任务的调度和重跑,生产环境数据很敏感,运维也不能修改生产数据;还有部分企业会认为运维本身权限较高,当线上出现了临时问题,需要运维有快速修复的能力。

对于上面这种情况,不同企业可以根据自己的诉求,定义自己的运维角色;同一个企业内,也可以根据自己的实际需求,定义运维和高级运维两个角色。

功能概览:

1、项目角色管理,支持项目角色的新建、编辑、启用、停用、删除等功能

2、自定义项目角色权限,可以自定义角色可以使用的功能模块,以及是否拥有项目内的数据权限

特性3:自定义告警消息模板

应用场景:根据企业自身的业务需求,设置告警消息的模板

当接收到告警消息的时候,能快速判断是否需要立即进行行动以及如何行动,对运维人员是非常重要的,它可以降低告警消息对客户的干扰。

由于每个企业组织和人员的职责不同,导致运维人员的告警消息的要求会有不同,有些希望能展示项目名称,有些希望能展示业务日期,有些会希望展示任务的负责人。

固定的告警消息的模板不能满足所有客户的需求,因此Dataphin提供了自定义告警消息模板的功能,客户可以根据自己的组织及运维职责划分进行告警消息模板的设置。

特性4:负责人转交

应用场景:一键转交负责人,降低企业人员管理复杂度

离职或转岗场景下,往往有大量的负责人权限需要交接,否则可能会出现工单无人审批、告警无人处理等问题,而一个个负责人进行转交,工作量巨大,因此Dataphin提供了一键转交负责人权限的功能。

功能概览:

1、支持超级管理员、系统管理员一键转交普通成员的负责人,也支持普通成员主动发起负责人的转交

需要注意的是,Dataphin中负责人相关的概念较多,本期仅支持了核心流程的负责人的转交,对于角色和单独申请的权限,并没有进行转交,而是建议接收人自己进行申请。

特性5:新增标准与质量模块的开放接口

应用场景:基于 OpenAPI 快速批量导入数据标准和码表,提升配置效率;查询标准变更概况、标准详情及质量校验记录,以自定义标准大盘和质量大盘,满足企业个性化诉求

功能概览:

标准OpenAPI:支持基于 OpenAPI 创建及修订数据标准、词根、码表,达到快速批量创建的目的,减少人工配置成本;同时也支持基于OpenAPI 查询标准的变更趋势以及和资产对象的映射情况,结合 BI 等工具可自定义标准大盘,展现标准的新增及变更趋势,以及资产对象的落标率,以便从全局视角获取标准的管理及应用情况.

质量OpenAPI:支持使用OpenAPI对质量的校验记录和质量报告等进行查询,可以对接客户自己的质量中心或者告警中心;同时支持通过OpenAPI新建质量规则、新建监控告警等,方便客户进行质量的主动和批量管理。

特性6:事件事实逻辑表的延迟数据处理&单实例多周期补数据

应用场景:自动处理延迟的事件数据; 使用一个实例, 通过动态分区补多个周期的数据.

1.在采集数据的过程中, 有时数据无法按时被采集到, 到达数据中台会出现延迟, 比如: 线下零售企业, 销售订单由各个门店通过文件上报, 手工整理的订单总是会有遗漏, 过几天才能发现再重新上报.

2.当延迟数据的情况比较复杂, 需要重新从业务系统拉取全量数据, 重新生成逻辑表的最近分区, 就可以使用单实例多周期补数据. 系统会自动生成动态分区SQL, 生成最多30个分区的数据.

功能概览:

1.延迟数据处理

2.单实例多周期补数据

特性7:补数据优化

应用场景:补数据实例列表支持实例粒度的筛选,帮助快速筛选出提交的补数据任务中失败的节点进行处理。补数据日期选择方式支持按周、按月周期补数据、帮助快捷操作。

功能概览:

1、优化了补数据实例列表,支持实例粒度的筛选,支持按照实例状态及实例负责人进行筛选,帮助快速排查处理。

2、优化了补数据的日期选择方式,支持按周、按月周期补数据,支持倒序补数据。

特性8:资产目录升级,优化数据表阐述任务,血缘图拓展覆盖集成任务

应用场景:基于数据表产出任务的平均运行时长和产出时间,评估数据表可供下游业务使用的时间;基于全链路血缘图,更全面准确识别数据变更影响,降低数据消费异常风险

功能概览:

本期 Dataphin 的数据表产出任务优化,不仅拓展了产出任务覆盖范围(包含所有血缘任务),针对每一个产出任务,新增支持查看任务平均运行时长、平均产出时间,以作为数据可使用时间的评判依据,为运营人员提供消费引导。

此外,血缘图也全新升级:新增支持集成任务血缘的展示,可查看来自数据源的表血缘;逻辑表新增表级血缘关系的展示;对象进一步拆分为物理视图、物理表、逻辑视图和逻辑表,可以更好地识别视图和来源表的关系;优化对象的详情信息提示,为查看人员提供引导和边界的操作入口,大大提升了使用体验。

特性9:数据标准新增全局落标明细,支持元数据落标监控

应用场景:内置“数据类型”的元数据监控规则,结合落标映射配置,分别标准视角和资产对象视角展示映射关系及监控结果,以推动整改。

功能概览:

落标监控的第一步是创建标准和资产对象的映射关系,也就是需要配置落标映射规则,如:标准名称=字段名称,可以将标准和对应的字段关联起来;但是字段是都已经遵循了关联到的标准约束呢?这是就需要借助监控手段来获取落标情况。

标准的监控包括对资产对象的“元数据监控”和“内容质量监控”。其中,元数据监控首先要明确预期监控的元数据字段,以及这个字段应该和标准的哪个属性进行对比校验,检验通过的规则是什么。本期数据标准内置了“数据类型”系统属性的元数据监控配置。

如果某个标准配置了“数据类型”属性,会将属性值和当前对应映射到的字段的“datatype”元数据字段值进行对比,相等则校验通过。下个版本,我们会继续拓展标准的“内容质量监控”配置,可以结合数据质量模块的能力,快速创建监控规则,实现针对映射资产的内容监控。

有了映射规则和监控配置,如何查看监控结果呢?本期 Dataphin 数据标准新增“落标评估明细”页面,支持从标准视角查看每个标准映射到的资产对象,以及每个对象的落标监控结果。

同时,也可以从资产对象视角查看每个字段映射到的标准,以及是否遵循了这个标准的约束。基于全域落标名字,数据标准管理员和资产管理员可以更好的获取全局标准集资产的落标映射及监控概况,以快速核心标准、识别异常资产,进而推动整改。

特性9:手动设置资产的分类分级

应用场景:明确敏感数据后,直接进行敏感数据打标,高效进行敏感数据保护

针对已经确认过的敏感数据,如通过数据治理专题梳理出来的敏感数据,或者在日常的工作运营中新产出的敏感数据,可以直接使用手动设置资产分类分级的功能,直接给敏感数据进行打标,从而高效、准确的对敏感数据进行保护。

目前支持页面上手动指定和通过excel批量上传两种指定敏感数据的方式。

特性10:标签、群组开发新增版本管理

应用场景:业务场景变换时,开发者可快速调整标签、群组加工逻辑,替换线上版本

在实际业务场景中,标签(或群组)用于创建在线服务后,可能存在需要调整其加工逻辑的情况。如对“是否高净值用户”标签创建在线服务应用于APP端进行展位投放时,针对不同营销活动,该标签加工逻辑可能有略微差异。

引入多版本机制后,开发者可通过新建版本方式调整其加工逻辑、进行版本对比、提交发布后实现线上版本替换。

特性11:优化标签及群组更新、服务设置及上下架操作,增加群组对比分析

应用场景:开发者可根据需求灵活调整标签及群组设置,对比群组,批量上下架标签及群组

开发者在加工标签过程中可在“高级设置”步骤中统一调整更新时间、开启在线服务以及数值型标签的值展示,特别是通过视图指标映射方式生成的标签可进行批量设置,系统提供默认设置值降低加工成本。对已发布标签、群组提供批量上架操作,已上架标签、群组提供批量下架操作,提高上下架操作效率。增加群组对比,支持查看不同群组在同一标签分布差异,便于进行群组选择或圈选逻辑调整。

特性12:优化个体画像展示方式,图形界面更加生动直观

应用场景:标签应用方可根据业务场景,选择标签创建个体360画像,洞察个体特征

标签应用方可以在资产市场中申请标签至应用,在服务管理中选择个体画像进行新建,通过输入实体ID即可通过图像化界面查看个体信息。

如金融行业理财产品经理需要在一次营销活动中对几个目标客户进行金融产品推荐时,就可以选择客户基本信息、账户信息以及行为信息标签进行画像构建,通过目标客户的实体ID进行画像分析,详细了解他们的账户情况、交易行为以及理财产品偏好,为理财产品推荐提供数据参考。

在选择理财产品过程中也可以基于理财产品的基本信息、热度等标签构建产品画像,如基金所属的行业板块、风险等级、最近30天购买关注人数等,辅助产品经理进行理财产品选择。

特性13:实时研发新增支持多种数据源,满足多种业务场景

应用场景:实时研发Flink VVP引擎下新增支持自定义数据源,支持StarRocks数据源作为来源表、目标表。Apache Flink引擎下新增支持CDC方式读取MongoDB、Oceanbase、Tidb 数据源,可读取快照数据和增量数据,支持ADB PG 数据源作为维表及结果表,支持实时数据质量校验。

支持StarRocks数据源作为来源表,满足多种实时数仓构建场景。支持读写Hudi的能力。支持基于Hudi构建实时数据湖,不仅可利用Flink的流批一体能力,也可通过schema同步,使用Hive SQL访问Hudi的数据。

四、总结与展望

本次发布的V3.8版本中,Dataphin提升了客制化的能力,针对不同的客户的业务场景、组织架构和管理职责进行了适配性的升级,并持续提升了规范建模的能力以及研发的易用性。

在下一个版本中,我们将针对数据治理的相关能力进行升级,简化操作链路,持续提升用户体验。