8月28日,由Datafuntalk发起的DataFunSummit数据安全与治理峰会在云端举行。MobTech袤博科技受邀参加,大数据架构专家陈远光分享了数据治理一体化在MobTech金融风控场景下的实践和应用案例,带你走进数据应用与治理一体化的世界。
企业数据治理的必须性与好处
武侠世界里有句话:“有江湖的地方就有是非。”同样,有数据的地方就需要治理。对于数据智能公司来说,面对海量的数据,不同的数据源、不同部门人员使用、不同的业务分析需求以及不同的应用方式等不确定因素纠集在一起,如果规划管理不当,很容易出现各类问题:
1.系统林立,数据孤岛,数据烟囱式发展没有有效的融合;
2.数据冗余,缺乏规划,数据存储混乱,建模不合理,数据使用单次结果导向型,没有统一规划,造成存储和计算资源的浪费和管理的混乱;
3.对数据使用需求不明确、不统一,造成二次开发,数据复用率低、管理难度大;
4.最直观的结果就是数据质量低下,企业数据无法深度挖掘深,实际价值没有展现出来。
数据治理毫无疑问需要企业前期投入大量人力物力建设,后期规范化使用也会很“麻烦”,需要制度化约束管理开发人员的日常实施。那么数据治理对于企业来说,值不值投入呢?
从哪些角度做数据治理
数据治理是一个很大的范畴,从数据沉淀、数据存储、数据分析到数据的应用输出,都离不开数据的安全与治理。在整个数据链路的过程中里面任何一个模块都有很大的建设空间。但总的来说数据治理是一整套的方法论,即成熟的数据治理体系化、模块化、工程化。
对企业来说,如何系统化规划设计数据治理一体化架构呢?MobTech袤博科技基于多年的数据管理和治理经验,抽象出如下四大数据治理维度。当然每个企业应该根据自己公司实际情况,如数据规模,业务场景,数据特点等因素有选择有重点的建设自数据治理体系。前者越复杂,规模越大,需要的数据治理的功能越完善,治理的细节越丰富,指标体系越健全。
数据智能企业数据治理一体化架构建设
罗马不是一日建成的,数据治理一体化架构也是随着公司的业务发展,海量数据沉淀,需求繁巨,管理难度大等现状逐步迭代才有了今天较为完善的规模。
截止至当前,公司整个数据管理平台抽象出5大系统,协同保障SLA。分别是安全管理系统、资产管理系统、数据质量系统、模型管理系统以及监控告警系统,下面分别进行详细的讲解。
1.安全管理系统
首先数据安全从最基本的数据容灾,异地灾备机房的建设,数据存储的多副本机制等方面从硬件基础层面保障数据的安全;其次数据层面数据合理化采集,敏感数据脱敏,数据通过网路加密传输,加密存储等方式,最终实现符合国家数据安全要求的数据合规。对于企业来说,存储数据后,数据的使用,如怎么通过分级来做权限的隔离等;同时企业也需要通过建立健全完善的数据管理制度,数据审批制度等来进一步约束数据的使用,保障企业数据的安全。MobTech立志构建全方位的数据安全管理系统,从多维机制保障数据的安全。
2.数据模型管理系统
共分为四大模块:
1)模型创建:
如模型设计、数仓的分成、选择哪个主题、模型的命名、类型、模型中词根选择。模型建模选择是维度建模还是anchor模式、公共维度和关联关系如何处理等;
2)模型校验:
数仓模型规范性检测,如模型中常用词汇是否在词库中,四大词库、基础词库、金融词库、地理词库、营销类词库、字段一致性校验;如字段有没有加COMMENT,分层存储格式是否正确等;如模型的重复率(避免构建大量重复模型)判断等;
3)模型审核:
生产发布要求小组负责人代码review、代码规范、模型规范、有没有出现跨层调用数据情况、分层主题设计是否合理、模型是否符合维度建模规范等等。这些都没问题,才可以审批上线;
4)模型维护:模型的修改,要保留历史版本控制,变更需添加注释;模型的废弃上下线监测。
3. 资产管理平台
主要功能模块如上图,血缘这块是我们自主基于hive Hook, spark Listener等定制开发的。整个资产平台分成四大模块,有供开发人员使用的血缘链路分析、元数据管理、检索等,也有供Boss提供决策依据的资产全景看板等。
4. 调度监控告警管理系统
平台基于Apache dolphinscheduler开源版本进行二次定制化开发,新增了很多模块化功能,如任务管理,任务治理分析模块。任务治理模块,基于YARN API接口收集到Job 日志信息对任务运行情况T+1实施诊断,通过特定算法对任务运行评分,推荐优化,如参数是否合理,任务是否长尾现象,任务监控统计管理等功能,保障任务运行更稳定,计算性能更强劲,资源投入产出比更高。
5.数据质量监控系统(QC)
主要结合调度系统,嵌入式二次开发,通过熔断机制解决了QC系统传统的资源浪费问题。传统QC系统通过任务后配置依赖的质量监控任务,监控异常后告警,但是不会对下游任务的执行进行阻断,告警处理后下游任务仍需要重跑,浪费资源。
MobTech的 QC系统通过可选框式配置质量监控规则,配置提交后后台自动生成依赖监控任务,可选式配置任务熔断选项。这样一旦触发熔断机制,该任务的下游所有任务都会暂停,等待该告警的处理或者忽略,达到减少资源的浪费和降低集群的负载。
数据治理一体化对于每个企业来说都是任重道远的过程,MobTech一直在路上,欢迎大家共同探讨交流。