logo
甲方彻底蚌埠住了:吃完数仓的亏,又上数据湖的当?
2022-05-30

最近几年,很多大甲方们,在“搞数据”这件事上,都特别上心。大家都看到了数据的价值。

可是,越上心往往就越伤心。

图1

大家搞数据的过程,都很不顺。

比如,最开始用“数仓”的那波人,逐渐觉得数仓太传统,尤其现在非结构化数据量上来了,于是大家纷纷开建数据湖,搞中心存储库。

图2

挖好湖,囤上数据,却发现泥沙俱下,数据治理和分析又是新问题,一不留神容易搞成数据沼泽。

然后又有人说,“湖仓一体”才是新方向呀,鱼和熊掌可以兼得。于是大家又开始跟风站队LakeHouse。

图3

接着又刮起风来说,数仓、湖仓什么的,都只不过是工具,要想成事儿,还得有一套“搞数据”的方法论来指导和统筹,数据中台就是这套方法论。

后面的事你们都知道了,数据中台建得热火朝天。

图4

“建仓、挖湖、搭台”,一顿操作猛如虎,数据囤了千千万,预算花了万万千,可急等的分析结果还是慢吞吞,想要的数据还是拿不到。

比如,老板突然提了个临时的分析需求,现在立刻马上,说要就要~

图5

喵工手忙脚乱,牺牲大量摸鱼时间,累了个半死,出来的结果分分钟把老板惹毛。

图6

老板常感慨花了这么多钱,建仓修湖搭台,换来的却是效率低、运维累、成本高,空有一堆数据,一大半需求都满足不了。

图7

Why?大家都忙着追逐各种新技术了,背后的道理却始终没参透↓

其实,“湖、仓、台”都是数据基础设施,也都各有先进性和适用场景,但要把他们用好,离不开一系列关键的“管道”系统,来保障流畅地取数、汇数和用数。

图8

这些“管道”,以前靠的是ETL相关技术。可是现在的业务场景和数据规模,ETL却成了最大的瓶颈,大甲方们“吃亏上当”的核心,就是ETL没理顺。

这锅,ETL必须要背。

图9

一、 为啥ETL成了大冤种?

我们先来简要了解下,ETL到底是个啥,锅是怎么背上的。

ETL不是啥新事物,早在数仓流行的时代,这个概念就有了,它指的是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的流程。

图10

在“远古数仓”时代,这流程没啥毛病,满足大部分BI需求绰绰有余,一切岁月静好。

可是这几年,数据量大爆发,尤其非结构化数据噌噌噌地上来了,同时数据分析的需求和应用场景,也变得极其复杂。

此时的ETL,无论管道的源头,还是终点,都发生了翻天覆地的变化。

图11

数据类型更复杂、数据源更多、数据量更大。为了应对各种高频的、随机的海量数据联合分析需求,数据需要在仓、湖、OLAP数据库之间来回搬运…

ETL“管道”越建越复杂,成本高昂,工作量巨大。

图12

负责整个流程的ETL工程师,就像管道工,每天忙着:设计管道、搭建管道,维护管道。

以前他们很轻松,现在完全被颠覆了,你来感受下管道工们的日常↓

图13

看完喵工的遭遇你明白了吧。

现实的状况就是这样:数据管道不断增长治理困难,搭建管道人手不足心力交瘁,查询性能无法追赶业务变化。

传统ETL链路因此被贴上了“浪费大,交付慢”的标签,导致用数方和供数方彼此都不满,互相甩锅。

图14

而这其中,背锅压力最大的,自然是负责ETL工作的水管工们,不是他们不努力,而是工具不给力!

图15

二、 不用ETL行不行?

既然我们破案了,知道真正拉胯的是ETL,那么不用ETL行不行?

我们不妨来瞅瞅,一种新的技术理念——NoETL是怎么玩的。

图16

所谓“NoETL”,是指在数据处理和分析环节,无需搭建复杂ETL链路即可灵活分析所有数据,以更低的成本、更迅速地做出更好的业务决策。

通过NoETL,分析师无需掌握ETL技能,不必等待漫长排期,随时可以对全域数据开启自助分析与洞察。

图17

乍一听有点扯,这么复杂的ETL流程,咋能说没就没了呢?

其实细想也不奇怪,ETL本来就是“上古数仓时代”的东西,在新技术横行的当下,光与时俱进是不够的,的确需要来点颠覆性的改变了。

图18

而NoETL的横空出世,正是要将传统ETL的繁杂流程逐一击破,由系统自动完成管道编排与链路优化,分析师能够自助用数。

对于广大数据使用者和数字化决策者来说,NoETL可以满足大家的三个愿望。

图19

1、No Pipelines。

去管道,无需关心数据位置,再多的数据源也不怕。

2、No Tasks。

免运维,无需操心任务运维,再多的需求也能从容处理。

图20

3、No Cubes。

自优化,无需手工设计加速方案,再大的数据量也能获得良好的查询响应。

图21

怎么样,如此变革性的数据分析链路,是不是令人振奋....且有点假?

NoETL究竟能不能落地?

有一家公司,叫做Aloudata,他们在国内首推NoETL湖仓平台,仔细看看,很有意思。

图22

Aloudata的这套神器,包含两个重要的组件:AIR和BIG。

AIR是全场景自适应的弹性SQL引擎,而BIG则是基于行为智能的主动元数据管理平台。

图23

两大引擎相互配合,就能让ETL链路整一个脱胎换骨,easy到亲妈都不敢认。

图24

那么,这套从数据连接、数据整合再到数据消费的新路径,到底靠谱么?我这里准备了灵魂三问↓↓↓

“无需关心数据位置”咋做到?

Aloudata通过湖仓查询引擎和数据虚拟化技术,实现多源异构数据查询和透明数据集成,也就是无管道化(No Pipelines)。

说白了,大部分数据不用搬,用AIR引擎可以直接查,控制了数据管道的无序增长。

图25

BI分析师和AI数据科学家们,终于摆脱了对ETL数据工程师(管道工)的单向依赖。

他们不需要再关心数据实际存放位置,直接通过SQL定义弹性数据集,就能够自助对全域数据进行获取和分析。

图26

Aloudata实现了透明的数据集成和数据更新,可基于上游数据变化和数据集定义,智能推断业务日期并生成数据更新任务,完成数据自动更新。

图27

“无需操心任务运维”咋做到?

此外,Aloudata通过对用数行为的收集和观察,实现了数据链路的全局智能编排,能够对重复、相似计算进行自动合并,对无效、低频、低价值的数据生产任务进行降权或下线,以"销"定产,极大地降低了成本浪费。

图28

从此,无需人工任务运维(No Tasks),省就一个字!

“无需担心查询性能”咋做到?

Aloudata基于独创的关系投影物化加速技术,实现了全场景、算子级的查询加速,无论是在数据探索、数据准备、多维分析还是在指标服务或是报表访问阶段,任何查询都可被系统透明加速。

图29

不仅如此,基于BIG对用户查询行为的观察和挖掘,AIR还实现了自适应的关系投影构建。

这样,用户无需设计诸如Cube等加速方案,也无需为不断变化的数据需求而疲于调整,即可获得最佳查询性能体验。

图30

这样一来,分析师无需再担心查询性能,只管专心去整业务分析与洞察。

一起来总结下,Aloudata实现NoETL的关键就是这仨No:

No pipelines 零等待全域分析;

No Tasks 全自动数据更新;

No Cubes 自动化查询加速。

图31

一切都是为治愈ETL之痛而来,一切都是刚刚好,咱就是说,一No到底~

对了,Aloudata已经帮助多家国内顶级金融机构完成了向NoETL的稳步过渡,将业务取数、用数、看数效率从周级缩短到了天级,并实现了高性能、低时延的报表看数体验,实现了数据交付效率10倍提升,获得了一半以上综合成本节约,真正做到“又快又省”。

即刻开启敏捷数据洞察
我们的行业专家会第一时间联系您,帮助您了解更多
免费试用
即刻开启敏捷数据洞察
我们的行业专家会第一时间联系您,帮助您了解更多
立即咨询
即刻免费体验
下一代数据平台
通过此试用,您将体验到
多源异构的联邦查询分析
直接在数据湖上开启交互式分析
自适应查询性能优化
一致数据视图定义和协作