Aloudata创始人周卫林获评『2022大数据产业年度趋势人物』: 企业数字化转型的关键新目标是实现业务自助用数

近日,由深耕大数据产业的垂直专业媒体数据猿推出的“金猿榜”2022大数据产业年度趋势榜单正式揭晓,主题“激发数智活力·促进产业新生”。评选历经数月,数百位业内领袖与优秀企业积极参与,最终由100+知名专家学者评审诞生。Aloudata(大应科技)创始人&CEO周卫林荣登『2022大数据产业年度趋势人物』榜单。

数据猿始终以推动大数据产业的发展与进步为宗旨,在关注人工智能、云计算、物联网、区块链、5G等新技术的同时,更关注数据智能技术在金融、医疗、工业、消费、教育等各个行业的商业落地情况。本次评选正是致力于挖掘并表彰过去一年来勇于探索实践、推动大数据产业进步的优秀代表性人物,希望在数字经济的大潮中,激发企业数智化创新活力,进而推动整个产业的转型升级。

周卫林曾任蚂蚁集团研究员(P10)、蚂蚁集团数据平台部总经理,拥有近20年大数据领域从业经验,是国内最早一批数据仓库先行者。他曾深度参与并主导了阿里/蚂蚁集团从传统数仓体系到数据智能体系的数据技术演进过程,全面支撑了蚂蚁集团从支付工具到数字生活平台的升级,横向推动了整个蚂蚁集团业务数据化、智能化水平的提升。除此之外,他还是多个有影响力的数据工具类产品的主要缔造者,并由此孵化出多个进入Gartner、Forrest领导者象限的阿里云拳头产品。

他于2021年5月创立 Aloudata,定位为一家NoETL数据分析平台服务商,让用户无需搭建复杂 ETL 链路,即可灵活分析所有数据,更快做出更优业务决策,帮助企业实现10倍以上的数据化运营效率提升。目前,Aloudata已顺利完成两轮融资。

下文为榜单评选期间,周卫林应邀所作主题分享《数字经济时代,企业数字化建设的新挑战和新目标》。

最近2-3年世界充满了很多的不确定性,社会和经济发展运行的方式正在发生深刻变革,但在这个不确定性的时代,数字化是不确定性中最大的确定性,不仅大多数企业都在讨论、拥抱和投入数字化建设,国家也在算力基础设施建设、数据要素的市场机制和数据安全合规的法律制度等战略框架层面有着积极明确的布局和规划,提出了“数字中国”的宏远愿景。本文试图从企业数字化建设的视角,剥离各行各业不同业务形态在数字化应用场景上的差异性,回归数字化建设作为企业组织能力升级和业务创新能力再造的核心工作之一,谈谈企业数字化建设的挑战和目标。

企业数字化转型带来数据需求的范式跃迁

回首过去的50年,无疑是科技作为第一生产力推动波澜壮阔的社会变革的50年,这期间有两个非常重要的年份直接推动人类社会进入数字时代。

第一个年份是1970年,这一年埃德加·弗兰克·科德(Edgar Frank Codd) 在《Communication of the ACM》上发表题为 “A Relational Model of Data for Large Shared Data banks(大型共享数据库的关系模型)”的论文,打开了企业信息化的大门。此后10年诞生了不少数据库产品(比如Oracle、DB2等)、数据库和基于数据库的应用(比如OA、MIS、HR、CRM、ERP等的普及),在提升企业信息化水平的同时也将企业经营环节推向了数据化。

第二个年份是1990年,这一年蒂姆·伯纳斯·李 (Tim Berners Lee)和罗伯特·卡里奥(Robert Cailliau)合作写了万维网的第一个网页,打开了互联网的大门,从此人们的吃喝玩乐、衣食住行、谈婚论嫁乃至生老病死都被在线化数据化,至此人类进入数字时代。

随着企业信息化水平的不断提升、数据资产的不断沉淀,数据分析和数据决策需求自然涌现,比尔·恩门(Bill Inmon)在1990年提出数据仓库(Data Warehouse)的理念,并将其体系化,很好地回应了企业在商业智能领域管理决策场景的需求,形成了企业数字化建设的第一波浪潮:建设数据仓库,面向管理层经营决策场景,以“看数”为主,典型应用是管理驾驶舱、绩效看板等。

其后,互联网和移动互联网的影响持续加深,企业纷纷触网,构建线上销售与服务通道,产生了大量用户行为数据,企业数据规模快速壮大,数据时效性要求不断提升,也推动了企业数字化建设的第二波浪潮:建设数据湖,沉淀全域数据,实现点状应用场景创新,比如用户行为分析、客户画像标签挖掘等。

紧接着,消费互联网进一步往产业互联网发展,5G、IoT等技术的普及,促使实体经济和虚拟经济融合深化,再叠加流量红利、人口红利的消失,市场竞争不断加剧,成本不断攀升,企业越来越重视产品与服务的用户体验提升和客户价值创造,越来越强化数据对业务的深化融入,越来越依赖日常经营各个环节的数据驱动,企业产生了强烈的数字化转型的诉求。这一诉求直接推动了企业数字化建设的第三波浪潮:提升业务用数能力,面向业务运营场景,以“用数”为主的典型需求有圈人营销、活动效果分析、用户分层运营、供应链精益管理等。

企业数字化建设的主线是需求和场景带动,其典型代表就是第一波浪潮里的“看数”和第三波浪潮里的“用数”,但“看数”和“用数”之间有着本质的差异,最大的差异是: “看数”是一个IT能力,企业可以外包,“用数”是一个业务能力,企业只能内生。 因此我们能够看到在第三波数字化建设浪潮里,企业往往开始自建数据工程师和业务分析师团队来承接这类业务需求。这一根本性的差异形成了多个维度上的巨大差别,下图是更详细的差异对比。

如何让企业具备内生的数据分析能力是企业数字化建设第三波浪潮里的重要命题,也将越来越成为一个刚性要求。

企业数字化转型带来数字化建设的新挑战

企业数字化转型带来数据需求的范式跃迁:从“看数”到“用数”是如此的不同,也对以数据仓库为代表的原有数据技术体系和数据协作关系带来了巨大冲击:

首先,改变了原有的数据生产协作关系。 原有的“管理看数”需求通常可以单独设线设团队,由专门的DW团队专线支持,现在的“业务用数”需求通常分散在各个业务团队和业务技术部内部,原DW团队转化成了数据中台团队,这样的变化一方面让数据需求响应变得更加敏捷,极大促进了企业数据价值的发挥,但同时分散化的数据定义和协作也引发了数据口径不一致、数据质量事件频发等一系列的数据混乱。随着数据链路的日益复杂化,产生了一大堆数据治理难题(性能、成本、时延、合规、安全、可用性等),这对企业的数据专业能力和组织协作能力提出了极高的要求。

其次,击穿了原有的数据生产方式。 原有ETL驱动的以分层分域分主题分集市建设的数据资产架构越来越难以适应“业务用数”需求对灵活性、及时性的要求,业务分析师大量跨过数仓公共层集市层完成业务需求成为普遍现象,这一方面导致投入80%资源建设的数仓公共层大量数据模型没人使用,另一方面业务分析师80%时间用于发现和准备数据,ETL工程师70%时间用于宽表模型的变更、生成各类汇总表以及数据链路的运维,最后企业面临80%以上业务数据分析需求无法得到有效响应的局面。

最后,丧失了现有数据工程体系的长期生产力。 原因是数据需求、数据源和用数人群的爆炸性增长,推动数据工程体系快速进入亿级、十亿级、百亿级的复杂度,并将最终导致企业运营维护数据工程体系的成本大到企业难以承受的地步,数据工程体系迫切需要建立新思维、新方法、新技术。

究其根本,虽然经营决策场景的“看数”与业务运营场景的“用数”同样都是通过数据指导决策,但这里面最大的差别是数据决策的影响半径不同,进而直接决定数据口径的治理半径不同,并最终导致不同的数据生产协同方式。 通常来说,服务管理层的“看数”需求,数据决策的影响半径是全公司,自然会要求数据口径要全局唯一,口径变更要强管控,从而产生了Kimball和Inmon等数据建模方法论,以确保口径全局唯一,支持数据分析的上下钻取;而服务一线员工的业务运营“用数”需求,数据决策的影响半径是项目组或单个员工,允许自主定义口径,支持口径灵活变更。

“看数”追求指标的准确性,“用数”追求标签的合理性,准确性是全局客观唯一的,而合理性只能在业务场景里才有明确口径,这是两类截然不同的需求,现有的数据资产架构和数据工程体系,以及相应的配套工具和平台如何从支撑管理“看数”升级到赋能业务“用数”是一个新挑战。

企业数字化建设的新目标

企业从数字化管理到数智化运营,从“看数”到“用数”的进化过程中,数据需求的响应效率将成为数字时代企业最重要的经营能力,提升数据需求响应效率将成为企业数字化建设的主要方向和重要价值目标。

很显然,要提升“用数”需求的满足度,产生10倍级的效率提升,单纯考虑ETL工程师、BI分析师群体如何提效是无法做到的,因为 “用数”需求的关键卡点之一是业务方难以一开始就确定数据范围和数据口径,而是在一个边使用边优化的过程中完成确认的。 比如与合伙伙伴之间做联合营销涉及人群范围的圈选、人群画像的刻画以及营销效果的预测和评估,很难一次数据分析做对做全,需要业务人员全程参与讨论,甚至是主导整个分析过程。

因此,10倍提升数据需求响应效率的钥匙是“业务自助用数”,企业数字化建设的第三波浪潮的关键目标是“实现业务自助用数” ,要“实现业务自助用数”需要跨越三个“数字鸿沟”:

第一个“数字鸿沟”是工具的“体验”鸿沟,现有数据分析工具普遍存在业务人员上手门槛高的鸿沟,业内广泛使用的数据分析工具产品仍是Excel,而Excel很难对接企业现有大数据分析基础设施。

第二个“数字鸿沟”是数据的“语义”鸿沟,数据分析的第一步是找数据,“数据不好找、找了不敢用、用了用不对”仍是普遍问题,数据源要成为分析数据集,存在技术语义转成业务语义的“语义”鸿沟。语义层(Semantic Layer)是位于数据和业务用户之间的翻译层,将复杂数据逻辑转换为可理解的业务概念,目前相关数据语义层的产品和技术是一个热点,比如Metric Store、Metric Layer、Headless BI等。

第三个“数字鸿沟”是分析的“技术”鸿沟,数据分析的操作步骤需要转成相应的数据处理过程,最后变成ETL数据管道,存在业务分析过程转成物理数据管道的鸿沟,而如果这样的转化环节必须通过ETL人工介入才能完成的话,就会涉及到IT资源排期和IT研发流程,显然很难满足“用数”场景对需求交付及时性的要求。

综上,当前企业数字化建设的关键新目标是实现“业务自助用数”,有三个关键点:一、低门槛,人人都能上手, 不固化分析步骤,实现迭代式分析,其产品形态类似电子表格;二、语义化,强大的数据语义模型, 基于明细表敏捷定义数据分析模型,实现统一数据分析语义层;三、自动化,智能的ETL工作引擎 自动编排、物化和回收数据管道,免除ETL工程师大量繁琐重复工作,最大程度实现ETL工作的自动化智能化。通过实现三个关键点,理清业务人员、BI分析师和ETL工程师的数据协作关系,端到端释放数据分析生产力,从而10倍提升数据需求响应效率,成为企业数字化建设的重要成果和企业数字化转型的重要组织能力。