应用办公生活信息教育商业
投稿投诉
商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

数据领域概念横行?让我们从本质出发

  这是大数据技术扫盲系列的第五篇,对一些基本概念做总结:数据库、数据仓库、数据集市、数据湖、湖仓一体、DataFabric、DataMesh,并探索其本质。
  全文4000字,阅读需要15分钟
  技术领域每隔几年就会出现一堆新的概念,概念刚出的时候都有一个非常清晰的锚点,在某个层面提出更优的解决办法。数据领域也不例外,从最早的数据库、数据仓库、数据集市、到数据湖、湖仓一体、数据中台、以及最近出镜率较高的DataMesh、DataFabric。我们需要从变化中找到一些不变的东西,最底层的逻辑是企业越来越重视数据,希望通过数据挖掘价值,在这个过程中:
  1、范围逐步扩大:数据不再是部门级别的专享福利,而应该辐射到全企业;
  2、方式逐步增多:以固定报表为始,自助式分析、机器学习等多元化方式逐步加入。
  以上两点都建立在两个基础之上,即数据是可信的、数据获取是高效的(包括系统间流转数据的高效、业务人员用数据也是高效的)。
  除数据库外,其他的所有概念,都是以挖掘数据价值为导向,所提出的数据架构实施方法,本质都在解决、数据可信度问题(质量与标准)、高效用数问题(更高效的找到数据、更便捷的用到数据)
  一、数据库vs数据仓库vs数据集市
  数据仓库:BillInmon在1991年著作《建立数据仓库》一书中,给出了数据仓库的定义,数据仓库是企业数据存储的集合,用于支持管理决策,有四个核心特点,面向主题的、可集成的、相对稳定的、反映历史变化的。
  数据仓库建模的方法论主要包括ER模型、维度模型、DataVault模型(ER模型的衍生),这些方法论的主要作用是描述数据表如何在仓库中进行组织,其中维度建模是应用最广的一种数据仓库建模方法。
  面向主题的:区别于数据库,数据库围绕应用系统功能、流程来进行设计,支持完成交易活动。但数据仓库以分析需求为牵引,将多个数据源在更高层次进行整合、抽象,数据围绕主题来组织。
  可集成的:数据仓库可以将不同来源、不同存储方式的数据集成至数据仓库。
  相对稳定的:数据仓库中的数据不允许修改,主要支持查询。
  反映历史变化的:数据仓库中的数据保留历史快照,能反映数据的变化。
  数据库是一个软件、工具,用于存储数据,主要应用场景是作为交易系统(应用系统)的数据存储,数据库中的表设计也是尽量避免冗余,基于3NF的方式进行设计;数据仓库汇聚多个系统的数据,按照主题域、主题、业务过程进行组织,表是通过引入冗余进行设计,面向分析场景应用。
  传统关系型数据库能干数据仓库的事儿吗?答案是能干,数据仓库更像是一个逻辑概念,应用了数据仓库方法论进行组织,用于数据分析决策的都可以称为数据仓库,它并不绑定底层技术选型,并且在大数据体系没出现之前,就是这么干的。
  初期:支持业务流程的关系型数据库和面向分析的数据库共用一个实例,但历史数据使用频率很低,却占用了大量的存储,从成本、效率上都不划算。
  中期:支持业务流程的业务数据库和面向数据分析的数据库做了物理上的分离,但仍然用传统关系型数据库做支撑。
  现在:最后随着数据越来越多,以及多个系统间的数据融合需求也越来越多,业务对数据时效性的需求也越来越高,以hadoop为代表的技术应运而生,也逐步被广泛应用。目前最常见的就是,业务系统数据存储基于传统关系型数据库进行构建,面向分析的数据仓库基于hadoop技术体系构建。
  数据仓库建设过程中,为了让逻辑更清晰,除了垂直分域分主题以外,还会水平分层,在大的建模方法论作为一级框架下,分层各有差异,最常见的有ODSDWDDWSADS,阿里的onedata体系ODSCDMADS,我们要明白分层的初衷:
  1、分解问题,将复杂的指标计算逐步拆解为各个小问题。
  2、更好的逻辑复用。
  3、更清晰的数据调用关系。
  而数据集市的概念,更倾向于是数据仓库的一层,即数据应用层,面向某个特定组织、业务场景的指标数据,类似ADS。
  二、数据湖vs数据仓库
  数据湖概念辨析以及常见技术通览
  数据湖被首次提出是在2010年的HadoopWorld大会上,区别于数据仓库的高度结构化结构,数据湖强调原汁原味的数据,希望企业数据如同小溪一般,源源不断的将数据流入到数据湖,用户可以直接基于数据湖里的数据提取、萃取这些数据。后来各个顶级公司也都给出了自己的理解,但数据湖应该具备的能力都指向了以下三点:
  1、数据湖可以存储任何类型的数据,包括结构化、半结构化、非结构化。
  2、数据湖可以支持多种计算场景,包括BI分析、机器学习。
  3、数据湖支持任意规模数据的存储。
  辩论最多的就是数据湖和数据仓库的区别和联系,有很多的声音说数据湖是数据仓库的下一个阶段,但并非如此。
  从价值主张上看,二者都是一种数据价值挖掘的构建方法。
  从形式上看,数据湖强调数据的原汁原味,而数据仓库强调高度结构化和预定义。有一个形象的比喻,数据湖是水池,数据仓库是瓶装矿泉水。
  从存储内容上看,数据湖不限制存储的数据类型,设备数据、社媒数据、应用数据等照单全收,而数据仓库强调业务系统内结构化的关系型数据。
  至于网上其他的对比,包括存储的性价比(湖高仓低),数据质量(湖差仓好)、面向用户(仓仅面向业务分析、湖面向分析、开发和数据科学家)等等,我认为过于片面,比如在云原生的背景下,数据仓库也可以选择对象存储、通过数据缓存技术加速查询,既做到了低成本,也做到了高效。数据仓库和数据湖是从数据的角度出发,一种构建的方法论,而不应与技术做绑定。
  三、湖仓一体、数据中台
  lakehouse湖仓一体概念在2020年也逐步被提起,数据库中的数据高度规范化、价值密度高,但缺少一定的灵活性,即建模的过程中这个数据可被应用的场景已经被提前设计;数据湖的数据种类多、价值密度低、保持了一定了灵活性,但缺少规范化。在湖仓一体的架构中,数据仓库作为数据湖上长出来的一个个小房子,抽取湖中的数据、基于数据仓库建模方法论组织数据、面向业务应用数据,同时呢,二者间的元数据可以联动,共享数据目录;数据仓库的数据也会根据热度沉降到湖中。目前来看营销较多,见到的应用案例较少
  针对数据中台,网上有一个数据中台的企业级定义,聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念,我们可以看出中台有这样几个特点或目标,
  1、基于集中化的数据架构采集跨域数据、消除数据孤岛。
  2、对数据进行加工并形成数据资产。
  3、提供组件化能力可以快速加工数据应用产品。
  4、提供API化的数据服务。
  数据中台可以分两个部分来看,缺一不可,第一,数据中台提供一套工具,可以支持企业完成跨域数据的整合、更便捷的数据管理、数据开发、数据建模、以及数据服务编排。第二围绕业务场景,基于这套工具能力完成数据能力的建设。如果脱离了业务,仅落地工具毫无意义。所以中台更像是一个集大成者,从散乱数据到业务场景的端到端一站式解决方案。
  发展到数据中台、湖仓一体这一阶段,对数据规范化、数据管理的重视程度越来越高:
  1、更强调数据标准、数据质量在开发过程中的落标,将质量问题在操作的各个环节落地,做到前向的数据治理,提高数据的可信度;
  2、提供数据目录,将数据资产化,解决了日常经营过程中找数的问题;
  3、通过多元化的数据服务,如和自助分析工具、机器学习平台、报表工具等联动来解决用数的问题。
  四、DataFabricvsDataMesh
  数据仓库、数据湖、数据中台是典型集中式的数据架构建设方法,在当下应用系统多云分布的背景下,每日需要大量的数据被搬迁,随着需求的增多,企业需要为新增和存量运维付出高昂的成本。DataFabric在这样的背景下被提了出来,核心点是通过虚拟化和主动元数据驱动的手段,实现数据源的快速连接,将搬运数据改为连接数据。数据虚拟化技术屏蔽了各种数据源复杂性和差异性,无需移动、复制数据即可集成多个数据源,在内存中进行数据的组合、准备和转换,并以需要的格式呈现数据。
  DataMesh是由ZhamakDehghani提出,由领域驱动的分析数据架构,数据被视为产品,并归属于最熟悉,最可能消费数据的团队,现代数据业务已经演化为按照经营领域来组织产品团队,但数据仍然是集中管理,造成了交付的迟缓和较高的成本。DataMesh使数据产品的所有者承担起数据质量的责任,对领域的数据由足够的主导权、决策权,在相同的治理体系下管理数据,并通过标准化的方式保证数据服务的互通性
  相比于DataFabric,DataMesh更像是从组织层面解决异构数据环境的数据管理问题。而DataFabric是以连接数据的思想,通过数据虚拟化技术节约异构环境找数、用数、管数的问题。
  四、写到最后的一点思考
  无论是集中式还是分布式,无论是通过技术手段驱动还是通过组织转型约束,企业越来越重视数据的作用,也逐步有了管理数据的意识,很多企业通过设立CDO、以及数据管理组织来牵头数据能力建设,也落地了一系列数据平台工具、大数据能力来支持这一建设过程,在数据这条路上,企业一直在探索一个答案,来回答这样的问题:
  1)如何让更多的人用到可靠数据。
  2)如何提供更多元的方式用到可靠数据。
  3)如何用更低成本、高效的方式用到可靠数据。

房地产重返支柱产业,都这个时候了,还想着让老百姓进楼市接盘?1、支柱近日,高层在中国经济年会上重申房地产是国民经济的支柱产业,引发整个地产板块的狂欢,A股房地产指数在次日即应声上涨1。39,H股内地房地产板块更是同步上涨了1。71……6款AI配音网站!收藏一、微软文字转语音工具文本转语音:azure。microsoft。comzhcnproductscognitiveservicestexttospeech二、ond……海岱财评人民币走强!收复7关口,重回6时代11月快速反弹,12月初收复关口,人民币汇率这一波上涨,是近期外汇市场一大风景线。12月5日早间,在岸、离岸人民币兑美元汇率双双升破7元。这是自今年9月中旬人民币对美元汇……当一切都变成商品,你是否贩卖了良知记得前苏联哲学家弗德昆斯基有一段话是这样说的:由于权力失控而引发的连锁反应,会让社会失去信仰、荣誉、责任、良知、理想,会让一切都变成可交易的商品。教师贩卖了园丁,医生贩卖了天使……别找了,今年秋冬流行的穿搭都在这,好穿又好搭,受用整个冬季随着对于时尚潮流的追随,许多女性越来越重视形象问题,冬天穿衣要想穿出恰到好处的气质,又要符合自己的年龄与个性,需要多花费一点心思。冬日搭配不仅要保暖,也要时髦大方才行,下……当了妈好焦虑呀刷视频看宝宝有点什么,动不动就是急性喉炎急性肺炎,看的人焦虑得很。我有个朋友说去年,我家娃得过急性喉炎。这病起病急发展快,严重的话会直接导致窒息。可是,刚开始,我以为只是……华粉,跟风拍个mate50开箱图,只为了纪念心心念念到手的手外层塑料膜被实体店拆过了,只能拍个整体的外观图侧面是手机系列型号实体店推荐过碎屏险,得盖个印章在实体店必须让拆箱,防止售出后转手,导致包装纸发皱,也是无语……广州市这个有争议的区,有人说算是市区,但有人觉得算是郊区这里是刘小顺的旅行和生活研究所。广州市是我国广东省的省会,位于华南地区,也是我国的四大一线城市之一,最近这些年广州的发展速度大家有目共睹,前景也被普遍看好。广州市现……2023辽宁省声之韵新年音乐会今晚2105辽宁卫视震撼播出!喜迎元旦HappyNewYear辽宁经典音乐广播FM95。9开播30周年巨献2023辽宁省声之韵新年音乐会12月31日(今晚)2……天气冷,没食欲,分享4款营养粥,换着煮给家人吃现在这个季节,北方干冷,南方湿冷,是一年当中最难过的时候。再加上病毒流感,真的让人苦不堪言。嗓子不舒服,吃啥都没食欲的人,可以煮些粥来吃。暖脾胃,好消化,营养滋润,对于增……肝脏最爱的5件事,运动排第二,坚持做,肝脏显年轻肝脏是我们人体中最大的解毒器官,中医认为:肝主疏泄,不仅可以维持脾胃的消化,同时,肝脏还是人体中最大的消化器官,参与蛋白质、脂肪的合成。然而,肝脏也是我们人体中最容易受损……科尔绿军三分命中率40ampampamp联盟第一所以不让他们直播吧12月11日讯今日NBA常规赛,勇士在主场以123107轻取凯尔特人。赛后,勇士主帅科尔接受了媒体采访。谈到此役的胜利,他说道:凯尔特人是联盟三分球命中率最高的球队……
346名棋手艺决高低争云南棋王云南网讯(记者张琦敏通讯员郭武辉)3月18日,云子杯第二十六届云南省围棋棋王赛在云子棋院精彩开幕,346名棋手艺决高低,向最终的棋王发起挑战。选手齐聚云子棋院。供图……这座曾经的徐家汇最高建筑有着上海最美尖顶,如今可预约免费参观在徐家汇核心地带,有一栋哥特式尖顶教堂建筑徐家汇天主堂,被称为远东第一教堂。作为徐家汇的地标建筑,如今,这座老建筑重新向公众开放,观众通过预约就可以走进它,欣赏百年建筑的……小克鲁伊夫曼联在正确的轨道上,滕哈赫为球队找回了信念直播吧3月19日讯乔迪克鲁伊夫接受邮报采访,他谈到了曼联和滕哈赫的情况。克鲁伊夫:以前的曼联那是不同的时代,那时的情况和你现在看到的不一样。与你现在所习惯的地方相比,这是……建议制定强制性国标智能投影能否告别野蛮生长?伴随大屏观影需求的愈发旺盛,作为家庭观影新选择的家用智能投影仪成为当下最火热的消费电子产品之一,伴随行业的快速增长,一系列需要解决的问题也被摆到台面。良币驱逐劣币据……旅游奇遇,解放军战机在头顶起降这样的场面,其实越多越好(网友旅游遇到直18起降,现场有战士维持秩序与引导,很安全)在南海旅游,公园里碰到解放军直升机训练,少见、硕大的军用直18,还有解放军战士维持秩序,与周边游客花花绿绿的衣……保定易县清西陵景区全力备战旅游季提升游客旅游体验来源:人民网河北频道原创稿五一假期临近,为让游客有更好的体验,保定易县清西陵景区早做谋划、扎实安排、充分做好景区内的基础设施、环境卫生、业态植入等工作,迎接五一黄金季的到……天赐材料一体化布局穿越周期,新技术新产品引领长期成长(报告作者:太平洋证券分析师刘强)公司近日发布2022年年报,实现营收223。17亿元,同比101。22:实现归母净利润57。14亿元,同比158。77;实现扣非净利润5……长期吸烟的人,如果突然把烟戒掉,对身体好不好?望你能正确对待爱乐养生指南吸烟有害健康是公认的事实,相信对于很多老年人来说,明明知道吸烟有害健康,但却抵挡不了香烟的诱惑。而且根据相关数据统计显示发现,我国吸烟人群高达3。43亿……梓涵热潮消失,孩子名字稀奇古怪,网友起名字的要点都在这名字,对大部分人而言,虽然仅仅是一个代号,但是,在新生儿的父母心中,却有着与众不同的意义,并不仅仅是一个简单的代号,更多的是,承载着家庭的希望和父母的疼爱。这也是大多数父……中国贵酒集团董事长韩宏伟考察2023成都春糖会近日,2023成都春糖会拉开帷幕。中国贵酒集团董事长韩宏伟现场考察本届春糖会,就当前酒产业发展现状及未来趋势同业内人士进行交流。成都春糖会作为中国酒类行业风向标,对促进行……十里春风,油菜花田里的千年之约来源:【大河网】大河报豫视频记者张琮文图近日,巩义北宋皇陵保护区内,油菜花正在绽放,神道石像生安静矗立其中。武士像威猛高大,动物像栩栩如生,历经千年风雨,风采……丝路科学城高含科量背后全国唯一双中心核心区的底气与朝气在国家创新体系中,综合性国家科学中心被称作科研皇冠上的明珠,是代表国家参与全球科技竞争与合作的核心力量,而国家级科技平台的创建,则是城市走向世界创新高地的重要战略布局。这……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网