应用办公生活信息教育商业
投稿投诉
商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

数字化时代,如何建造会运转的数仓

  在建设数仓之前需要根据数据基础和业务需求来决定要建设什么标准的数仓。常见数仓问题
  1、公共底层加工逻辑分散:对于来自多个数据源,但需要使用相同过滤和解析方式公共底层数仓,其过滤和解析代码在每个任务或配置中直接静态复制,未做到统一管理。加工逻辑分散带来的影响是如果公共底层数仓字段需要更改(增删,修改过滤、解析方式等),需要刷新一遍所有相关任务的代码。如果还存在着无法感知到所有的修改位置、修改进度不一致、修改过程出现问题等情况,下游的数据使用就可能出现问题。
  数据仓库派可数据商业智能BI可视化分析平台
  2、烟囱式开发:针对每一个需求或者每一个计算指标,都从底层数据开始,使用相同或极其相似的限定条件、计算逻辑、接出方式,产出的结果仅在很小范围内使用。烟囱式开发带来的影响是下游数据口径产生差异,重复解析造成的计算和存储资源浪费,无法通过扩大规模提升开发效率,并且不利于数据的团队内外共享。
  3、批流建设分离:实时数仓和离线数仓在机制上无法使用相同的清洗和加工逻辑。这是Lambda架构下很常见的问题,可能直接影响到实时数仓和离线数仓的数据一致性。局部业务问题
  1、数据含义模糊:存在于数仓各个层级的数据中,包括但不限于字段内数据存在多义性、字段名与含义不符、维度和指标的组合存在偏差等。
  数据的多义性会给下游使用带来困难,有时候下游需要确定性的某一种ID,那么就还需要恢复处理,如果判断条件不足还会出现无法分离的情况;字段名含义不符增大了数仓的使用成本,即每一次个字段的使用都要通读上游所有代码才能确定其含义;维度指标偏差则可能产生错误数据,并且给下游使用方带来困扰。
  2、溯源性差:由于数仓加工代码逻辑限制,或者数据表的生命周期设置不合理,造成的历史数据重跑困难,或者历史问题现场无法恢复。数据的重算和问题溯源是常见的数仓需求,如果无法回溯则可能导致错误数据的累积,或者无法很好地帮助业务定位问题。
  指标派可数据商业智能BI可视化分析平台
  3、指标膨胀:由于缺少规范上的约束,导致指标中涵盖了本可以作为维度的内容,造成了指标膨胀。随着业务的发展,膨胀过度的指标会导致应用数仓越来越臃肿且难以维护。
  4、数仓规范缺失:数仓开发中缺少统一的规范限制,导致任务设置、元数据管理、数据层级调用、字段命名、计算口径等随着开发野蛮生长,并最终导致开发效率降低。明确建设步骤
  开始建设数仓之前,首先要全面了解业务逻辑,这样更便于做出正确的数据域和数仓架构划分。
  确定了业务逻辑以后,下一个关键步骤就是抽象业务行为,也就是划分数据域。如果你的业务是内容类,那么曝光(页面、元素)、点击、播放、进入退出应用等就是业务内的基本行为;如果你的业务内容是电商类,那么加购物车、下单、支付、发货、退款等就是业务内的基本行为。
  电商平台派可数据商业智能BI可视化分析平台
  不论自身业务的数据源质量如何,数据开发人员的价值体现为无论基于什么上报基础都能构建对下游友好的数仓。但也可以明显看出,如果数据源质量太过恶劣,那势必消耗数据开发人员大量的时间在清洗与规整上,在数仓其他方面的建设不免分身乏术,这时可能就需要考虑数据源治理的事情了。遵循建设原则
  一致性
  一致性包含但不限于批流清洗逻辑的一致、指标计算口径的一致和维度含义的一致。
  目前多数业务都有实时和离线两种时效性的数仓需求,无论是lambda架构还是kappa架构,要保证多事件(业务下所有数据域)、跨计算引擎(批处理引擎和流处理引擎)场景下的数仓逻辑统一,需要从机制上保证而不是直接在代码中,靠开发人员的工程素养,通过手动修改来保证。
  终极解决方案是通过数据开发中台,保证全链路的逻辑一致性,使用界面拖拽代替代码开发来建设和修改数仓。但由于业务数据的复杂性极高,这种方案的研发投入和维护成本也特别高,故目前大多数业务使用到一些折中的方案。目前已经实现的是批流清洗逻辑的机制一致性。
  准确性
  准确性是数仓开发的生命线,对于希望使用数据驱动的业务来说,一份不准确的数据的危害比没有数据还要大。更细地来说,准确性可分为明细层字段的准确性,和聚合层计算逻辑的准确性。
  数仓建模派可数据商业智能BI可视化分析平台
  明细层字段的准确性可以通过上报校验或者白名单入数仓来规范,上报校验的结果定期反馈给上报开发方进行修正。白名单过滤掉不合规范的数据,保证数仓内的数据100可用,但因为更新白名单的成本高,并且会丢弃相当一部分业务数据,很少被正式业务所采用。
  聚合层计算逻辑的准确性由于和业务耦合较深,一般通过业务开发间相互的代码CR、产品运营的数据敏感度和测试同学的用例测试来保证其准确性。
  复用性
  数据分层将数仓各个功能模块解耦,分别满足不同等级的数据需求,是重要的数据加工手段。这里二八定律依然有效,即20的表可以满足80的数据需求。根据每一个需求,从流水数据一路开发到应用数据的烟囱式开发是不可取的,因为在业务量扩大后,维护这些数据的统一就会变成一件非常麻烦的事情。构建数据模型
  无论上游的数据源多么复杂,数据上报是否规范,数据工程师的必备技能就要求能够将这些数据进行分类、筛选和处理,产出一套对下游来说含义清晰、使用便捷的数仓。
  绝大多数业务,其基础数仓表都可以分为流水表和维表两大类,在此之上可以建立各种类型的聚合表、应用表、模型表等,构成如图所示的大致引用关系。
  流水表
  流水表是对用户的任意一个在现实中发生的不可拆分的行为的记录,也可称之为原子行为。例如交易就不是一个原子行为,因为其中包含了很多的过程;而下单、点击支付、支付成功可以算是至少在一些简单业务里可以算是原子行为。类似的还可以推广到一次瞬发技能释放、一个页面曝光、一次扫二维码、一条聊天发送等等。
  轻度聚合表
  指标派可数据商业智能BI可视化分析平台
  轻度聚合表主要实现对相似数据域的指标聚合和口径统一,并且保留部分重要的去重参数以便应用层进行后续计算。
  可加和类指标(次数、金额等)从流水层需要经过一些计算逻辑才能变成对应指标,这个口径统一维护在轻度聚合层,不仅下游使用方可以避免理解复杂的计算逻辑,直接使用轻度聚合层加工好的指标,而且在口径需要修改时可以做到无需下游改动,同时生效。
  轻度聚合层很明显地体现了数仓建设原则中的一致性和复用性。
  维表
  维表是对任意一层数据表中信息的关联与拓展,字典表也算一种维表。
  一般情况下维表需要落地一份存储供下游使用,而不是从原始数据层直接解析后写在关联逻辑里。一方面避免读取上游表全部分区的情况,另一方面使下游维度的使用保持一致。
  模型表
  基于基础数仓可以根据使用需求构建一系列模型表。以下举两个例子简单描述其使用场景,其他种类的模型表可以举一反三。
  用户模型表不仅可以保存性别、年龄、学历等基础信息,也可以附带来源渠道、活跃度、进行某些关键行为的次数、内容消费习惯等业务拓展信息,提供更全面的分析基础。
  漏斗模型表可以统计群体用户在某种周期内,每一个步骤的操作。在内容类应用里,可以是用户从进入应用的每一步跳转直到退出的过程;在交易类应用里,可以是从浏览、加购物车、下单、支付直到完成售后的过程。

在两棵树直接建筑一栋总面积不到80平方的树屋住一个晚上就98我是该进城还是该回农村置房你怎么看文旅项目要的就是一个特色,与众不同。像这款小小的树屋就可以参考一下。在两棵间隔不到5米的树木之间建造了一栋总面积不到80平方米的小度假木……7对很难离婚的明星夫妻,有的誓要白头,有的追求自由,各有所愿文牛皮贰近年,娱乐圈内塌房的夫妻,一对接着一对。昨天还在媒体前大秀海誓山盟,一转眼就成了老死不相往来。比如王宝强和马蓉,李小璐和贾乃亮,赵丽颖和冯绍峰等。……勇士变阵!库明加进入首发,库里自抛砸板暴扣,汤神低迷真因曝光北京时间5月8日,西部半决赛第三回合较量,勇士主场迎战灰熊,在小佩顿受伤缺阵至少一个月的情况下,主帅科尔变阵,将菜鸟库明加放进首发阵容。勇士首发阵容为库里、汤普森、维金斯……孩子看电视上瘾怎么办?看电视的危害你得提前知道文颖妈,关注了解更多精彩!三岁的星星是个很乖巧的男孩,但让父母很苦恼的是,星星最喜欢的事情不是和小朋友一起玩,而是呆在家里看电视。每天幼儿园一放学,放下书包,他做的第一件……安逸春节好耍德阳,欢迎来德阳过新年!德阳地处成都平原腹心地带,幅员面积5911平方公里,现辖旌阳区、罗江区、广汉市、什邡市、绵竹市、中江县和国家级德阳经开区、德阳高新区,常住人口345。9万,是成渝地区双城经济圈……天然安眠药被找到!榆钱锅里蒸一蒸,好吃营养,一觉睡到天亮导语:天然安眠药被找到了!榆钱锅里蒸一蒸,作用拿钱买不到,好吃营养,一觉睡到天亮!春有百花秋有月,夏有凉风冬有雪。莫将闲事挂心头,便是人间好时节。仲春四月,春暖花开,到处……水果当饭,吃出两种心脏病?医生这种养生方式要不得前不久,福州六十岁的刘女士因为胸闷气短去医院检查,结果却被接连查出两种致命的疾病,而患病的原因竟与她平时的养生有关。胸闷气短女子的心脏表现异常福建省级机关医院心内科……苹果发布新年影片卷土重来,全部用iPhone13Pro手机拍距春节还有一周,苹果发布了今年的新春影片《卷土重来》,导演是《钢的琴》电影导演张猛。这部长达23分钟的影片全部使用iPhone13Pro拍摄,摄影指导罗冬介绍说,这部影片没有使……西强东弱实锤!NBA战力榜前三全是西部球队,篮网雄鹿排第五第北京时间12月21日,NBA官方公布了最新一期的球队战力排行榜。在这份榜单上,排在前三的球队依旧是太阳、勇士和爵士,这三支球队的排名和上一期没有发生变化,在这三支球队之后,排在……2021年第二季度国产手机出货量排行榜,vivo占据首位小米TOP1:vivo以1860万台出货量位居第一这个成绩确实让我挺意外的,但曾经主打性价比的iQOO子品牌和vivox60系列一定是主力军TOP2:OPPO1650万……火箭首个交易对象出炉,费尔蒂塔愿送走153巨星,罗斯东家感兴北京时间12月18日,NBA常规赛正在进行,其中布鲁克林篮网管理层将与沙奎尔哈里森签下一份10天合同,有机会辅佐超级巨星凯文杜兰特,以赛亚托马斯将和湖人签下一份10天合同,担任……步行者决定不重建了!但两届全明星中锋想离队!又是雷霆出品反转!步行者决定不重建啦,但小萨却要走了!此前就有报道称步行者队里已经没有非卖品了,换句话说,像是小萨、特纳、勒韦尔、兰姆、布罗格登、沃伦等等这种去到一支队伍就可以改变一……
跨越3个世纪,长安汽车怎么做到的?今年是长安160周年。纵观中国汽车工业史,甚至是世界汽车工业史,长安汽车总能榜上有名。长安的前身是上海洋炮局,是第一个运用机器设备进行生产的中国企业,中国近代工业由此发端……成像技术殊途同归随着气球、飞机和卫星的问世,人类不仅飞上了蓝天,而且飞得越来越高。一个问题也随之产生:天空能为人类带来什么?生活的经验告诉我们,登高可以望远。但是,用肉眼观察有两个问题:……每日一味抗癌中药天葵子,清热解毒散结,治疗痈疖的一味良药天葵子本品为毛茛科植物天葵的块根。产于陕西、江苏、安徽、浙江、江西、福建等地。春季采挖,洗净,晒干,切碎用。【别名】紫背天葵子,千年老鼠屎,地丁子,天去子,夏无踪,……苹果要撤离中国?损失超一千五百亿美元,中国技术对美国有多重要当地时间9月13日,美股全线大跌,其中道琼斯指数跌幅达到3。94,纳斯达克指数跌幅5。16,标普500指数跌幅4。32,均创下2020年6月以来最大单日跌幅记录。而美国科技企业……春草传揭开了原生云游戏和未来的面纱?云原生游戏被誉为云游戏的终极形态。好像是云游戏领域的坐标。无论人们如何讨论云游戏,最终的观点都会趋同于原生云游戏。早在2020年12月,腾讯互娱副总裁崔在接受采访时……锡金的发展现状头号周刊锡金现在是印度北部的一个邦,民生发展还是挺落后的,政府关注更多的是军事层面(战略重要)。人口、GDP人口约72万,最新的GDP人均5000美元(折合人民币约……新零售有哪几种核心要素?2016年10月,阿里巴巴集团董事局主席马云在云栖大会上的演讲中讲到:新五通一平(新零售、新制造、新金融、新技术和新资源)。马云提到,纯电商时代很快会结束,未来十年、二十年,只……3换1!独行侠报价追梦格林,筹码诚意满满北京时间11月30日,NBA常规赛继续进行,在刚刚结束的一场焦点战中,卫冕冠军金州勇士队客场对战达拉斯独行侠队。独行侠当家球星东契奇面对勇士猛轰41分的并拿下大三双,但一路落后……誓与橘子馒头一决高下!大家纷纷在她的评论区晒出自己做的面点一个个可爱的橙色面团通过蒸笼蒸熟后,变成了橘子馒头,掰开一看里面还有一个个的小橘子瓣。最近一条冬天最多的水果就是橘子吧短视频在网络爆火,引发网友关注,7天内获得68。3万点赞,……成功的大博弈博弈的痛与乐电视剧大博弈征文热播电视剧《大博弈》已接近尾声,这部剧展现了一家濒临破产的百年老厂,如何在年轻一代掌舵中,成功翻盘的励志故事。演绎了在三个昔日老同学孙和平(秦昊饰)……不对称N配位铁单原子催化剂支撑在石墨碳上用于锂硫电池的转化https:doi。org10。1016j。cej。2022。140202第一作者:HeSongjie通讯作者:YangJuan,邱介山单位:西安交通大学,大……流涛墚上看云墚上看云流涛自从学校搬到了墚上,站高了看远了,有了更多观赏云朵的机会,看到了原来小城里看不到的关于云的风景。早晨巡视完校园,朝曦初露,站在墚上,往东看,冉冉升……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网