应用办公生活信息教育商业
投稿投诉
商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

数据库传统行业数据架构发展变化

  背景介绍
  传统行业在本文中是指在国内有一定体量,较为基础的一些行业企业,此类企业有几个特征:企业体量较大业务变化不大客户群体大客户数量变化不大
  此类行业近几年随着数据中台、人工智能、数字孪生等等概念的不断洗刷,也因为本身业务发展的实际需要,数据体量连年增长。
  随着国内开源软件生态逐步成熟,面向传统行业的软件企业交付的数据架构,也以开源软件为主构建,逐步的发展变化。本文主要介绍在开源的背景下,传统行业数据架构近几年的发展变化,以及每一步的掣肘和突破,作者总结下来感觉有一定的代表性,希望分享出来能够提供一些思路。数据架构的发展变化
  作者所经历的数据架构分三个阶段:单一数据库集群、TP和AP分离、大数据的引入,现在正在经历HTAP云原生这一阶段。单一数据库集群
  作者所经历的单一数据库集群阶段,大约是在18年开始的,现在也会在项目开始阶段较多的采用。架构图如下:
  单一数据库并不是指就一个数据库实例,而且整个架构的主体采用了一个数据库产品,例如架构图中是以Mysql官方分发版本为主体,通过MHA方案,搭建的高可用Mysql集群,为了应对数据的增长,中间加了一个数据库访问代理,我们采用的是mycat,分库分表、读写分离都通过mycat做出来。
  此架构模式下,数据量增长的一定规模之后,出现了一些问题:跨分片访问性能不佳汇总性能不佳、宽表支持较差分析类需求支持不好,与实时业务争抢CPU和IO
  这些原因搞过数据架构的都会很容易总结出来,归根结底,是过多的把AP的需求让Mysql来解决了。TP和AP分离
  基于项目越来越多的离线汇总需求和在线分析需求,整个项目引入了AP类型的数据库。由于开源的GreenPlum在国内的火热,企业内部多采用了GreenPlum数据库,有较多的技术积累。
  参考:Greenplum中文官网
  集成了GP的数据架构如下:
  参考:bireme
  我们从Mysql到Greenplum构建了两个通道,一个通道是通过kettle构建ETL任务批量抽取数据到Greenplum,一个通道是通过birememaxwell实时同步数据到Greenplum。从架构图上可以看到,kettle写入数据,实际上是与Greenplum的Segment(primary)节点打交道,效率比较高;birememaxwell是通过master写入Greenplum集群的,效率不高,特别是一些更新较频繁的表,大量占用IO。
  kettle支撑了我们很久,birememaxwell由于IO问题没有彻底解决也就放弃了这条路线。20年Greenplum官方出了streamingserver组件,这个环节的问题得到了很好的解决,但那个时候我们换了方案,也就没在实际生产中使用。
  参考:streamingserver
  随着数据量的增长,我们面对几个棘手的问题,始终解决的不好,引起了客户大量的投诉:随着业务发展和数据量增长,ETL过程越来越长,ETL的窗口越来越短,抽数与正常业务逐渐的交叠在一起因为Greenplum当时的几个BUG,ETL之后的汇总任务不太稳定,汇总失败之后的重算,又占用白天的查询IO,AP业务基本不可用
  基于以上原因,考虑从两个方面解决问题:放弃ETL,改用binlog同步引入专业离线计算工具
  综合考虑当时的情况,决定引入Hadoop,采用HDP分发版本,结合HDF的一些思路,构建一个准实时的数据平台。大数据的引入
  引入Hadoop后,架构如下:
  HDP、HDF已成为过去,不再提供连接供参考。
  数据经过NIFI,采用binlog回放的方式,实时写入Hbase,定时启动Spark任务,进行汇总计算,计算结果输出到GreenPlum中。
  整体数据架构的职责划分如下:
  技术组件
  服务能力
  存储期限
  Mysql(集群)
  交易(核心)
  1个月
  Hadoop
  离线计算、明细查询
  全部
  Greenplum
  在线分析
  半年
  此架构的优势是:采用binlog回放,不存在ETL过程,对业务库影响最小采用Spark进行汇总计算,计算性能、稳定性都有大幅度的提升汇总计算和在线分析物理隔离,重算、验算、模型计算等任务使用Hadoop集群,不影响在线分析业务的稳定性对于需要实时的业务,采用FlinkElasticsearch的方式满足。
  但同时这一套架构也有其局限性:Mysql的ddl变更,扩缩容非常繁琐,需要寻找停机时间,也牵扯到大量人工操作数据链路过长,实时业务需求存在开发门槛,不能提供实时AP业务支撑部分业务计算完成后,需要回写Mysql,效率很差,调优空间很小资源需求起点高,部署组件多,运维难度大,运维人员要求高
  本身团队人员少,仅仅维护一个集群尚能保证可用性,产品复制推广后,运维和本地开发存在极大的困难。HTAP云原生
  在Hadoop引入过程中也在不断尝试简化整个架构。先后研究过cockroachlabs、yugabyte、citusdb等多款分布式数据库。也阅读过很多TiDB的技术文章,参考:HTAP会成为数据库的未来吗?。
  经过对比,我们认为TiDB比较适合我们:使用Mysql协议,兼容Mysql5。7,迁移成本很小所有的HTAP数据库中,对接Spark是最好的中文资料详实、国内支持较好
  OceanBase因开源时间较晚,开源时生态并不丰富,对多租户的模式需求不高等多种原因没有深入进行相关测试。
  引入TiDB之后的架构:
  其中:整个架构以TiDB为核心,不再关注分片、无法执行ddl变更、离线扩缩容等等一系列问题轻度的AP工作,不需要额外的ETL动作,扩展TiFlash副本就可以Spark上我们做了大量的离线计算的封装,TiSpark的回写效率不错,我们做了一些适配工作,降低了离线计算这一块的改造难度Spark、Api、Presto等我们都跑在了k8s上,极大的降低了计算资源的管理与运维难度从架构上去掉了Flink,是因为Flink原来进行的计算在TiDB能够通过实时的查询解决
  其中最关键的我认为是TiSpark,Spark在离线计算领域的效率、稳定性不可替代。我们仍然在路上
  HTAP云原生我们仍然在改造过程中,或许有一些认知错误,但HTAP云原生这条路给我们的开发、运维都极大地减轻了工作量,我们会不断走下去。
  文章来源:TiDB社区干货传送门https:zhuanlan。zhihu。comp536517345

胡某宇与母亲最后通话39分47秒,3次通话,到底说了什么内容头条创作挑战赛胡某宇事件尘埃落定,还是自杀了。这100多天,相信是母亲人生中最煎熬、最难过的一百多天。人的一生会遇到很多意料不到的事,胡鑫宇的自杀,给这个家庭带来了……荡马路新去处,虹口美丽街区夜景再上新!华灯初上,沿路分布的道路绿化、店牌店招等都披上了新的外衣,成为路上夺目的亮点,快和小叶子一起,来看看夜幕降临后的美丽街区吧!生机盎然的绿色城……问界车型销量大增但赛力斯却难止亏损华为光环逐步弱化后该如何破每经记者:李星每经编辑:裴健如1月31日,赛力斯(SH601127,股价42。45元,市值635。59亿元)发布公告称,预计公司2022年度实现营业收入335亿350亿元……中国典型生产安全事故(220)河南济源黄河小浪底ampamp2004年6月22日19时54分,河南省济源市小浪底明珠岛旅游开发有限公司所属的明珠岛二号客船在黄河小浪底水库距济源张岭码头5。3公里处倾覆,后于20时35分左右沉入水底,船上……穆勒为萨比策去曼联得到机会而高兴,他在拜仁的篇章尚未结束直播吧2月3日讯拜仁周三晚在德国杯第三轮40大胜美因茨,在赛后穆勒谈到了球队能否就此改变低迷的局面以及萨比策转会的话题。在联赛三连平之后收获一场大胜,穆勒对此表示:我们很……最好的自己我们都不自觉的,把最好的自己留给了别人而把最差的自己留给了家人可能大家已经习以为常了出门时穿得一本正经,干练整洁去面对一切而回到家时,都喜欢找到最……美团性命攸关的问题凭签到表买处方药,儿童禁用药竟标小儿用量今天,国家市场监管总局依法对美团处以34。42亿元的罚款,以处罚其要求商户二选一的问题。然而,美团商业模式的隐患可不止有垄断这一条,还有性命攸关的网络销售药品不规范问题。……松毛岭战役解放军一天打出1200吨炮弹,强大后勤把越军彻底打20世纪7080年代,中国进入了又一个战争高发期。这段时间接连发生了对越自卫反击战、中越两山轮战、87年第二次中印危机、南沙海战等战役。1979春,中国虽用一次自卫反击战……男怕柿子,女怕梨老人们都说男怕柿子,女怕梨,有的解释认为是男怕失子,女怕离的谐音,很有道理。但也可直接从饮食方面去理解,则蕴含着以下道理:古人认为男人属阳,女人属阴。一般来说,男人偏肝木性酸凉……马赫雷斯阿森纳是目前英超最好的球队我们会力争足总杯奖杯直播吧1月27日讯曼城即将在足总杯第四轮与阿森纳交手,赛前,曼城边锋马赫雷斯接受采访时谈到了这场比赛。马赫雷斯20182019赛季随曼城赢得过足总杯,他表示很希望再赢得一……63岁苗侨伟,2021年只拍了一部剧,就爆火了三哥苗侨伟真的越老越有范儿!自从2004年复出拍戏以来,演过的角色和《射雕英雄传》时期的杨康,简直就是天差地别,完全不敢相信是同一个人。年轻时候的苗侨伟也是一个小鲜肉,演……2022年车险怎么买?看完这篇攻略能省不少钱经过了车险综合改革和新能源车险(试行)条款上线不少车主开始发愁2022年的车险怎么买?小编吐血整理《2022车险投保指南》您一定要收好!……
4冠收官后,刘国梁社媒评论区沦陷,孙颖莎球迷请配个教练吧本届休斯顿世乒赛结束,刘国梁率领国乒拿到了四个冠军,国乒总体表现非常亮眼。但是这几天刘国梁的社交媒体评论区却被刷屏沦陷了。原因就是很多孙颖莎的球迷请求刘国梁给孙颖莎配一个主管教……自闭症孩子的表现有哪些?自闭症又称孤独症,是广泛性发育障碍的代表性疾病。这是一种因为神经系统失调导致的发育障碍,以严重广泛的社会相互影响和沟通技能的损害以及刻板的行为、兴趣和活动为主要特征的精神……中魁穴治疗反胃呕吐(恶心呕吐找中魁穴,元代王国瑞玉龙歌)人们在身体状态不佳,如晕车、服药后出现副作用、心情抑郁、饮食不节或怀孕等时候,常常会出现恶心反胃、呕吐不止等胃肠道症状,元代王国瑞《扁鹊神应针灸玉龙经》首创了中魁穴治疗此病。中……口罩旅行回忆录1包头,肉不要钱的城市,一生总该去一次吧?作为一个不怕人多,就怕人太多;有钱,但又不多的人,放开之后出去玩的热情被理智生生压了下来。人在家中坐,瘾从天上来。不如小记一下YQ3年我的3次旅行,权当自嗨。第一篇……Python基础入门之print()函数那些你不知道的用法Python中的print()函数功能是用于打印输出,是编程语言中最常见的一个函数。我们一般使用print()输出字符串和变量的值。学习一门程序设计语言,第一个演示程序就……西藏最强机票折扣!(附购票方式)近期,自治区发展改革委持续深化民航旅客票价改革,在原优惠政策的基础上,进一步增加航线覆盖范围,扩大优惠实施对象,提高财政补贴力度,并先后与西藏航空、西部航空、成都航空、重庆航空……iQOO彻底爆发,顶配12512G内存,这才是骁龙870机皇随着智能手机的发展,人们有越来越多的需求,会下载更多APP和游戏,拍照拍视频也是常态,自然就需要更大的内存,旗舰机起步256G已经不是新鲜事,很多人都表示至少也得128G才够用……尘埃落定,李洪庆再抛出重大手笔,杨鸣迎来外籍助手,辽篮再起航第二阶段赛程结束,辽宁队领跑全联盟,25胜奠定了第一的基础,按照这种情形发展下去,本赛季辽宁男篮夺冠机会非常大,但自从马丁内斯离队,蒋兴权第二阶段没有随队出征,辽篮教练组一度出……1300光年外的三恒星系统中发现有行星诞生,这是真实的三体近日科学家在距离地球1300光年外的猎户座GW中发现有行星刚诞生,猎户座GW是一个拥有三颗恒星的天体系统,人类已知的恒星系统大多数都是由一颗或两颗恒星构成的,而猎户座GW中的三……ofo还没倒下,债主就先破产了2021年注定是不平凡的一年,很多名人、明星在今年凉了,很多名企也在今年倒下。此外,还出现了新的风口元宇宙。曾经的风口共享似乎已经被创业者们抛弃了。就在不久前,ofo共享单车平……来曾都,逛一趟白云湖畔的湿地公园湖北日报客户端讯(通讯员曾融)实施随州市曾都区水河东岸生态环境提升工程,是推动城北片区高质量发展、建设花园城市、打造城乡融合发展示范区的重大举措。月亮湾湿地公园是以城市综……赢球不可怕,缺谁谁尴尬!核心缺阵的比赛中,球队打出14胜2负在本场比赛之前,灰熊队刚刚在上一场比赛里不敌老鹰队,从而导致球队的四连胜被迫终止。而此役他们的对手虽然是处在西部垫底位置并且已经遭遇四连败的火箭队,但随着球队老大莫兰特将因为膝……
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网