应用办公生活信息教育商业
投稿投诉
商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

看懂大数据生态完整体系

  随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。
  目前大数据生态圈中的核心技术总结下来如图1所示,分为以下9类,下面分别介绍。
  一、数据采集技术框架
  数据采集也被称为数据同步。随着互联网、移动互联网、物联网等技术的兴起,产生了海量数据。这些数据散落在各个地方,我们需要将这些数据融合到一起,然后从这些海量数据中计算出一些有价值的内容。此时第一步需要做的是把数据采集过来。数据采集是大数据的基础,没有数据采集,何谈大数据!
  数据采集技术框架包括以下几种:Flume、Logstash和FileBeat常用于日志数据实时监控采集,它们之间的细节区别见表1:
  Sqoop和Datax常用于关系型数据库离线数据采集,它们之间的细节区别见表2:
  Cannal和Maxwell常用于关系型数据库实时数据采集,它们之间的细节区别见表3:
  Flume、Logstash和FileBeat的技术选型如图2所示:
  Sqoop和Datax之间的技术选型如图3所示:
  Cannal和Maxwell之间的技术选型如图4所示:
  二、数据存储技术框架
  数据的快速增长推动了技术的发展,涌现出了一批优秀的、支持分布式的存储系统。
  数据存储技术框架包括HDFS、HBase、Kudu、Kafka等。HDFS它可以解决海量数据存储的问题,但是其最大的缺点是不支持单条数据的修改操作,因为它毕竟不是数据库。HBase是一个基于HDFS的分布式NoSQL数据库。这意味着,HBase可以利用HDFS的海量数据存储能力,并支持修改操作。但HBase并不是关系型数据库,所以它无法支持传统的SQL语法。Kudu是介于HDFS和HBase之间的技术组件,既支持数据修改,也支持基于SQL的数据分析功能;目前Kudu的定位比较尴尬,属于一个折中的方案,在实际工作中应用有限。Kafka常用于海量数据的临时缓冲存储,对外提供高吞吐量的读写能力。三、分布式资源管理框架
  在传统的IT领域中,企业的服务器资源(内存、CPU等)是有限的,也是固定的。但是,服务器的应用场景却是灵活多变的。例如,今天临时上线了一个系统,需要占用几台服务器;过了几天,需要把这个系统下线,把这几台服务器清理出来。
  在大数据时代到来之前,服务器资源的变更对应的是系统的上线和下线,这些变动是有限的。随着大数据时代的到来,临时任务的需求量大增,这些任务往往需要大量的服务器资源。如果此时还依赖运维人员人工对接服务器资源的变更,显然是不现实的。因此,分布式资源管理系统应运而生,常见的包括YARN、Kubernetes和Mesos,它们的典型应用领域如图5所示。
  四、数据计算技术框架
  数据计算分为离线数据计算和实时数据计算。1。离线数据计算
  大数据中的离线数据计算引擎经过十几年的发展,到目前为止主要发生了3次大的变更。MapReduce可以称得上是大数据行业的第一代离线数据计算引擎,主要用于解决大规模数据集的分布式并行计算。MapReduce计算引擎的核心思想是,将计算逻辑抽象成Map和Reduce两个阶段进行处理。Tez计算引擎在大数据技术生态圈中的存在感较弱,实际工作中很少会单独使用Tez去开发计算程序。Spark最大的特点就是内存计算:任务执行阶段的中间结果全部被放在内存中,不需要读写磁盘,极大地提高了数据的计算性能。Spark提供了大量高阶函数(也可以称之为算子),可以实现各种复杂逻辑的迭代计算,非常适合应用在海量数据的快速且复杂计算需求中。2。实时数据计算
  业内最典型的实时数据计算场景是天猫双十一的数据大屏。数据大屏中展现的成交总金额、订单总量等数据指标,都是实时计算出来的。用户购买商品后,商品的金额就会被实时增加到数据大屏中的成交总金额中。Storm主要用于实现实时数据分布式计算。Flink属于新一代实时数据分布式计算引擎,其计算性能和生态圈都优于Storm。Spark中的SparkStreaming组件也可以提供基于秒级别的实时数据分布式计算功能。
  他和Storm、Flink之间的区别见表4。
  Storm、Spark、Flink之间的技术选型如图6所示。
  目前企业中离线计算主要使用Spark,实时计算主要使用Flink。五、数据分析技术框架
  数据分析技术框架包括Hive、Impala、Kylin、Clickhouse、Druid、Drois等,它们的典型应用场景如图7所示。
  Hive、Impala和Kylin属于典型的离线OLAP数据分析引擎,主要应用在离线数据分析领域,它们之间的区别见表5。
  表5Hive的执行效率一般,但是稳定性极高;Impala基于内存可以提供优秀的执行效率,但是稳定性一般;Kylin通过预计算可以提供PB级别数据毫秒级响应。
  Clickhouse、Druid和Drois属于典型的实时OLAP数据分析引擎,主要应用在实时数据分析领域,它们之间的区别见表6。Druid和Doris是可以支持高并发的,ClickHouse的并发能力有限;Druid中的SQL支持是有限的,ClickHouse支持非标准SQL,Doris支持标准SQL,对SQL支持比较好。目前Druid和ClickHouse的成熟程度相对比较高,Doris处于快速发展阶段。六、任务调度技术框架
  包括Azkaban、Ooize、DolphinScheduler等。它们适用于普通定时执行的例行化任务,以及包含复杂依赖关系的多级任务进行调度,支持分布式,保证调度系统的性能和稳定性,它们之间的区别见表7。
  它们之前的技术选型如图8所示。
  七、大数据底层基础技术框架
  大数据底层基础技术框架主要是指Zookeeper。Zookeepe主要提供常用的基础功能(例如:命名空间、配置服务等),大数据生态圈中的Hadoop(HA)、HBase、Kafka等技术组件的运行都会用到Zookeeper。八、数据检索技术框架
  随着企业中数据的逐步积累,针对海量数据的统计分析需求会变得越来越多样化:不仅要进行分析,还要实现多条件快速复杂查询。例如,电商网站中的商品搜索功能,以及各种搜索引擎中的信息检索功能,这些功能都属于多条件快速复杂查询的范畴。
  在选择全文检索引擎工具时,可以从易用性、扩展性、稳定性、集群运维难度、项目集成程度、社区活跃度这几个方面进行对比。Lucene、Solr和Elasticsearch的对比见表8。
  九、大数据集群安装管理框架
  企业如果想从传统的数据处理转型到大数据处理,首先要做就是搭建一个稳定可靠的大数据平台。
  一个完整的大数据平台需要包含数据采集、数据存储、数据计算、数据分析、集群监控等功能,这就意味着其中需要包含Flume、Kafka、Haodop、Hive、HBase、Spark、Flink等组件,这些组件需要部署到上百台甚至上千台机器中。
  如果依靠运维人员单独安装每一个组件,则工作量比较大,而且需要考虑版本之间的匹配问题及各种冲突问题,并且后期集群维护工作也会给运维人员造成很大的压力。
  于是,国外一些厂商就对大数据中的组件进行了封装,提供了一体化的大数据平台,利用它可以快速安装大数据组件。目前业内最常见的是包括CDH、HDP、CDP等。HDP:全称是HortonworksDataPlatform。它由Hortonworks公司基于ApacheHadoop进行了封装,借助于Ambari工具提供界面化安装和管理,并且集成了大数据中的常见组件,可以提供一站式集群管理。HDP属于开源版免费大数据平台,没有提供商业化服务;CDH:全称是ClouderaDistributionIncludingApacheHadoop。它由Cloudera公司基于ApacheHadoop进行了商业化,借助于ClouderaManager工具提供界面化安装和管理,并且集成了大数据中的常见组件,可以提供一站式集群管理。CDH属于商业化收费大数据平台,默认可以试用30天。之后,如果想继续使用高级功能及商业化服务,则需要付费购买授权,如果只使用基础功能,则可以继续免费使用;CDP:Cloudera公司在2018年10月份收购了Hortonworks,之后推出了新一代的大数据平台产品CDP(ClouderaDataCenter)。CDP的版本号延续了之前CDH的版本号。从7。0版本开始,CDP支持PrivateCloud(私有云)和HybridCloud(混合云)。CDP将HDP和CDH中比较优秀的组件进行了整合,并且增加了一些新的组件。
  三者的关系如图9所示。
  以上内容出自于《大数据技术及架构图解实战派》一书。

八位堂将推出适用于Xbox和PC的有线版Pro2游戏手柄八位堂(8BitDo)计划于12月8日发布适用于Xbox游戏主机和PC的有线版Pro2游戏手柄。在功能方面和目前已经推出的无线版本几乎相同,不过后者支持Switch、手机和其他……明日发布一加披露Buds2Z真无线耳机详细规格上周,一加证实定于10月13日发布的BudsZ2真无线耳机,将配备可将噪声降低多达40dB的主动式降噪(ANC)技术。现在,该公司又通过一加手机的官方微博账号,抢先披露了One……谍战剧潜伏与悬崖对决,谁更经典?这两部谍战剧是我最欣赏,并经常回顾的精品,两部剧的共同之处,男女主角都是假扮夫妻,开展地下工作,《悬崖》我已发表文章,今天对《潜伏》发表一下自己的观点。孙红雷在剧中饰演余……第二代PixelStand无线充电支架曝光最高23W上周有消息称,Google计划为即将到来的Pixel6系列旗舰准备一款无线充电支架;现在有关于该支架的设计渲染图在网络上曝光,并透露了更多相关的信息。据悉,该无线充电支架提供了……任天堂欧版Switch主机的N64游戏将以60Hz运行任天堂已经确认,将加入SwitchOnline服务的欧洲N64游戏集将支持60Hz运行。当任天堂在上个月的直面会上宣布推出N64游戏时,在欧洲版中展示的是PAL50Hz制……realme即将推出搭载GoogleTV的智能电视棒realme正在积极拓展自己的产品生态,该品牌即将于下周推出一款运行GoogleTV的HDMI电视棒。它运行的是GoogleTV,而非AndroidTV。虽然这点听起来不太重要……东方盛虹研究报告炼化铸基石,新材料促腾飞(报告出品方作者:天风证券,张樨樨)1。斯尔邦注入,大炼化投产,盛虹形成完整产业矩阵1。1。高速扩张的石化龙头,炼化聚酯新能源、新材料矩阵形成东方盛虹(以下简称盛虹……研究员开发AI让无人机在未知环境中自主高速飞行苏黎世大学的研究人员开发了一种新的人工智能技术,使无人机能够在复杂和未知的环境中自主地高速飞行。这些无人机仅使用机载传感和计算就能完成其高速飞行。研究人员认为他们的方法可以让无……高速开着自动驾驶睡觉,撞锥桶仍行驶百米,车主不止一次了!全网同名,欢迎搜索关注上线以来已解答2000事故咨询交通有问题就找事故通在电影《速度与激情8》中有这样一个刺激的场景黑客利用高科技远程控制使……伊朗加入上合,美国人为何害怕?欧亚大陆若打通,美元霸权不保伊朗等了14年,就差最后签署文件,终于可以成为上合组织的第9个成员国了。伊朗这么积极地加入上合群聊,就是看中了上合可以对抗单极世界秩序,中俄伊形成一个贸易三角,可以说是美国人最……一些老用户对AppleWatchSeries7配色变化不满意随着AppleWatchSeries7的预购今天开始,一些顾客和学者在社交媒体上对苹果的新颜色选择表示不满。铝制AppleWatchSeries6有太空灰、银色、金色、蓝色和(……现金管理类产品整改倒计时,农银时时付终止约定还款服务【环球网财经讯】日前,农业银行发布公告,宣布农银时时付理财产品终止约定还款服务。据公告,为落实现金管理类理财产品有关要求,农业银行无法继续提供农银时时付理财产品和农银时时付私行……
宝宝走路姿态似奶醉,学步宜晚不宜早,最佳月份了解一下宝宝的成长发育有着自己的规律,一般来说他们在三四个月的时候会翻身,七八个月的时候会坐,九个月左右会爬,到了一岁之后,他们便开始蹒跚学步。刚刚学走路的宝宝,他们的走路姿势非……健康小贴士绿茶过期了还能喝吗看看专家怎么说来源:99健康网茶叶有着越陈越香的概念,但是并非是指茶叶放的越久越好,因为这有一个前提条件,那就是要在茶叶的保质期内。所以如果茶叶过期,就会导致茶叶丧失了营养价值以及饮用……北京八大处微循环路开通,建成步行街服务游客位于石景山区的八大处微循环路日前正式开通,为周边居民和游客提供了一条环境优美的步行通道。步行街配合已建成的机动车微循环路,将有效解决八大处公园周边长期存在的交通拥堵问题,提升市……颜值出众!realme真我GTNeo3官宣3月22日发布,杨手机作为现在年轻人生活的必需品已经是越来越重要了,那么手机的颜值和手机的性能也是越来越受到大家重视了,那么一款好的手机需要满足那些条件呢?首先是外观设计必须要满足大众审美颜值,……盘点那些神级翻唱周杰伦经典歌曲朱兴东榜上有名刘瑞琦:1993年出生于安徽的歌手刘瑞琦,因为翻唱周杰伦歌曲《明明就》而在全网爆红,又在《中国最强音》重进决赛凭借《夏天的风》获得非常高的评价。同样作为周杰伦的粉丝在在追逐自己……抓住元宇宙直播新风口,虚拟主播带货或成主流?抓住元宇宙直播新风口,虚拟主播带货或成主流?每逢大促,各大电商平台势必会上演一场流量较量,借这一黄金节点来进行品牌传播,最大限度地利用营销转化创造更多的效益。而今年……每天解读一本书登月第一人尼尔阿姆斯特朗的一生今天为大家解读的这本书叫《登月第一人》,副标题为尼尔阿姆斯特朗的一生。1969年7月16日,有超过100万美国人聚集在烈日炎炎的佛罗里达海滩,观看不远处肯尼迪航天中心的火箭发射……前恒大外援惨了罗比尼奥上诉失败入狱9年,仍有可能逍遥法外巴西著名球星罗比尼奥2013年效力意大利球会AC米兰期间,涉及一宗轮奸案,意大利最高法院周三(19日)维持原判,37岁的罗比尼奥终极上诉失败,被判入狱9年。可是由于巴西对……京东方烧光3000亿成第一,拿下iPhone15订单,为冬奥随着各大企业实力的增强,在很多领域方面都实现了很大的突破,京东方作为我国屏幕生产领域的佼佼者,它的出现结束了我国在该领域一片空白的尴尬局面,那如今的京东方又取得了怎样的成就呢?……字母哥缺阵米德尔顿34分,雄鹿胜国王雄鹿主场133127击败国王获得3连胜。扬尼斯阿德托孔博(右膝酸疼)、格雷森阿伦(左臀),国王德阿隆福克斯(左脚踝酸疼)缺阵,哈利伯顿复出。特伦斯戴维斯、巴恩斯、哈……苏炳添在美国发烧退赛,队友吴智强夺冠今天凌晨,苏炳添原计划与谢震业、吴智强一同参加在佛罗里达杰克逊维尔举行的JAC黄金东南经典赛,出战男子百米大战,但昨天21:10苏炳添发博表示因病退赛。2022年已经过半……手游行业的黄金期每个行业都有每个行业的黄金阶段,像我们的手游行业也不例外,今天就来跟大家说一下手游行业的春天,也就是我们行业的黄金阶段。手游行业的黄金期其实近在咫尺,就是我们过年这段时间,为什……
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网