3大数据分析板块，6个数据分析模型，快速搞懂数据分析流程

商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

3大数据分析板块，6个数据分析模型，快速搞懂数据分析流程

8月8日火云谷投稿

　　本文则针对性地讲讲数据分析整个流程最关键的阶段：数据处理与分析阶段。该阶段我分成了三块：数据采集、数据处理、数据分析。
　　因为数据采集、处理、分析都围绕着数据进行，对海量或杂乱数据进行处理分析，从中找出痛点，洞察问题。数据采集
　　该处的数据采集指的是获取分析所需要的数据，一般可以从内部数据、外部数据两个方向获取。
　　1。内部数据直接获取
　　直接获取的前提是，公司进行了数据仓库的建设，已为决策分析提供了所有类型数据支持。该部分内容在之前的文章中也提到过，但是在这里更加细化的做了点补充。
　　直接获取就是指数据库中有现成的表可以直接获取到所需的数据，不需要分析师再在sql上做复杂的处理。
　　公司一般会将数据分为ods、dwd、dwbdws层数据。ods层：明细数据。数仓不做任何数据处理，直接原封不动的将数据同步到该库上。为dw层的数据加工作准备。
　　dwd层：明细数据。该层数据已在ods层上对数据做了清洗操作，比如去除空值、脏数据等。
　　dwbdws层：聚合数据。主要对odsdwd层的数据做些轻度汇总，会涉及较多业务指标数据。如根据odsdwd层的明细数据计算出七日复购率、周同期对比数据、毛利率等指标供分析师直接查询使用。
　　一般情况下，分析可以直接从dwbdws层调取现成的指标数据进行分析，特殊情况下也可以从dwd层写复杂sql的方式计算成所需的数据。重新落表获取
　　前提是dwbdws层没有现成的数据可以直接获取，哪怕自己写代码可以从dwd层获取，也需要写很复杂的代码。此时，请数仓协助落成聚合表再去调取数据。
　　重新落表一般会涉及人力资源的协调，需求的沟通。分析师担当业务方和数仓之间的桥梁，将业务方的需求理清楚之后，自身又作为数仓的需求方对数仓提需求。
　　2。外部数据
　　当分析的内容内部数据无法满足时，或者不够全面时，此时需要借助于外部数据来辅助分析。行业报告数据
　　比如艾瑞网、极光大数据、阿里研究所、199IT互联网数据中心等都会时不时的发一些行业分析报告。整个行业的数据公司内部是无法获取的，所以可以从一些行业分析报告入手。问卷采集
　　比如我们需要获取用户的一些主观想法：喜欢我们产品的原因是？我们产品最吸引您的点是？您觉得我们产品最应该改进的点是？对竞品的行为：您在xx场景下更愿意使用A产品、B产品还是C产品用户习惯的场景：您在什么场景下更愿意使用xx产品？等
　　通过问卷数据获取一些产品中无法获得的数据，辅助分析。宏观数据
　　有时候我们分析的某个指标有时候也会受到宏观政策的影响，比如宏观上某项指标上调了xx，对我们的业务会产生怎样的影响。数据处理
　　对分析师而言，这步需要分析师将数据根据脑中的分析框架处理成所需要的数据。
　　1。处理内容
　　会涉及数据异常值处理、缺失值处理、数据转换、数据聚合、数据分组归类以及数据准确性的校验，为下一步的数据分析奠定好基础。
　　井井有条的数据更有利于分析：剔除无效数据，比如异常值、缺失值、重复值等。考虑清楚数据聚合的维度，比如时间上、地域上、用户上、商品上等按照什么维度聚合。做好数据聚合的处理，比如需要借助开窗函数，是否需要去重计数，是否需要累积计数等；
　　2。数据验证
　　数据采集到之后，还要做好数据验证，目的是确保数据准确性，切忌拿到数据立马动手分析。
　　从验证人员来看：自身多方验证。初始先自身验证一番，与现有报表中已有数据进行对比，观察是否一致。与需求方协同验证。数据调取之后先出一份数据表，提供给需求方共同验证。不过分析师接了需求，保证数据准确性是基本要素，一般情况下需求方并不会协同验证。前提是，无现有数据可供对比查验，可将数据先提供给需求方过一眼，确保数据准确无误。
　　从验证方式来看：定性验证通过经验或逻辑推理，主观判断该数据是否符合经验或正常逻辑，比如你取到的某个商品的gmv比整个品类的gmv还要大，就不符合正常逻辑，肯定有误。定量验证依据统计方式，计算出具体的指标，多方交叉验证。数据分析
　　数据分析方法很多，网上有很多资料，这里就讲一下其中比较常用的几种分析方法。
　　1。漏斗分析
　　漏斗分析是数据分析中比较常见的分析模型。采取漏斗的方式直观的表示业务从起点到终点的各个环节的转化情况，以便找出有问题的环节，针对性的优化。
　　如下图，展示了用户支付场景的转化率：用户从打开app到完成支付的过程。分为进入首页进入商详页加入购物车提交订单支付完成，直观分析每个重要环节的转化率。以最直观最简单的方式反映出每个关键环节的转化率，洞察主要问题所在。
　　2。RFM模型
　　RFM模型主要用来衡量用户价值，做用户分群，比如区分出低价值用户、高价值用户、忠诚用户等用户群体。
　　R：用户最近一次消费距今时间（Recency）
　　F：用户在最近时间段内的消费频次（Frequency）
　　M：用户在最近时间段内的消费金额（Monetary）
　　这里用一个比较简单的例子讲下：
　　先对R、F、M三个值进行分层并赋予权重（以下数据纯属虚构，分层时根据实际情况）。
　　比如用户最近一次消费距今时间7天以下的打为5分，814天的打为4分。。。。。。以此类推。分数高的表示价值性比较高，分数低的表示价值性比较低。
　　然后调取出每个用户R、F、M值，填入按照均值处理前列中。
　　比如下图中，用户111113最近一次消费距今时间在7天以下，则R为5，在最近时间段内的消费频次在610之间，则F为2，在最近时间段内的消费金额在10012000之间，则M为2。
　　再将每个用户的R、F、M值与均值对比，大于均值填充1，小于均值填充0，填充于按照均值处理后列中。
　　最后将按照均值处理后的数据参照下图模型表（下图不是计算出来的，是比较常用的标准），匹配出用户类型。
　　给用户匹配之后的用户价值类型如下
　　3。波士顿矩阵
　　波士顿矩阵不少人在大学期间学过，工作中也是比较实用的。可通过波士顿矩阵分析公司的产品结构，发现痛点，为是否需要及时调整战略目标，以及判断产品的资源分配是否合理提供了数据支持。
　　波士顿矩阵有以下4种结构类型：明星产品：成长期。该产品在市场上占有比较大的份额，且处于高速增长阶段。未来发展为金牛产品的可能性比较大。此时抓住机会扩大投资，提升竞争优势。如图中的蜜桔、香蕉、苹果。金牛产品：成熟期。产品已较为成熟，增长前景有限。稳定发展，尽量维持好当前市场份额。如图中的西瓜、樱桃。问题产品：导入期。高速增长却市场份额并不高。说明此产品虽然高速增长，但并未及时开拓市场，营销存在问题。如图中的猕猴桃、荔枝。瘦狗产品：衰退期。既市场份额不高，又增速缓慢，基本可以淘汰，将此资源转而投资给其他更有利的产品。如图中的草莓、杨桃、哈密瓜。
　　4。帕累托分析
　　帕累托分析就是二八法则。
　　二八法则认为80的财富掌握在20的人手里，应用到业务中就是，80的营收在20的产品里，同理，我们应该花80的时间内在这20的产品上。也就是说，宝贵的时间与资源应该用在刀刃上。
　　如下图：展示了每个品类的销售额，通过销售额计算出销售额累积值，进而算出累积百分比。
　　再通过销售额和累积百分比画出帕累托图，如下。
　　共15种品类，其中7个品类贡献了80的销售额，占比46。67，也就是说46。67的商品为公司带来了80的销售额，并不符合二八定律，该公司并没有强势产品。
　　5。AARRR模型
　　AARRR模型是探索用户增长的模型。分别对应用户生命周期的5个环节：用户获取、用户激活、用户留存、用户变现、推荐传播。
　　6。关联规则分析
　　关联规则分析其实就是购物篮分析，就是通过挖掘用户的消费行为数据，探索用户的消费习惯，从而合理搭配商品，提升收益。
　　举个简单的例子，近30天共产生了10笔订单（方便计算只虚构了10笔），1代表订单中包含该商品，0代表订单中未包含商品，比如111112订单，用户没有买苹果，但买了香蕉（是否买了其他商品不考虑）。
　　其中购买了苹果的订单有6笔，购买了香蕉的有5笔，同时购买了苹果和香蕉的有3笔。
　　则：
　　苹果和香蕉组合的支持度
　　同时购买了苹果和香蕉的订单数总订单数100
　　310100
　　30
　　含义：同时购买苹果和香蕉的概率有多大
　　苹果对香蕉的置信度
　　同时购买了苹果和香蕉的订单数购买了苹果的订单数100
　　36100
　　50
　　含义：购买了苹果的用户有多大概率会再买香蕉
　　苹果对香蕉的提升度
　　苹果对香蕉的置信度购买香蕉的概率
　　50（510）
　　1
　　含义：购买苹果对购买香蕉会产生正向影响还是负向影响还是无影响
　　此案例中计算的提升度是1，表示购买苹果并不会对购买香蕉产生任何影响。
　　详细解释下：
　　若提升度1：表示购买苹果并不会对购买香蕉产生任何影响，因为在购买了苹果的条件下去买香蕉的概率和直接买香蕉的概率是一样的；
　　若提升度1：表示购买苹果对购买香蕉产生了正向影响，即购买苹果很大可能也会买香蕉，因为在购买了苹果的条件下去买香蕉的概率大于直接买香蕉的概率；
　　若提升度1：表示购买苹果对购买香蕉产生了负向影响，即购买苹果很大可能就不会买香蕉，因为在购买了苹果的条件下去买香蕉的概率小于直接买香蕉的概率；
　　这就是关联规则分析，一般用以研究探索商品捆绑销售，比如苹果是否需要和香蕉在一起捆绑销售，捆绑销售收益是否会更大。
　　转载溜溜笔记说数据分析图谱分享

投诉评论转载

60岁阿姨倾述跟老伴儿分房睡以后，日子一天比一天难熬文没有情商的雨图网络都说人的年纪大了，无论是性情还是生活习惯，都会有所改变。是的，这话一点也不假。年纪大了，只图拥有安逸的生活，每天能开心舒服地过，不再有新的……范巴斯滕痛批内马尔他就是一个爱哭鬼在今天凌晨进行的法甲第10轮比赛中，巴黎以00的比分闷平了兰斯，范巴斯滕在作为ZiggoSports嘉宾解说这场比赛时，狠狠抨击了内马尔挑衅对手的行为。当比赛进入尾声阶段……新赛季谁有可能拔得头筹第一个下课？不是纳什，哈姆新赛季76人三连败开局，让人大跌眼镜。照理说新赛季76人阵容比上赛季只强不弱。输给凯尔特人和雄鹿就算了，今天马刺居然也敢输，要知道马刺是摆烂奔着文班尼亚去的，76人这波操作是有……3大数据分析板块，6个数据分析模型，快速搞懂数据分析流程本文则针对性地讲讲数据分析整个流程最关键的阶段：数据处理与分析阶段。该阶段我分成了三块：数据采集、数据处理、数据分析。因为数据采集、处理、分析都围绕着数据进行，对海量或杂……秋天不养，一年白忙，牢记吃3样做2事，补营养身体棒近来气候变化很快，白天艳阳高照，但阴凉处风吹在身上也有丝丝凉意。空气中的水分开始减少，秋燥的感觉愈发明显。这也正是考验大家身体素质的时候。老话说秋天不养，一年白忙。秋天作……MexM50评测超高性价比千元机旗舰机Mex凭借着高颜值的设计以及实惠的价格，得到了很多用户的喜爱，Mex为我们带来了全新的M系列新品MexM50手机。轻薄时尚机身、40W快充、4800万像素影像系统，这些亮……你不去试一试，你怎样知道有人问我，你怎样找到工作的，你怎样申请学校的，你怎样拿奖学金，怎样交朋友，怎样爱人。这么多问题，我无法一一回答。或许我也和你一样，只是一个在人生旅途的行者。但是有一点，我不会去……人民币在俄罗斯市场的交易量快速增长据俄媒9月28日报道，俄罗斯市场主要货币汇率回落到两三个月前的水平，与此同时，只有使用人民币的业务获得增长。莫斯科交易所正在推出新的货币市场工具来管理人民币流动性。正如市场参与……每日涨停分析（2022年10月28日）10月28日涨停分析大盘全天低开低走，创业板指领跌，沪指再创阶段调整新低。盘面上，信创概念股相对活跃，雄帝科技20CM涨停，格尔软件、美利云、直真科技涨停。下跌方面，赛道……10。27猛龙119109哈登76人两队首发、76人：哈登、马克西、哈里斯、塔克、恩比德猛龙：范弗里特、特伦特、阿努诺比、巴恩斯、西亚卡姆10月27日NBA常规赛，76人客场挑战猛龙，76人本赛……国家破产殃及池鱼！斯里兰卡足球联赛停摆，但板球联赛仍在开高薪南亚岛国斯里兰卡的人们现在正陷于一片水深火热之中，由于统治者长期入不敷出、以债养债的财政政策，导致该国外汇储备告罄，国家于日前宣布破产，燃料、电力等基本物资断供，搞得老百姓就连……安乐死，从清醒到生命结束，用了四分钟的时间我们总说生活中有很多美好的东西，大家一定要牢牢珍惜，就像那句话轻寒细雨情何限，不道春难管，为君沉醉又何妨。很多人面对疾病时，出于对生命的热爱，有的人会选择积极与命运抗争，但有的……

<<<<<<－>>>>>>

未来10年最赚钱的6个行业自律的人都在做这30件小事扔掉阔腿裤吧？今春都在穿贵妇裤，高级优雅，看着就气质游泳世锦赛女子1米板决赛赛况国产数据库雄起！腾讯TDSQL打破纪录，全球第1，阿里第2 95后新疆姑娘毕业留津开了间杂货铺热酱温酒炙肉两千年前的淄博烤炉长这样昨天被几千人骂丑。。我之前确实不自信爱折腾保养中国制造的Ebike火遍全球，但为何国内没热起来？尘埃落定，徐根宝上任足协掌门？正式回应，亮相新岗位，男足有福 4年亏近100亿，知名造车新势力卷入销量造假风波知名投资人卡尔伊坎炮轰Illumina市值大跌的情况下公司C

不长大该多好明星真实素颜曝光关晓彤黑眼圈重，华晨宇满脸痘印！输给范丞丞懂代码对学习SEO的重要性，你知道吗无证驾驶撞人后怎么处罚热传聚热点网过年送叔叔茶叶合适吗过节送叔叔茶叶可以吗百日咳疫苗反应有哪些禅机四首其四金钲一击腿里的寒气如何排出她只是不想输拍摄地她只是不想输拍摄地在哪里电脑USB接口不够用怎么解决越多越好造句用越多越好造句大全能说说八九十年代火车挤到什么程度吗？

友情链接：中准网聚热点快百科快传网快生活快软网快好知文好找宜春榆林滕州锦州襄阳晋中泰州云南贵港许昌娄底河南乐清寿光阜阳汉中湖北漳州海口陕西延吉东营河源海南