教育房产时事环球科技商业
商业财经
热点动态
科技数码
软件应用
国际环球
晨报科学
新闻时事
信息智能
汽车房产
办公手机
教育体育
生活生物

数据挖掘的一般步骤(数据挖掘模型有哪些)

  数据挖掘介绍
  数据挖掘(Data Mining,DM):就是从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程;是利用各种分析工具在海量数据中发现模型和数据之间关系的过程。这些模型和关系可以被企业用来分析风险、进行预测。
  数据挖掘的目的就是从数据中"淘金",就是从数据中获取智能的过程,数据挖掘是提供了从数据到价值的解决方案。
  数据 工具 方法 目标 行动=价值。
  目前,数据挖掘已有一系列应用:分类分析:有监督学习,将数据映射到事先定义的群组或类。应用在将信用卡人分为低中高风险群等。回归分析:用属性的历史数据预测未来趋势,应用预测哪些用户在未来半年会流失等。聚类分析:无指导学习,在没有给定划分类的情况下,根据信息相似度进行信息聚类。应用在对客户行为分析,对客户分层进行精准营销。关联分析:发现事物间的关联规则或称相关程度,常用在交叉销售,交叉分析,著名的啤酒与尿布。时序模式:已知的数据预测未来的值,回归不强调数据间的先后顺序。偏差分析:来发现与正常情况不同的异常和变化,并进一步分析这种变化是有意的诈骗行为,还是正常的变化。常用在防欺诈,以及保险领域。
  以上这些应用涉及的技术和工具各不相同,然而却可以依据统一的方法论来实行,并可以协同作战,解决许多有价值的商业问题。数据挖掘建模的一般过程
  第一步,数据准备
  数据选择主要考虑的包括:哪些数据源可用?哪些数据与当前挖掘目标相关?如何保证取样数据的质量?是否在足够范围内有代表性?数据样本取多少合适?如何分类(训练集、验证集、测试集)?
  选择数据的标准,一是相关性,二是可靠性,三是最新性,而不是动用全部企业数据。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使想要反映的规律性更加突显出来。
  1)数据探索:数据清洗和构造
  前面所叙述的数据选择,多少是带着人们对如何达到数据挖掘目的的先验认识进行操作的。
  当我们拿到了一个样本数据集后,它是否达到我们原来设想的要求?其中有没有什么明显的规律和趋势?有没有出现从未设想过的数据状态?因素之间有什么相关性?它们可区分成怎样一些类别?这都是要首先探索的内容。
  对所抽取的样本数据进行探索、审核和必要的加工处理,是保证预测质量所必需的。可以说,预测的质量不会超过抽取样本的质量。
  数据探索主要包括:异常值分析、缺失值分析、相关分析、周期性分析、样本交叉验证等。
  2)数据预处理:整合和格式化
  当采样数据维度过大,如何进行降维处理?采样数据中的缺失值如何处理?这些都是数据预处理要解决的问题。
  由于采样数据中常常包含许多含有噪声、不完整、甚至是不一致的数据。显然对数据挖掘所涉及的数据对象必须进行预处理。那么,如何对数据进行预处理以改善数据质量,并最终达到完善最终的数据挖掘结果的目的呢?
  数据预处理主要包括以下内容:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约。第二步,模式发现
  样本抽取完成并经预处理后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则或者时序模式),选用哪种算法进行模型构建?
  模型构建的前提是在样本数据集中发现模式,比如:关联规则、分类预测、聚类分析、时序模式等。
  在目标进一步明确化的基础上,我们就可以按照问题的具体要求来重新审视已经采集的数据,看它是否适应挖掘目标的需要。第三步, 模型构建
  确定了本次建模所属的数据挖掘应用问题(分类、聚类、关联规则或者时序模式)后,还需考虑:具体应该采用什么算法,实施步骤是什么?
  这一步是数据挖掘工作的核心环节,模型构建是对采样数据轨迹的概括,它反映的是采样数据内部结构的一般特征,并与该采样数据的具体结构基本吻合。
  预测模型的构建通常包括模型建立、模型训练、模型验证和模型预测4个步骤,但根据不同的数据挖掘分类应用会有细微的变化。第四步, 模型评价
  模型评价的目的是什么?如何评价模型的效果?通过什么评价指标来衡量?
  模型效果评价通常分两步:
  第一步是:直接使用原来建立模型的样本数据来进行检验。
  假如这一步都通不过,那么所建立的决策支持信息价值就不太大了。一般来说,在这一步应得到较好的评价。这说明你确实从这批数据样本中挖掘出了符合实际的规律性。
  第一步通过后,第二步是:另外找一批数据,已知这些数据是反映客观实际的、规律性的。
  业务应用场景:网红销售额评估模型、客户ROI评估模型、网红品类推荐模型、网红报价建议模型、网红欺诈行为预警模型、网红流失预警模型等结论
  实践表明:由于人工智能发展的局限性,计算机在未来相当长的一段时期内不可能像人类这样会进行复杂的思考,它只会按照人的指令工作。
  但是,计算机拥有海量的数据存储能力和超强的计算能力,所以只要我们建立合适的业务模型,设计完善的执行程序,选择正确的分析算法,它一定可以更好地为我们服务。
  数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展。
  每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。尽管如此,数据挖掘技术仍然面临着许多问题和挑战:如数据挖掘方法的效率亟待提高,尤其是超大规模数据集中数据挖掘的效率;开发适应多数据类型、容噪的挖掘方法,以解决异质数据集的数据挖掘问题;动态数据和知识的数据挖掘;网络与分布式环境下的数据挖掘等。
  另外,近年来短视频,图片等多媒体数据库发展很快,面向多媒体数据库的挖掘技术今后将成为研究开发的热点。
  本文由 @无语凝咽 原创发布于人人都是产品经理。未经许可,禁止转载
  题图来自Unsplash,基于CC0协议

NEPI将投资4000万欧元在罗马尼亚购物城萨图新欧洲房地产投资公司(NEPI)是罗马尼亚市场上最大的商业房地产投资者和开发商之一,已宣布计划投资4000万欧元,开发一个新的零售综合体购物城萨图马雷(ShoppingCitySaCresa在波兰设立了办事处扩展其以租户为中心的全球服务全球最大的租赁房地产顾问公司Cresa宣布,今年秋季将在波兰华沙开设办事处,继续其充满活力的国际增长计划。彼得亚雷Kaszyski,20年的房地产行业的经验,将波兰的办公室。Cus中欧和东欧房地产市场的透明度显著提高2014年全球房地产透明度指数显示,中东欧国家排名明显提升。波兰升至第17位,排名高于西班牙挪威奥地利和意大利。世界上最透明的市场是英国,最少的是利比亚。自2012年以来,超过80伦敦仍然是世界上最昂贵的办公市场根据世邦魏理仕全球研究与咨询公司(CBREGlobalResearchAndConsulting)半年一次的全球主要办公成本调查,伦敦西区仍是全球价格最高的写字楼市场,但亚洲仍在全NorthMarq出售北达科塔州的五套房屋NorthmarqMultifamily的国家制造住房集团关闭了MinotNorthDakota的5个房地产组合的销售,以及增加经纪人JaredBosch的团队扩张。该投资组合包括HFF在路易斯维尔出售270套多户住宅HollidayFenoglioFowler,L。P。(HFF)已经完成了对赫斯特大型地产的出售。赫斯特大型地产位于肯塔基州路易斯维尔东端,拥有270套豪华花园风格的公寓。HFF代大急流城的写字楼市场在第三季度保持强劲密歇根的大急流有多受欢迎?今年早些时候,路透社(Reuters)根据2010年至2017年创造的新工作岗位数量,将这个城市列为全国前20名的超级明星地铁区之一。考虑到大急流的经济实亚马逊宣布一年后第二季度目标城市的房价是否发生了变化自从亚马逊宣布他们已经选择了新的第二季度城市已经过去一年了,一个亟待解决的问题仍然存在这个消息对华盛顿特区的房地产市场有什么明显的影响吗?根据CoreLogic公司副首席经济学家R芝加哥是2019年美国排名第一的绿色办公市场根据根据世邦魏理仕(CBRE)马斯特里赫特大学(MaastrichtUniversity)和圭尔夫大学(UniversityofGuelph)发布的2019年绿色建筑采用指数(Gr9月份棕榈滩的房屋销量上升房价也随之上涨根据迈阿密房地产经纪人协会(MiamiAssociationofRealtors)的数据,佛罗里达州棕榈滩县(PalmBeachCountyFlorida)的房屋销售总额中位数价格Skanska公司在中东欧市场推出了WELL认证Skanska有助于向中欧和东欧市场引入良好的建筑标准(油井),并实现全面可持续建筑的重大飞跃。这是一个突出的建筑标准,其重点是通过建设的环境增强人们的健康和福祉。Spark是首批
金莎为什么不红(金沙前男友)说起近两年最热火的综艺一定少不了乘风破浪的姐姐,姐姐们无论是歌坛还是影坛都想来这里寻找另一种可能性。有那英姐和宁静这样大姐成团的,自然也就有落选的小可怜,第二季中张柏芝的落选成了许重庆的职业学校有哪些(重庆市职校排名第一)截止到2020年重庆一共有42所高职院校,在校友会发布的2021年高职院校排行榜中,重庆电子工程职业学院位列全国高职院校类第2名,重庆工业职业技术学院位列全国第7位。重庆工业职业技百分比怎么算(百分比在线计算器)当你要求一个数据的百分之几是多少时,相信你的第一反应不是掏手机打开计算器就是拿出草纸列竖式吧。当你知道本秘笈后,可能多数情况下你都可以口算出相当精确的答案,让我们一起做一个神算来震2中在哪里(九中)有个问题一直困扰着小编。小编在南京呆了20多年没离开过,已经对一中三中五中九中十三中都非常熟悉,开口就是我有个朋友,他就是一中本部的哎,你说不定还认识!但是,二中四中八中十中这些双沃尔沃是哪里生产的(沃尔沃xc60在中国哪里生产)出口国外,可以说是中国汽车工业近20年来一直在不懈努力的目标。而在挺进海外的进程中,又可以分为两股势力其一是面向第三世界新兴市场的中低端车型们,主要以自主品牌为主,以性价比为竞争中手机定位在哪里(手机定位在哪个app里面)你知道吗新功能可以瞬间变成查岗神器,太实用了!衡东诗勤写于湘南千年水乡古镇大浦现在的网络技术是越来越先进,想到的和没有想到的,都会在程序员手里变成现实!最近,里又出了一个功能出行轨拼多多规则是什么(拼多多平台规则说明)一拼多多搜索规则权重构成1基础分销量或者类目排名2关键词得分a该词点击率(影响最近几小时排序),b该词转化率。二拼多多搜索规则关键词匹配四大逻辑1精准配比按词序顺序一致的优先匹配,欢乐谷是哪里的(欢乐谷属于哪个区)精力太充沛了,园区都逛了几圈了,还嫌我租的小电驴速度慢,自己下车跑。以为在乐园就是快餐解决午餐呢,想不到在乐园能吃到这么好吃的粤式早茶。11月22日,欢乐童行扬子晚报小记者亲子体验海星怎么吃(海星哪里不能吃图解)导语青岛海星泛滥,网友们排队约饭!大厨奉上6种海星的烹饪方法文章开头,小简先给大家讲一个海星的故事!相传在很久很久以前,有一个老人在海边看日落,远远望见一个小男孩在捡拾什么东西,走图腾是哪里(图腾领域)今日(1月5日),由光盒力量(北京)动漫科技有限公司出品的原创动画片图腾领域将在上海炫动卡通卫视黄金时段上映。这也是继北京卡酷少儿卫视湖南金鹰卡通卫视之后,图腾领域登陆的第三家全国马尼拉在哪里(马尼拉帕西格市如何)1马尼拉(外文名Manlia别名岷里拉)是菲律宾的首都也是最大的港口,它位于于菲律宾最大的岛屿吕宋岛马尼拉湾的东海岸,建立在巴石河的两岸。2面积达到638。55平方公里,人口数量超