终于有人把数据挖掘讲明白了-158文章网

作者：158文章网日期：2022-12-29 09:21:50

返回目录：范文示例

今天小编给各位分享数据挖掘总结的知识，文中也会对其通过终于有人把数据挖掘讲明白了和什么是数据挖掘？等多篇文章进行知识讲解，如果文章内容对您有帮助，别忘了关注本站，现在进入正文！

内容导航：
终于有人把数据挖掘讲明白了

什么是数据挖掘？

数据挖掘具体要做什么？

数据挖掘与数据分析的区别是什么？

一、终于有人把数据挖掘讲明白了

导读：数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法，从数据中获取与挖掘项目相关的知识。

作者：赵仁乾田建中叶本华常国珍

来源：华章科技

数据挖掘是一个多学科交叉的产物，涉及统计学、数据库、机器学习、人工智能及模式识别等多种学科，如图1-4所示。

▲图1-4 数据挖掘

01 数据挖掘方法分类介绍

数据挖掘方法按照来源进行分类显得过于庞杂，而且不便于理解和记忆。按照其目的，将数据挖掘方法分为预测性和描述性两大类，如下所示。

目的：预测性定义：有监督学习，分类模型，用一个或多个自变量预测因变量的值　举例：客户是否会违约是一个因变量，可以根据客户的性别、年龄、收入、职位、经济状况、历史信用状况等因素进行预测主要算法：决策树、线性回归、逻辑回归、支持向量机、神经网络、判别分析等目的：描述性定义：无监督学习，分析具有多个属性的数据集，找出潜在的模式，没有因变量举例：观察个体之间的相似程度，如根据年龄、性别、收入等因素进行客户细分。根据客户对多个产品的购买情况发现产品之间的相关性主要算法：聚类、关联分析、因子分析、主成分分析、社交网络分析等

1. 预测性——有监督学习

预测性分析指的是用一个或多个自变量预测因变量的值，以历史数据为训练集，从中学习并建立模型，然后将此模型运用到当前数据上，推测结果。以客户违约作为预测性分析的研究场景，客户是否会违约是一个因变量，我们可以根据客户的性别、年龄、收入、职位、经济状况、历史信用状况等进行预测。

根据SAS工程师总结的商业案例，分类模型可分为三大类。

决策类，如银行卡欺诈检测、人体生物特征识别。等级评定类，如客户信用评分。估计类，如违约损失准备金估计、收入预测等。

有些数据挖掘算法在某类应用上表现得更好，如最近邻域法、支持向量机在决策类应用上表现良好，但是在解决排序类和估计类问题时表现一般。而有些数据挖掘算法的表现比较稳定，如决策树和逻辑回归对三类问题都适用，但是在决策类问题上没有在后两类问题上表现好。

2. 描述性——无监督学习

描述性分析指的是分析具有多个属性的数据集，找出潜在的模式并进行分类。描述性分析是一种无监督的学习过程。区别于有监督的学习，无监督学习算法没有参照指标，需要结合业务经验来判断数据分类是否正确。无监督学习比较耗时，而且对建模人员的业务素质要求较高。

描述性分析主要应用于以下两种场景：第一种是观察个体之间的相似程度，如根据年龄、性别、收入等进行客户细分；第二种是根据客户购买的多个产品发现产品之间的相关性，主要算法包括样本聚类、关联规则等。

02 数据挖掘方法论

下面讲解最为常用的CRISP-DM方法论和SEMMA方法论。

1. CRISP-DM方法论

CRISP-DM方法论由NCR、Clementine、OHRA和Daimler-Benz的数据挖掘项目总结而来，并被SPSS公司大力推广。CRISP-DM方法论将数据挖掘项目的生命周期分为6个阶段，分别是商业理解、数据理解、数据准备、建模、评估和准备工作，如图1-16所示。

▲图1-16 CRISP-DM方法论

在实际项目进行过程中，由于使用者的目标背景和兴趣不同，有可能打乱各阶段顺承的关系。

图1-16呈现了CRISP-DM方法执行流程的6个阶段。各个阶段的顺序不是保持不变的，有时需要在某个阶段向前或向后移动，这取决于每个阶段的结果和下一个阶段的具体任务。箭头指出了各个阶段之间的关联。

在图1-16中，最外圈的循环表示数据挖掘本身的循环特征。数据挖掘是一项持续的工作。在上一个流程和解决方案中获得的经验与教训，可以给下一个项目提供指导。下面简要介绍每个阶段的特点。

1）商业理解

该阶段的特点是从商业角度理解项目的目标和要求，通过理论分析找出数据挖掘可操作问题，制订实现目标的初步计划。

2）数据理解

该阶段开始于原始数据的收集，然后是熟悉数据、标明数据质量问题、探索对数据的初步理解、发掘有趣的子集，以形成对探索关系的假设。

3）数据准备

该阶段包括所有从原始的、未加工的数据构造数据挖掘所需信息的活动。数据准备任务可能被实施多次，而且没有任何规定的顺序。这些任务的主要目的是从源系统根据维度分析的要求，获取所需要的信息，同时对数据进行转换和清洗。

4）建模

该阶段主要是选择和应用各种建模技术，同时对参数进行校准，以达到最优值。通常，同一类数据挖掘问题会有多种建模技术。一些技术对数据格式有特殊的要求，因此常常需要返回到数据准备阶段。

5）评估

在模型最后发布前，根据商业目标评估模型和检查模型建立的各个步骤。此阶段的关键目的是，确认重要的商业问题都得到充分考虑。

6）准备工作

模型完成后，由模型使用者（客户）根据当时的背景和目标完成情况，决定如何在现场使用模型。

2. SEMMA方法论

除了CRISP-DM方法论，SAS公司还提出了SEMMA方法论。其与CRISP-DM方法论内容十分相似，流程为定义业务问题、环境评估、数据准备、循环往复的挖掘过程、上线发布、检视。其中循环往复的挖掘过程包含探索、修改、建模、评估和抽样5个步骤，如图1-17所示。

▲图1-17 SEMMA方法论

1）抽样

该步骤涉及数据采集、数据合并与抽样操作，目的是构造分析时用到的数据。分析人员将根据维度分析获得的结果作为分析的依据，将散落在公司内部与外部的数据进行整合。

2）探索

这个步骤有两个任务，第一个是对数据质量的探索。

变量质量方面涉及错误值（年龄=-30）、不恰当（客户的某些业务指标为缺失值，实际上是没有这个业务，值应该为“0”）、缺失值（没有客户的收入信息）、不一致（收入单位为人民币，而支出单位为美元）、不平稳（某些数据的均值变化过于剧烈）、重复（相同的交易被记录两次）和不及时（银行客户的财务数据更新滞后）等。

探索步骤主要解决错误的变量是否可以修改、是否可以使用的问题。比如，缺失值很多，平稳性、及时性很差的变量不能用于后续的数据分析，而缺失值较少的变量需要进行缺失值填补。

第二个是对变量分布形态的探索。

对变量分布形态的探索主要是对变量偏态和极端值进行探索。由于后续的统计分析大多是使用参数统计方法，这要求连续变量最好是对称分布的，这就需要我们了解每个连续变量的分布情况，并制定好变量修改的方案。

3）修改

根据变量探索的结论，对数据质量问题和分布问题涉及的变量分别做修改。数据质量问题涉及的修改包括错误编码改正、缺失值填补、单位统一等操作。变量分布问题涉及的修改包括函数转换和标准化，具体的修改方法需要与后续的统计建模方法相结合。

4）建模

根据分析的目的选取合适的模型，这部分内容在1.3节已经做了详细的阐述，这里不再赘述。

5）评估

这里指模型的样本内验证，即使用历史数据对模型表现的优劣进行评估。比如，对有监督学习使用ROC曲线和提升度等技术指标评估模型的预测能力。

03 数据挖掘建模框架的3个原则

笔者提出了数据挖掘建模框架的3个原则，即以成本-收益分析为单一分析框架、以分析主体和客体为视角构建全模型生命周期工作模板，将纷繁多样的数据挖掘应用主题归纳为3大分析范式和9大工作模板，如图1-18所示。

▲图1-18 3大分析范式和9大工作模板

1. 以成本-收益分析为单一分析框架

世上万事万物都具有矛盾的两面性，金融数据挖掘建模力图通过数据反映行为背后的规律，紧抓主要矛盾就是找寻规律的捷径。大家都知道，挖掘有效的入模特征是数据建模的难点。一旦我们了解了分析课题的主要矛盾，这个难点就迎刃而解了。下面讲解如何使用这个框架进行分析。

首先举3个例子。

信用评分模型中，是否逾期是被预测变量，而解释变量中经常出现的收入稳定性、职业稳定性、家庭稳定性、个人社会资本都是在度量客户违约成本。信用历史既是被解释变量的滞后项，也能反映违约成本。收益会用贷存比、贷收比、首付占比等指标来衡量。申请欺诈模型的标签往往是客观存在的。入模特征以反映异常为主，比如异常高的收入、异常高的学历、异常密集的关系网络等。这背后隐藏着统一的成本-收益分析框架。之所以会显示异常，是因为造假是有成本的，信用卡申请欺诈者知道收入证明造假可以获得更高的信用额度，但是由于其居住地、职业和学历没有造假，因此按照这三个维度对其收入进行标准化之后很容易发现其收入异常。这可以说是公开的秘密，因为信用卡发放公司会根据造假成本对非可靠申请者进行授信，使得欺诈者无利可图。运营优化模型比如资产组合的持仓问题，其收益是资产的收益率，而成本是该资产市场价格的波动率。建模人员需要选择收益-成本最优的组合。

2. 以分析主体和客体为视角

在数据挖掘建模中，定义标签是主体视角。比如营销预测模型中客户是否响应，是建模人员自己定的规则，这个规则有可能是收到营销短信后三天内注册账号并产生订单。

在构建入模的特征集时需要采用客体视角，比如手机银行的营销响应模型中，入模的特征应该反映客体的成本-收益的变量，比如年龄反映的是使用手机银行和去实体渠道的成本。

当建模人员意识到标签是自己主观臆断的时候，便会对该标签的选择更用心；当意识到入模的特征来自客体时，才会从客体的视角出发更高效地构建特征集。

3. 构建全模型生命周期工作模板

我们在CRIP-DM和SEMMA的基础上提出“高质量数据挖掘模型开发七步法”，如图1-19所示。

前三步是蓄势阶段，更多的是从业务人员、数据中吸收经验并形成感知。制作特征、变量处理和建立模型阶段是丰富特征、寻找有效模型的阶段，需要通过各种手段探查到最有效的特征和精度最高的模型。最后是模型输出阶段，选出的模型不但精度高，还要稳定性强。

▲图1-19 业务人员的业务表述

关于作者：赵仁乾，现就职于某知名500强外资企业的创新实验室，从事数据治理、数据平台开发、AI应用等工作，研究方向包括数字化运营、知识图谱等。
田建中，现就职于某大型商业银行大数据管理部，对数据挖掘在营销中的应用有深入研究。
叶本华，现某咨询公司大数据总监，主要从事企业级数据治理、数据仓库（大数据平台）建设、数据中台以及数据智能应用场景和模型设计相关工作。
常国珍，曾任毕马威咨询大数据总监，拥有近20年数据挖掘、精益数据治理、数字化运营咨询经验，是金融信用风险、反欺诈和反洗钱算法领域的专家。

本文摘编自《金融商业算法建模：基于Python和SAS》，经出版方授权发布。（ISBN：9787111692775）

《金融商业算法建模：基于Python和SAS》

推荐语：4位资深金融数据专家，面向金融业务经营全流程，针对3大主题9大模板，涵盖金融数据建模全闭环。

一、什么是数据挖掘？

简单地说，数据挖掘是从大量数据中提取或‘挖掘’知识。该术语实际上有点用词不当。数据挖掘应当更正确地命名为‘从数据中挖掘知识’，不幸的是它有点长。许多人把数据挖掘视为另一个常用的术语‘数据库中知识发现’或KDD的同义词。而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。

数据挖掘是一个用数据发现问题、解决问题的学科。
通常通过对数据的探索、处理、分析或建模实现。
我们可以看到数据挖掘具有以下几个特点：
基于大量数据：并非说小数据量上就不可以进行挖掘，实际上大多数数据挖掘的算法都可以在小数据量上运行并得到结果。但是，一方面过小的数据量完全可以通过人工分析来总结规律，另一方面来说，小数据量常常无法反映出真实世界中的普遍特性。
非平凡性：所谓非平凡，指的是挖掘出来的知识应该是不简单的，绝不能是类似某著名体育评论员所说的“经过我的计算，我发现了一个有趣的现象，到本场比赛结束为止，这届世界杯的进球数和失球数是一样的。非常的巧合！”那种知识。这点看起来勿庸赘言，但是很多不懂业务知识的数据挖掘新手却常常犯这种错误。
隐含性：数据挖掘是要发现深藏在数据内部的知识，而不是那些直接浮现在数据表面的信息。常用的BI工具，例如报表和OLAP，完全可以让用户找出这些信息。
新奇性：挖掘出来的知识应该是以前未知的，否则只不过是验证了业务专家的经验而已。只有全新的知识，才可以帮助企业获得进一步的洞察力。
价值性：挖掘的结果必须能给企业带来直接的或间接的效益。有人说数据挖掘只是“屠龙之技”，看起来神乎其神，却什么用处也没有。这只是一种误解，不可否认的是在一些数据挖掘项目中，或者因为缺乏明确的业务目标，或者因为数据质量的不足，或者因为人们对改变业务流程的抵制，或者因为挖掘人员的经验不足，都会导致效果不佳甚至完全没有效果。但大量的成功案例也在证明，数据挖掘的确可以变成提升效益的利器。

想了解更多关于数据挖掘的信息，推荐到CDA数据认证中心看看，CDA（Certified Data Analyst），即“CDA 数据分析师”，是在数字经济大背景和人工智能时代趋势下，面向全行业的专业权威国际资格认证，旨在提升全民数字技能，助力企业数字化转型，推动行业数字化发展。

二、数据挖掘具体要做什么？

数据挖掘的用处有很多，在这里我只想从技术和应用两个层面来简单谈谈。

1、从技术层面来说，按照数据挖掘产出的知识可以粗分为两大类：描述型挖掘和预测型挖掘。

描述型挖掘是对现有数据的进一步精炼和归纳，从中抽取中更宏观的反映数据特征的概念描述。举个例子来说，某家银行有几百万客户，数据仓库中存储了每个客户的人口统计信息、账户信息、交易信息、客服联络信息等详细数据。但是银行不可能清楚地了解每位客户是什么样的客户，客户的消费模式到底是怎样的？这时一般需要把全体客户进行细分，划分为几个客户群，而且这种划分可以保证具有相似行为、相似价值的客户会被放入同一个群组中。有了这些客户群，银行就能更容易地发现营销机会并制定营销战略。这个例子中所用的挖掘技术是聚类模型，它就是一种典型的描述型挖掘。

预测型挖掘，顾名思义，就是建立的挖掘模型具备预测能力。这种预测能力可能包括预测哪些客户下个月会流失，哪些客户对促销活动会积极响应，哪些客户的未来价值会成长以及成长多少等等。预测型挖掘常常对企业运营具有更强的指导作用，从而更快地见效。

2、从应用层面来说，数据挖掘可以应用到很多行业中，包括电信、银行、证券、保险、制造、因特网等等。

抛开具体行业的特定应用不谈，在各个行业中一般都会把数据挖掘应用在客户关系管理（CRM）之中。在CRM中的数据挖掘应用，包括客户细分、客户价值分析、客户获取、客户保持、交叉销售和提升销售等等。此外，信用评分、欺诈侦测和文本挖掘等也是常见的应用。

三、数据挖掘与数据分析的区别是什么？

1.数据挖掘
数据挖掘是指从大量的数据中，通过统计学、人工智能、机器学习等方法，挖掘出未知的、且有价值的信息和知识的过程。数据挖掘主要侧重解决四类问题：分类、聚类、关联和预测，就是定量、定性，数据挖掘的重点在寻找未知的模式与规律。输出模型或规则，并且可相应得到模型得分或标签，模型得分如流失概率值、总和得分、相似度、预测值等，标签如高中低价值用户、流失与非流失、信用优良中差等。主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘。综合起来，数据分析（狭义）与数据挖掘的本质都是一样的，都是从数据里面发现关于业务的知识（有价值的信息），从而帮助业务运营、改进产品以及帮助企业做更好的决策，所以数据分析（狭义）与数据挖掘构成广义的数据分析。这些内容与数据分析都是不一样的。
2.数据分析
其实我们可以这样说，数据分析是对数据的一种操作手段，或者算法。目标是针对先验的约束，对数据进行整理、筛选、加工，由此得到信息。数据挖掘，是对数据分析手段后的信息，进行价值化的分析。而数据分析和数据挖掘，又是甚至是递归的。就是数据分析的结果是信息，这些信息作为数据，由数据去挖掘。而数据挖掘，又使用了数据分析的手段，周而复始。由此可见，数据分析与数据挖掘的区别还是很明显的。
而两者的具体区别在于：
（其实数据分析的范围广，包含了数据挖掘，在这里区别主要是指统计分析）
数据量上：数据分析的数据量可能并不大，而数据挖掘的数据量极大。
约束上：数据分析是从一个假设出发，需要自行建立方程或模型来与假设吻合，而数据挖掘不需要假设，可以自动建立方程。
对象上：数据分析往往是针对数字化的数据，而数据挖掘能够采用不同类型的数据，比如声音，文本等。
结果上：数据分析对结果进行解释，呈现出有效信息，数据挖掘的结果不容易解释，对信息进行价值评估，着眼于预测未来，并提出决策性建议。
数据分析是把数据变成信息的工具，数据挖掘是把信息变成认知的工具，如果我们想要从数据中提取一定的规律（即认知）往往需要数据分析和数据挖掘结合使用。
举个例子说明：你揣着50元去菜市场买菜，对于琳琅满目的鸡鸭鱼猪肉以及各类蔬菜，想荤素搭配，你逐一询问价格，不断进行统计分析，能各自买到多少肉，多少菜，大概能吃多久，心里得出一组信息，这就是数据分析。而关系到你做出选择的时候就需要对这些信息进行价值评估，根据自己的偏好，营养价值，科学的搭配，用餐时间计划，最有性价比的组合等等，对这些信息进行价值化分析，最终确定一个购买方案，这就是数据挖掘。
数据分析与数据挖掘的结合最终才能落地，将数据的有用性发挥到极致。

关于数据挖掘总结的问题，通过《数据挖掘具体要做什么？》、《数据挖掘与数据分析的区别是什么？》等文章的解答希望已经帮助到您了！如您想了解更多关于数据挖掘总结的相关信息，请到本站进行查找！

本文标签：数据挖掘总结(2)