返回目录:范文示例
今天小编给各位分享数据挖掘总结的知识,文中也会对其通过如何做好数据挖掘工作?和什么是数据挖掘?数据挖掘怎么做啊?等多篇文章进行知识讲解,如果文章内容对您有帮助,别忘了关注本站,现在进入正文!
内容导航:
一、如何做好数据挖掘工作?
一个完整的应用示例所需要经历的步骤项目背景和业务分析需求的提出
数据分析师参与需求讨论
针对需求收集相关的背景数据和指标,与业务方一起熟悉背景中的相关业务逻辑,并收集业务方对需求的相关建议、看法,这些信息对于需求的确认和思路的规划乃至后期的分析都是至关重要的。从数据分析的专业角度评价初步的业务分析需求是否合理,是否可行。制定需求分析框架和分析计划
分析需求转化成数据分析项目中目标变量的定义。分析思路的大致描述。分析样本的数据抽取规则。潜在分析变量(模型输入变量)的大致圈定和罗列。分析过程中的项目风险思考和主要的应对策略。项目的落地应用价值分析和展望。抽取样本数据、熟悉数据、数据清晰和摸底
按计划初步搭建挖掘模型
进一步筛选模型的输入变量。尝试不同的挖掘算法和分析方法,并比较不同方案的效果、效率和稳定性。整理核心变量。与业务方讨论模型的初步结论,提出新的思路和模型优化方案
按优化方案重新抽取样本并建模,提炼结论并验证模型
完成分析报告和落地应用建议
模型的预测效果和效率,以及在最新的实际数据中验证模型的结果,即模型的稳定性。通过模型整理出来的可以作为运营参考的重要自变量及相应的特征、规律。提出建议。制定具体的落地应用方案和评估方案
业务方事实落地饮用方案并跟踪、评估效果
落地应用方案在实际效果评估后,不断修正完善
不同运营方案的评估、总结和反馈
项目应用后的总结和反思
数据挖掘建模的优化和限度模型的优化和完善是有限度的。
数据挖掘模型的优化要遵循有效、适度的原则
如何有效地优化模型
从业务思路上优化:
有没有更加明显且直观的规则、指标可以代替复杂的建模?有没有一些明显的业务逻辑(业务假设)在前期的建模阶段被疏忽了呢?通过前期的初步建模和数据熟悉,是否有新的发现,甚至能颠覆之前的业务推测或业务直觉呢?目标变量的定义是否稳定?从建模的技术思路上优化:
针对细分群体分别建模也是建模过程中常用的、有效的模型优化思路和方法之一。
从建模的技术技巧上优化
如何思考优化的限度
时效性、投入产出比
模型效果评价的主要指标体系
评价模型准确度和精度的系列指标
正确率、错误率、灵敏性、特效性、精度、错正率、负元正确率、正元错误率
ROC
KS
LIFT
模型稳定性的评估:不同时间窗口的数据
数据挖掘实践的质量保障流程和制度一个有效的质量保障流程制度
业务需求的收集
明确责任人明确数据分析需求的两个来源需要给出需求文档评估小组评估需求的优先级
需求评估小组定期(或不定期)对于各业务线的接口数据分析师所提交的业务分析需求进行评估。了解背景、数据、业务逻辑。需求评估小组负责人负责。课题组的成立及前期摸底
向业务方提交课题(项目)计划书
数据分析挖掘的课题展开
向业务方提交结论报告及业务裸体应用建议
课题(项目)的落地应用和效果监控反馈
质量保障流程制度的非常重要
如何支持与强化质量保障流程制度
组织架构、项目管理、个人绩效考核
一、什么是数据挖掘?数据挖掘怎么做啊?
数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘的步骤会随不同领域的应用而有所变化,每一种数据挖掘技术也会有各自的特性和使用步骤,针对不同问题和需求所制定的数据挖掘过程也会存在差异。此外,数据的完整程度、专业人员支持的程度等都会对建立数据挖掘过程有所影响。这些因素造成了数据挖掘在各不同领域中的运用、规划,以及流程的差异性,即使同一产业,也会因为分析技术和专业知识的涉入程度不同而不同,因此对于数据挖掘过程的系统化、标准化就显得格外重要。如此一来,不仅可以较容易地跨领域应用,也可以结合不同的专业知识,发挥数据挖掘的真正精神。
想要了解更多关于数据挖掘的信息,推荐咨询CDA数据分析师。CDA数据分析师涉及行业包括互联网、金融、咨询、电信、零售、医疗、旅游等,涉及岗位包括大数据、数据分析、市场、产品、运营、咨询、投资、研发等。该标准符合当今全球数据科学技术潮流,可以为各行业企业和机构提供数据人才参照标准。。
二、数据挖掘的完整步骤是怎样的?
1、理解数据和数据的来源(understanding)。2、获取相关知识与技术(acquisition)。
3、整合与检查数据(integration and checking)。
4、去除错误或不一致的数据(data cleaning)。
5、建立模型和假设(model and hypothesis development)。
6、实际数据挖掘工作(data mining)。
7、测试和验证挖掘结果(testing and verification)。
8、解释和应用(interpretation and use)。
三、数据挖掘的基本步骤
1、建立数据挖掘库建立数据挖掘库包括以下几个步骤:数据收集,数据描述,选择,数据质量评估和数据清理,合并与整合,构建元数据,加载数据挖掘库,维护数据挖掘库。
2、分析数据
分析的目的是找到对预测输出影响最大的数据字段,和决定是否需要定义导出字段。如果数据集包含成百上千的字段,那么浏览分析这些数据将是一件非常耗时和累人的事情,这时需要选择一个具有好的界面和功能强大的工具软件来协助你完成这些事情。
3、准备数据
建立模型之前的最后一步数据准备工作。可以把此步骤分为四个部分:选择变量,选择记录,创建新变量,转换变量。
4、建立模型
建立模型是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对面对的商业问题最有用。先用一部分数据建立模型,然后再用剩下的数据来测试和验证这个得到的模型。有时还有第三个数据集,称为验证集,因为测试集可能受模型的特性的影响,这时需要一个独立的数据集来验证模型的准确性。
5、评价模型
模型建立好之后,必须评价得到的结果、解释模型的价值。从测试集中得到的准确率只对用于建立模型的数据有意义。在实际应用中,需要进一步了解错误的类型和由此带来的相关费用的多少。
关于数据挖掘总结的问题,通过《数据挖掘的完整步骤是怎样的?》、《数据挖掘的基本步骤》等文章的解答希望已经帮助到您了!如您想了解更多关于数据挖掘总结的相关信息,请到本站进行查找!