数据挖掘分类技术在财务管理中的应用 数据挖掘分类技术在财务管理中的应用 一、数据挖掘及分类技术的含义 数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。 这些规则包含了数据库中一组对象之间的特定关系,揭示出一些有用的信息,可以为经营决策、市场策划和金融预测等方面提供依据。而数据分类是基于数据挖掘的一种有监督的分类学习方法,其目的是从一组已知类别的数据中发现分类模型,以预测新数据的未知类别。 二、数据分类技术比较及数据挖掘的步骤 (一)数据分类技术的主要方法。基于数据挖掘的分类技术的主要方法有决策树、神经网络、遗传算法、粗糙集、贝叶斯分类、K-近邻、支持向量机、回归分析以及多策略分类等。 1、决策树。决策树分类法的优点是分类的准确率高,学习速度比较快,能够表示成容易理解的分类规则和能够使用数据库的SQL语句来实现;其缺点是很难基于多个变量的组合发现规则,不同决策树分支之间的分裂不平滑,而且当类别较多时,分类的准确度明显下降。 2、神经网络。神经网络分类法的优点在于其分类精度高,能发现非线性的模式,不需预先对试验样本的统计分布做假设而且具有良好的鲁棒性、自组织自适应性、可并行处理、分布存储和高度容错性。其缺点首先是模型的构造是黑箱操作,网络的学习和决策过程难以理解;其次是结果难以表示成简单的分类规则;再次是样本数据要求是数值类型,分类型数据要做离散化处理,最后是结果与网络的拓扑结构和初始的权系数有关。 3、遗传算法。遗传算法分类法的优点是其具有群体搜索、隐含的并行处理、通用性和鲁棒性及概率转移准则。而其缺点在于学习速度比较慢、结果与编码方式、遗传算子和运行参数密切相关和基因编码和目标函数的选择比较复杂。 4、粗糙集。粗糙集分类法的优点是不需要预先知道额外信息算法简单和易于操作。其缺点是由于其基于集合论,难以直接处理连续的属性;还有当属性值的个数较多时,规则表示复杂;再就是其产生的规则需要合并处理。 本文来源:https://www.wddqw.com/doc/00ece467925f804d2b160b4e767f5acfa1c7832f.html