Excel 财务应用 决策树概述 决策树是用二叉树图形来表示处理逻辑的一种工具,它可以直观、清晰地表达加工的逻辑要求,特别适合于判断因素比较少、逻辑组合关系不复杂的情况。 1.决策树的组成 决策树由决策节点、方案枝、事件节点、概率枝和结果节点几部分按照一定的比例关系联结而成的树状图。 其中,决策节点通常用小方框表示,它表示需要在此处进行决策,从它向后引出的每一分枝代表可能选取的一个策略或者方案;事件节点用小圆圈表示,从它引出的分枝代表其后继状态,分枝上标明的数字表示事件在该状态下发生的概率,因此,称这种枝为概率枝;结果节点为决策树的末梢,用小三角表示,代表决策问题的一个可能结果,旁边的数字为这种情况下的益损值。如图9-88所示为一个决策树模型。 图9-88 决策树 2.决策树的算法 在数据挖掘中,决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用于决策,如银行工作人员用决策树来预测贷款风险。常用的决策树算法有CHAID、CART和ID3。 CHAID CHAID算法是采用X2检验法来决定哪个类别预测属性与预测值能最大程度的独立。 CART 针对决策支持与分析技术,提出了基于决策树改进的CART算法。该算法由树生长和树剪枝两部分构成,具有辨识相关输入的能力。由于引入了递归最小二乘估计器,因此对线性模型可降低计算量,并采用模糊技术处理不连续的边界问题。 ID3 ID3算法的基本思想是贪心算法,采用自上而下的分而治之的方法来构造决策树。 首先检测训练数据集的所有特征,选择信息增益最大的特征建立决策树根节点,由该特征的不同取值建立分枝,对各分枝的实例子集递归;然后,用该方法建立树的节点和分枝,直到某一子集中的数据都属于同一类别,或者没有特征可以再用于对数据进行分割为止。 建立决策树的过程,即树的生长过程是不断的把数据进行切分的过程,每次切分3.决 对应一个问题,也对应着一个节点。 策树提 示 的优缺点 对于常规统计来说,决策树具有以下优点: 可以生成容易理解的规则 计算量相对较小 可以处理连续和种类字段 决策树可以清晰的显示哪些字段比较重要 另外,决策树还具有以下缺点: 对连续性的字段比较难预测 对有时间顺序的数据,需要很多预处理的工作 当类别太多时,可能出现错误 一般的算法分类的时候,只能根据一个字段来分类 本文来源:https://www.wddqw.com/doc/dacfc0a4aeaad1f346933f63.html