大发五分快3官方_五分快3登入开发者自述:我是如何理解决策树的 | 雷锋网

  • 时间:
  • 浏览:49
  • 来源:UU快3-UU直播

雷锋网按:本文作者夏洪进,原载于作者另一方博客,雷锋网(公众号:雷锋网)已获授权。

前言:

最近学习了一段时间的决策树算法,你要 感觉并才能达大发五分快3官方_五分快3登入到另一方预期的想法,就说 这大发五分快3官方_五分快3登入几天参考了这一决策树方面的资料,来将另一方的学习的过程的笔记记录在这里,来加深理解和请教别人指出错误大发五分快3官方_五分快3登入。

决策树的原理:

决策树又叫做d大发五分快3官方_五分快3登入ecision tree,这一是一种比较简单你要 又得到广泛应用的分类器的一种形式。大伙儿一般都在通过训练的数据来搭建起决策树的模型。通过这一模型,大伙儿才能高效的对于未知的数据进行归纳分类,之类于大伙儿的聚类算法。

应用决策树有如下几块优点:

1:决策树的模型的可读性比较好,具有很强的才能描述性,有助以前高速率单位的人工分析

2:速率单位高,决策树只需用以此构建,就才能达到反复使用的效果,每一次的预测的最大计算次数你要 我不超过决策树的深度1即可。

3:决策树来如保预测:

现在大伙儿以Data Analysis中的经典案例来进行分析:

从底下的表述中的相关信息,大伙儿才能通过记录以前的用户的这一相关的形态,比如记录这一用户算不算 才能偿还债务,算不算 拥有房产,算不算 结过婚,年收入等,来构建大伙儿所需用的决策树。

上表根据历史数据,记录已有的用户算不算 才能偿还债务,以及相关的信息。通过该数据,构建的决策树如下:

现在假设新来了另一一三个白多用户:才能房产,单身狗,年收入15万,才能根据底下的决策树,才能预测他无法偿还债务(淡蓝色虚线路径)。从底下的决策树,还才能知道看出来算不算 拥有房产才能很大的决定用户算不算 才能偿还债务,对借贷业务具有指导意义。

基本步骤

现在大伙儿开始英语 学习如保构造决策树

决策树构建的基本步骤如下:

1. 开始英语 ,把所有记录看作另一一三个白多节点

2. 遍历每个变量的每一种分割方法,找到最好的分割点

3. 分割成另一一三个白多节点N1和N2

4. 对N1和N2分别继续执行2-3步,直到每个节点足够“纯”为止

决策树的变量才能有一种:

1)数字型(Numeric):变量类型是整数或浮点数,如前面例子中的“年收入”。用“>=”,“>”,“<”或“<=”作为分割条件(排序后,利用已有的分割情况表,才能优化分割算法的时间多样化度)。

2)名称型(Nominal):之类编程语言中的枚举类型,变量才能重有限的选项中选着,比如前面例子中的“友情情况表”,才能是“单身”,“已婚”或“离婚”。使用“=”来分割。

如保评估分割点的好坏?意味着着另一一三个白多分割点才能将当前的所有节点分为两类,使得每一类都很“纯”,也就说 同一类的记录较多,才能就说 另一一三个白多好分割点。比如底下的例子,“拥有房产”,才能将记录分成了两类,“是”的节点完整版都才能偿还债务,非常“纯”;“否”的节点,才能偿还贷款和无法偿还贷款的人都在,都在很“纯”,你要 另一一三个白多节点加起来的纯度之和与原始节点的纯度之差最大,就说 按照这一方法分割。构建决策树采用贪心算法,只考虑当前纯度差最大的情况表作为分割点。

量化纯度

前面讲到,决策树是根据“纯度”来构建的,如保量化纯度呢?这里介绍一种纯度计算方法。意味着着记录被分为n类,每一类的比例P(i)=第i类的数目/总数目。还是拿底下的例子,10个数据中才能偿还债务的记录比例为P(1) = 7/10 = 0.7,无法偿还的为P(2) = 3/10 = 0.3,N = 2。

Gini不纯度

熵(Entropy)

错误率

底下的另一一三个白多公式均是值越大,表示越“不纯”,越小表示越“纯”。一种公式只需用取一种即可,实践证明一种公司的选着对最终分类准确率的影响太多大,一般使用熵公式。

纯度差,也称为信息增益(Information Gain),公式如下:

其中,I代表不纯度(也就说 底下另一一三个白多公式的任意一种),K代表分割的节点数,一般K = 2。vj表示子节点中的记录数目。底下公式实际上就说 当前节点的不纯度减去子节点不纯度的加权平均数,权重由子节点记录数与当前节点记录数的比例决定。

停止条件

决策树的构建过程是另一一三个白多递归的过程,就说 需用选着停止条件,你要 过程将不让开始英语 。一种最直观的方法是当每个子节点才能一种类型的记录时停止,你要 另另一一三个白多往往会使得树的节点太多,意味着着过拟合什么的什么的问题 (Overfitting)。另一种可行的方法是当前节点中的记录数低于另一一三个白多最小的阀值,才能就停止分割,将max(P(i))对应的分类作为当前叶节点的分类。

过渡拟合

采用底下算法生成的决策树在事件中往往会意味着着过滤拟合。也就说 该决策树对训练数据才能得到很低的错误率,你要 运用到测试数据上却得到非常高的错误率。过渡拟合的意味着着有以下几点:

1. 噪音数据:训练数据中所处噪音数据,决策树的这一节点有噪音数据作为分割标准,意味着着决策树无法代表真实数据。

2. 缺少代表性数据:训练数据才能含有所有具有代表性的数据,意味着着某一类数据无法很好的匹配,这这一才能通过观察混淆矩阵(Confusion Matrix)分析得出。

3. 多重比较:举个列子,股票分析师预测股票涨或跌。假设分析师都在靠随机猜测,也就说 大伙儿正确的概率是0.5。每另俩另一方预测10次,才能预测正确的次数在8次或8次以上的概率为

才能5%左右,比较低。你要 意味着着1000个分析师,每另一方预测10次,选着相当于另俩另一方得到8次或以上的人作为代表,才能概率为:

概率十分大,随着分析师人数的增加,概率无限接近1。你要 ,选出来的分析师嘴笨 是打酱油的,他对未来的预测才能做任何保证。底下这一例子就说 多重比较。这一情况表和决策树选着分割点之类,需用在每个变量的每另一一三个白多值中选着另一一三个白多作为分割的代表,就说 选出另一一三个白多噪音分割标准的概率是很大的。

优化方案

1:修剪枝叶

决策树过渡拟合往往意味着着太过“茂盛”,也就说 节点太多,就说 需用大发五分快3官方_五分快3登入裁剪(Prune Tree)枝叶。裁剪枝叶的策略对决策树正确率的影响很大。主要有一种裁剪策略。

前置裁剪在构建决策树的过程时,提前停止。才能,会将切分节点的条件设置的很苛刻,意味着着决策树很短小。结果就说 决策树无法达到最优。实践证明这中策略无法得到较好的结果。

后置裁剪决策树构建好后,你要 才开始英语 裁剪。采用一种方法:1)用单一叶节点代替整个子树,叶节点的分类采用子树中最主要的分类;2)将另一一三个白多字数完整版替代另外一颗子树。后置裁剪有个什么的什么的问题 就说 计算速率单位,这一节点计算后就被裁剪了,意味着着有点硬浪费。

2:K-Fold Cross Validation

首先计算出整体的决策树T,叶节点个数记作N,设i属于[1,N]。对每个i,使用K-Fold Validataion方法计算决策树,并裁剪到i个节点,计算错误率,最后求出平均错误率。另另一一三个白多才能用具有最小错误率对应的i作为最终决策树的大小,对原始决策树进行裁剪,得到最优决策树。

3:Random Forest

Random Forest是用训练数据随机的计算出这一决策树,形成了另一一三个白多森林。你要 用这一森林对未知数据进行预测,选着投票最多的分类。实践证明,此算法的错误率得到了经一步的降低。这一方法身前的原理才能用“另一一三个白多臭皮匠定另一一三个白多诸葛亮”这句谚语来概括。一颗树预测正确的概率意味着着不高,你要 集体预测正确的概率却很高。

准确率估计

决策树T构建好后,需用估计预测准确率。直观说明,比如N条测试数据,X预测正确的记录数,不才能估计acc = X/N为T的准确率。你要 ,另另一一三个白多都在很科学。意味着着大伙儿是通过样本估计的准确率,很有意味着着所处偏差。就说 ,比较科学的方法是估计另一一三个白多准确率的区间,这里就要用到统计学中的置信区间。

设T的准确率p是另一一三个白多客观所处的值,X的概率分布为X ~ B(N,p),即X遵循概率为p,次数为N的二项分布(Binomial Distribution),期望E(X) = N*p,方差Var(X) = N*p*(1-p)。意味着着当N很大时,二项分布才能近似有正太分布(Normal Distribution)计算,一般N会很大,就说 X ~ N(np,n*p*(1-p))。才能算出,acc = X/N的期望E(acc) = E(X/N) = E(X)/N = p,方差Var(acc) =Var(X/N) = Var(X) / N2= p*(1-p) / N,就说 acc ~ N(p,p*(1-p)/N)。另另一一三个白多,就才能通过正太分布的置信区间的计算方法计算执行区间了。

正太分布的置信区间求解如下:

1)将acc标准化,即

2)选着置信水平α= 95%,或这一值,这取决于你需用对这一区间有多自信。一般来说,α越大,区间越大。

3)求出α/2和1-α/2对应的标准正太分布的统计量

(均为常量)。你要 解下面关于p的不等式。acc才能有样本估计得出。即才能得到关于p的执行区间

部分资料参考自网络,感谢广大的互联网!

雷锋网相关阅读:

机器学习中决策树的原理与算法 | 科普

监督学习最常见的一种算法,你知道几块?

雷锋网版权文章,未经授权禁止转载。详情见转载须知。