决策树分析法解析（决策树分析法的基本步骤详解）

菜鸡 • 22 7 月, 2022 8:23 上午 • 掘金笔记

欧易（OKX）交易所

新用户永久最高20%手续费减免！

官网注册 APP下载

决策树分类是数据挖掘中分类分析的一种算法。顾名思义，决策树是基于“树”结构来进行决策的，是人类在面临决策问题时一种很自然的处理机制。例如下图一个简单的判别买不买电脑的决策树：

下图是一个测试数据集，我们以此数据集为例，来看下如何生成一棵决策树。

决策树分类的主要任务是要确定各个类别的决策区域，或者说，确定不同类别之间的边界。在决策树分类模型中，不同类别之间的边界通过一个树状结构来表示。

通过以上分析，我们可以得出以下几点：

最大高度=决策属性的个数
树越矮越好
要把重要的、好的属性放在树根

因此，决策树建树算法就是：选择树根的过程

第一步，选择属性作为树根

比较流行的属性选择方法：信息增益

信息增益最大的属性被认为是最好的树根

在选择属性之前，我们先来了解一个概念：熵什么是熵？什么是信息？如何度量他们？

熵用来表示不确定性的大小

信息用来消除不确定性

实际上，给定训练集S，信息增益代表的是在不考虑任何输入变量的情况下确定S中任一样本所属类别需要的信息（以消除不确定性）与考虑了某一输入变量X后确定S中任一样本所属类别需要的信息之间的差。差越大，说明引入输入变量X后，消除的不确定性，该变量对分类所起的作用就越大，因此被称为是好的分裂变量。换句话说，要确定S中任一样本所属类别，我们希望所需要的信息越少越好，而引入输入变量X能够减少分类所需要的信息，因此说输入变量X为分类这个数据挖掘任务带来了信息增益。信息增益越大，说明输入变量X越重要，因此应该被认为是好的分裂变量而优先选择。

因此，计算信息增益的总的思路是：

1) 首先计算不考虑任何输入变量的情况下要确定S中任一样本所属类别需要的熵Entropy(S)；

2) 计算引入每个输入变量X后要确定S中任一样本所属类别需要的熵Entropy (X,S);

什么是低位放量滞涨（低位放量滞涨意味着什么）

3) 计算二者的差，Entropy (S) – Entropy (X, S)，此即为变量X所能带来的信息（增益），记为Gain(X,S)。

结合上面对于熵的解释的文章里，我们能得出求熵的公式：

下图很形象的解释了熵代表的含义。

我们还以上面的一组数据来分析，信息增益具体应该怎么算

根据上面的讨论，我们先用公式计算不考虑任何输入属性时，要确定训练集S中任一样本所属类别需要的熵。

此例子中，目标属性即buys_computer，有2个不同的取值，yes和no，因此有2个不同的类别（m=2）。设P对应buys_computer=yes的情况，N对应buys_computer=no的情况，则P有9个样本，N有5个样本。所以，总的熵就是：

即，E(p,n) = E(9,5) = 0.940

然后我们来求属性age的熵，age有三个属性，样本个数分别为5，4，5，所以属性age的熵就是：

最后，我们可以求出属性age的信息增益为：

同样的，我们可以分别求出income，student和credit_rating的信息增益

finally，我们可以得出属性age的信息增益最大，所以，应该用属性age作为树根。

确定好树根之后，下一步我们还要按照刚才的步骤来确定下一个节点的左右子树分别用哪个属性作为树根，直到最后得出完整的决策树。

虽然决策树分类算法可以快速的预测分类，但是也会有过度拟合（Overfitting）的问题。

有些生成的决策树完全服从于训练集，太循规蹈矩，以至于生成了太多的分支，某些分支可能是一些特殊情况，出现的次数很少，不具有代表性，更有甚者仅在训练集中出现，导致模型的准确性很低。

通常采用剪枝的方式来克服 overfitting，剪枝有两种方法：

先剪:构造树的过程中进行修剪。不符合条件的分支则不建。

后剪: 整个树生成之后进行修剪

版权声明：本文内容由互联网用户贡献，该文观点仅代表作者本人。本站不拥有所有权，不承担相关法律责任。如发现有侵权/违规的内容，请联系我们将立刻清除。

贝叶斯纳什均衡详解（贝叶斯纳什均衡的定义解析）

原创文章，作者：菜鸡，如若转载，请注明出处：https://www.20on.com/174059.html

赞 (0)

0

什么是游资（游资活跃度高如何操作）

上一篇 22 7 月, 2022 8:22 上午

什么是做空（怎么判断股市空头陷阱）

下一篇 22 7 月, 2022 8:25 上午

欧易（OKX）交易所

新用户永久最高20%手续费减免！

官网注册 APP下载

掘金笔记

股票有杠杆吗？怎么加杠杆？

摘要：本文将对股票有无杠杆以及如何加杠杆进行详细介绍，引出读者的兴趣，并提供背景信息。一、股票是否有杠杆 1、股票本身没有杠杆的概念。 2、杠杆是指借入资金进行投资的一种方式，而…

14 10 月, 2023
掘金笔记

区块链概念股票龙头有哪些（区块链概念股涨幅排行榜）

海能达发布公告，公司收到粤港澳大湾区某政府客户采购公专融合穿戴式移动视频记录仪项目的《中标通知书》，该项目主要为该客户提供公专融合穿戴式移动视频记录仪设备，并提供后续服务，项目金额…

18 9 月, 2022
掘金笔记

余额宝冻结资金怎么取出来（冻结的钱转出取出来方法详解）

支付宝余额宝中总是会有一部分的金额别冻结，想要提取金额的时候发现这一部分钱是无法拿出来的，那么想要将余额宝中冻结的钱拿出来需要怎么做？这就涉及到一个解冻的问题，小编会在下方给大家带…

3 7 月, 2022
掘金笔记

返利网哪个最好（2023年最好的返利平台详解）

近年来，各类导购平台APP云集，像高省、花生日记、省钱快报、好省、唯享客、立购联盟、粉象生活、高佣联盟、美逛、红人装、蜜源、吉象优选等众多平台面世，在这么多的软件里，到底哪款购物返…

6 7 月, 2022
掘金笔记

东富龙股票，东方财富300059股吧

1、东富龙股票东富龙股票是一家位于上海的上市公司，主要从事金融服务，包括证券投资、贷款、信托、保险、租赁等业务。东富龙股票的主要客户群体包括机构投资者和个人投资者，为客户提供最优…

3 3 月, 2023
掘金笔记

银行年利率是多少（年利率4.5%有人存吗）

过去人们到银行里去存钱，总是奉行就近的原则，随便找一个在家附近的银行网点存钱都可以，因为每家银行的存款利息都是差不多的。但是，从2015年开始，央行放开了银行存款利率的限制，各家银…

18 7 月, 2022
掘金笔记

如何选择主力建仓完毕的股票?

如何选择主力建仓完毕的股票? 主力建仓完毕后，肯定有一个共同的特点就是要准备拉升了，建仓不完毕庄家肯定不会拉升，这点大家应该毫无疑问的，所以我们必须挖掘主力建仓完毕的股票和去抄底的…

23 1 月, 2023
掘金笔记

复牌股票买入技巧，复牌的股票应该怎么买

复牌股票买入技巧，复牌的股票应该怎么买复牌股票买入技巧是什么?其实,按道理说,复牌股票买入和正常的股票交易是一样的,同样要按照买入卖出价格用交易软件进行委托交易,复牌的股票和平时…

15 1 月, 2023
掘金笔记

什么是实证分析（如何撰写论文的实证分析内容）

在硕士论文中，经常会出现实证分析，那么什么是实证分析呢？实证分析也可称为经验分析，目的在于用事实来支持论文所提出的观点或证明某一种理论，具体包括两种分析方法，一是统计分析，其中案例…

22 7 月, 2022
掘金笔记

facebook股价分析（Facebook母公司股价跌23%详解）

在头条热榜中，Meta元宇宙业务亏损超100亿美元引发市场热议，去年的元宇宙概念炒作，带火了一批元宇宙业务公司，其中Facebook扎克伯格更是宣布进军元宇宙业务，企图在在社交媒体…

3 9 月, 2022

BTC跌破95000美元
23 12 月, 2024
分享到:

金色财经报道，行情显示，BTC跌破95000美元，现报94974.88美元，24小时跌幅达到2.05%，行情波动较大，请做好风险控制。
SOL跌破180美元
23 12 月, 2024
分享到:

金色财经报道，行情显示，SOL跌破180美元，现报179.97美元，24小时跌幅达到0.28%，行情波动较大，请做好风险控制。
特朗普：Bo Hines将成为总统数字资产顾问委员会的执行董事
23 12 月, 2024
分享到:

金色财经报道，据Tree News消息，特朗普任命前大学橄榄球运动员，共和党众议院提名人Bo Hines（博·海恩斯）将成为总统数字资产顾问委员会（加密委员会）的执行董事。
Securitize 提议使用贝莱德 BUIDL 基金作为 Frax USD 的抵押品
23 12 月, 2024
分享到:

金色财经报道，数字流动性基金 (BUIDL) 的经纪公司 Securitize 已提交一份 Frax 改进提案，将 BUIDL 添加为 Frax USD 稳定币的支持抵押品。
根据改进方案，使用 BUIDL 作为抵押储备资产可以提供收益机会、更深的流动性和转移选择，并且由于得到全球最大资产管理公司贝莱德的支持，可以降低交易对手风险。
Keras之父：人工智能的经济性即将彻底改变
23 12 月, 2024
分享到:

金色财经报道，知名AI专家，Keras之父François Chollet在X发布内容表示，关于未来，有一件非常重要的事情需要了解：人工智能的经济性即将彻底改变。我们很快就会进入一个可以将测试时间计算转化为能力的世界——在软件历史上，边际成本将首次变得至关重要。
过去12小时爆仓超1.52亿美元，主爆多单
23 12 月, 2024
分享到:

金色财经报道，数据显示，过去12小时，全网爆仓金额达到1.52亿美元，其中多单爆仓金额约为1.19亿美元，空单爆仓金额约为3361.7万美元。
萨尔瓦多加强对比特币的支持：违反国际货币基金组织协议购买比特币
23 12 月, 2024
分享到:

金色财经报道，萨尔瓦多政府已明确表示，将继续推动比特币作为其经济战略的一部分，尽管该国已与国际货币基金组织签署协议，逐步结束其比特币业务。
萨尔瓦多比特币办公室主任斯泰西·赫伯特澄清说，即使在达成协议后，该国仍将继续以“加速”的速度购买比特币，这是其战略性比特币储备战略的一部分。赫伯特在社交媒体上还解释说，比特币仍将是法定货币，政府将继续赞助几项以加密货币为重点的教育计划。
AAVE突破320美元
23 12 月, 2024
分享到:

金色财经报道，行情显示，AAVE突破320美元，现报320.16美元，24小时涨幅达到6.81%，行情波动较大，请做好风险控制。
国际刑警组织对加密货币 Hex 创始人理查德·哈特发出红色通缉令
23 12 月, 2024
分享到:

金色财经报道，国际刑警组织对加密货币 Hex 创始人理查德·哈特发出红色通缉令。
AAVE跌破320美元
23 12 月, 2024
分享到:

金色财经报道，行情显示，AAVE跌破320美元，现报319.97美元，24小时涨幅达到7.03%，行情波动较大，请做好风险控制。
BNB跌破650美元
23 12 月, 2024
分享到:

金色财经报道，行情显示，BNB跌破650美元，现报649.98美元，24小时跌幅达到1.61%，行情波动较大，请做好风险控制。
温哥华市长肯·西姆：比特币是过去 16 年来表现最好的资产
23 12 月, 2024
分享到:

金色财经报道，温哥华市长肯·西姆：比特币是过去 16 年来表现最好的资产。它比黄金更好。它不会被军事力量夺取。它可以让温哥华成为比特币创新领域的世界领导者。
美国参议员辛西娅·卢米斯提议允许美联储持有比特币
23 12 月, 2024
分享到:

金色财经报道，怀俄明州的美国参议员辛西娅·卢米斯最近提到将比特币转变为储备资产的可能性，并提出了如何实施该计划，包括让联邦储备参与其中。
卢米斯表示，她希望赋予美联储购买和持有BTC的能力，作为一个更大的战略性比特币储备计划的一部分，以应对国家债务问题。我想将其交给他们。我希望我们的联邦政府拥有一个战略性比特币储备，以帮助支持美元作为世界储备货币。
ETH跌破3300美元
23 12 月, 2024
分享到:

金色财经报道，行情显示，ETH跌破3300美元，现报3298.74美元，24小时跌幅达到1.34%，行情波动较大，请做好风险控制。
Sui 通过 SatLayer 集成实现比特币重新抵押
23 12 月, 2024
分享到:

金色财经报道，比特币重新质押平台 SatLayer 周三宣布，将把比特币在去中心化金融中的使用扩展到去年推出的快速第 1 层区块链 Sui。
SatLayer 在一份声明中表示，由于Sui专注于快速交易速度，SatLayer 的整合将使开发人员能够利用比特币2.1 万亿美元的市场规模来构建DeFi应用程序，这些应用程序旨在将第三方排除在交易和借贷等领域的交易之外。
Pulsechain创始人，因欺诈罪被列入欧洲刑警组织芬兰通缉名单
23 12 月, 2024
分享到:

金色财经报道，Hex、Pulsechain 和 Pulsex 的创始人Richard Shueler，因欺诈罪被列入欧洲刑警组织芬兰通缉名单。据称，他未能提交企业纳税申报表并提供收入信息。此外，他还面临殴打未成年人的指控。
贝莱德的现货比特币 ETF 本周共购买了 13,699 枚BTC
23 12 月, 2024
分享到:

金色财经报道，贝莱德的现货比特币 ETF 本周共购买了 13,699 枚$BTC而平均开采量仅为 3,150 枚左右。
ORDI突破27美元
23 12 月, 2024
分享到:

金色财经报道，行情显示，ORDI突破27美元，现报27.01美元，24小时涨幅达到2.82%，行情波动较大，请做好风险控制。