游客

标题:数据挖掘十大经典算法（包括各自优缺点 / 适用数据场景）
正文:
本文主要分析皆来自其他资料，借用较为权威的总结来对本人已经学习的这些经典算法做一个极为精简的概述（根据自身经验有一定修改），另外同时附上机器学习实战中作者对各种算法的评价。另外机器学习实战这本书是本人看了这么多书籍或者资料中唯一一本坚持从头看到尾，看完了的书籍，包括其中的代码皆实践运行过，收获颇多，个人认为虽然这本书时间上已经算是老资料了，但其中作者的各种总结和代码的演练都由浅入深（前提还是要有一点基础的），让我能看懂并能从中学到东西，可能当时很多东西比较熟悉，后来淡忘，但当再次接触或使用它时能很快的重拾，所以如果你需要一门较为优秀的教材作为机器学习的入门资料我会推荐给你《机器学习实战》。以下为主要内容：国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法，其实参加评选的18种算法，实际上随便拿出一种来都可以称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。1. C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足； 2) 在树构造过程中进行剪枝； 3) 能够完成对连续属性的离散化处理； 4) 能够对不完整数据进行处理。C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效（相对的CART算法只需要扫描两次数据集，以下仅为决策树优缺点）。2. The k-means algorithm 即K-Means算法k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k < n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的
[<<][[1]][2][3][>>]

查看评论(0)
发表评论

 首页