大数据架构详解：从数据获取到深度学习

发布时间：2019-11-05 00:44:28 所属栏目：教程来源：阿福班主任

导读：机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其专门研究计算机是怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构，使之不断改善自身的性能。此外

基于实例的算法：基于实例的算法常常用来对决策问题建立模型，这样的模型常常先选取一批样本数据，然后根据某些近似性把新数据与样本数据进行比较，从而找到最佳的匹配。因此，基于实例的算法常常被称为“赢家通吃学习”或者“基于记忆的学习”。常见的算法包括k-Nearest Neighbor(kNN)、学习矢量量化(Learning Vector Quantization，LVQ)及自组织映射算法(Self-Organizing Map，SOM)等。

正则化算法：正则化算法是其他算法(通常是回归算法)的延伸，根据算法的复杂度对算法进行调整。正则化算法通常对简单模型予以奖励，而对复杂算法予以惩罚。常见的算法包括Ridge Regression、Least Absolute Shrinkage and Selection Operator(LASSO)及弹性网络(Elastic Net)等。

决策树算法：决策树算法根据数据的属性采用树状结构建立决策模型，常用来解决分类和回归问题。常见算法包括分类及回归树(Classification and Regression Tree，CART)、ID3(Iterative Dichotomiser 3)、C4.5、Chi-squared Automatic Interaction Detection(CHAID)、Decision Stump、随机森林(Random Forest)、多元自适应回归样条(MARS)及梯度推进机(GBM)等。

贝叶斯算法：贝叶斯算法是基于贝叶斯定理的一类算法，主要用来解决分类和回归问题。常见的算法包括朴素贝叶斯算法、平均单依赖估计(Averaged One-Dependence Estimators，AODE)及Bayesian Belief Network(BBN)等。

基于核的算法：基于核的算法中最著名的莫过于支持向量机(SVM)。基于核的算法是把输入数据映射到一个高阶的向量空间，在这些高阶向量空间里，有些分类或者回归问题能够更容易地解决。常见的基于核的算法包括支持向量机(Support Vector Machine，SVM)、径向基函数(Radial Basis Function，RBF)及线性判别分析(Linear Discriminate Analysis，LDA)等。

聚类算法：聚类算法通常按照中心点或者分层的方式对输入数据进行归并。所有的聚类算法都试图找到数据的内在结构，以便按照最大的共同点将数据进行归类。常见的聚类算法包括K-Means算法及期望最大化算法(EM)等。

关联规则学习：关联规则学习通过寻找最能够解释数据变量之间关系的规则，来找出大量多元数据集中有用的关联规则。常见的算法包括Apriori算法和Eclat算法等。

人工神经网络算法：人工神经网络算法模拟生物神经网络，是一类模式匹配算法，通常用于解决分类和回归问题。人工神经网络是机器学习的一个庞大的分支，有几百种不同的算法(深度学习就是其中的一类算法)。常见的人工神经网络算法包括感知器神经网络、反向传递、Hopfield网络、自组织映射及学习矢量量化等。

深度学习算法：深度学习算法是对人工神经网络的发展。在计算能力变得日益廉价的今天，深度学习算法试图建立大得多也复杂得多的神经网络。很多深度学习算法是半监督式学习算法，用来处理存在少量未标识数据的大数据集。常见的深度学习算法包括受限波尔兹曼机(RBN)、Deep Belief Networks(DBN)、卷积网络(Convolutional Network)及堆栈式自动编码器 (Stacked Auto-encoders)等。

降低维度算法：与聚类算法一样，降低维度算法试图分析数据的内在结构，不过降低维度算法通过非监督式学习，试图利用较少的信息来归纳或者解释数据。这类算法可以用于高维数据的可视化，或者用来简化数据以便监督式学习使用。常见的降低维度算法包括主成分分析(Principle Component Analysis，PCA)、偏最小二乘回归(Partial Least Square Regression，PLSR)、Sammon映射、多维尺度(Multi-Dimensional Scaling，MDS)及投影追踪(Projection Pursuit)等。

集成算法：集成算法用一些相对较弱的学习模型独立地就同样的样本进行训练，然后把结果整合起来进行整体预测。集成算法的主要难点在于究竟集成哪些独立的、较弱的学习模型，以及如何把学习结果整合起来。这是一类非常强大的算法，同时也非常流行。常见的集成算法包括Boosting、Bootstrapped Aggregation(Bagging)、AdaBoost、堆叠泛化(Stacked Generalization，Blending)、梯度推进机(Gradient Boosting Machine，GBM)及随机森林(Random Forest)等。

机器学习&数据挖掘应用案例

前面了解了机器学习和数据挖掘的基本概念，下面来看一下业界成熟的案例，对机器学习和数据挖掘有一个直观的理解。

尿布和啤酒的故事

先来看一则有关数据挖掘的故事——“尿布与啤酒”。

总部位于美国阿肯色州的世界著名商业零售连锁企业沃尔玛拥有世界上最大的数据仓库系统。为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据，在这些原始交易数据的基础上，沃尔玛利用NCR数据挖掘工具对这些数据进行分析和挖掘。一个意外的发现是：跟尿布一起购买最多的商品竟然是啤酒!这是数据挖掘技术对历史数据进行分析的结果，反映了数据的内在规律。那么，这个结果符合现实情况吗?是否有利用价值?

于是，沃尔玛派出市场调查人员和分析师对这一数据挖掘结果进行调查分析，从而揭示出隐藏在“尿布与啤酒”背后的美国人的一种行为模式：在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%～40%的人同时也为自己买一些啤酒。产生这一现象的原因是：美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买完尿布后又随手带回了他们喜欢的啤酒。

既然尿布与啤酒一起被购买的机会很多，于是沃尔玛就在其各家门店将尿布与啤酒摆放在一起，结果是尿布与啤酒的销售量双双增长。

决策树用于电信领域故障快速定位

电信领域比较常见的应用场景是决策树，利用决策树来进行故障定位。比如，用户投诉上网慢，其中就有很多种原因，有可能是网络的问题，也有可能是用户手机的问题，还有可能是用户自身感受的问题。怎样快速分析和定位出问题，给用户一个满意的答复?这就需要用到决策树。

（编辑：东莞站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/6

首页

尾页

笔记本电脑卡,教您笔记	amr文件用什么打开,教
桌面图标有蓝底,教您桌	无线网卡驱动怎么安装