加入收藏 | 设为首页 | 会员中心 | 我要投稿 东莞站长网 (https://www.0769zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

深度学习已成功应用于这三大领域

发布时间:2018-04-09 19:23:56 所属栏目:大数据 来源:站长网
导读:在本章中,我们将介绍如何使用深度学习来解决计算机视觉、语音识别、自然语言处理以及其他商业领域中的应用。首先我们将讨论在许多最重要的AI 应用中所需的大规模神经网络的实现。接着,我们将回顾深度学习已经成功应用的几个特定领域。 尽管深度学习的一

其他种类的预处理需要同时应用于训练集和测试集,其目的是将每个样本置于更规范的形式,以便减少模型需要考虑的变化量。减少数据中的变化量既能够减少泛化误差,也能够减小拟合训练集所需模型的大小。更简单的任务可以通过更小的模型来解决,而更简单的解决方案泛化能力一般更好。这种类型的预处理通常被设计为去除输入数据中的某种可变性,这对于人工设计者来说是容易描述的,并且人工设计者能够保证不受到任务影响。当使用大型数据集和大型模型训练时,这种预处理通常是不必要的,并且最好只是让模型学习哪些变化性应该保留。例如,用于分类ImageNet 的AlexNet 系统仅具有一个预处理步骤:对每个像素减去训练样本的平均值(Krizhevsky et al., 2012b)。

数据集增强

如第7.4 节中讲到的一样,我们很容易通过增加训练集的额外副本来增加训练集的大小,进而改进分类器的泛化能力。这些额外副本可以通过对原始图像进行一些变化来生成,但是并不改变其类别。对象识别这个分类任务特别适合于这种形式的数据集增强,因为类别信息对于许多变换是不变的,而我们可以简单地对输入应用诸多几何变换。如前所述,分类器可以受益于随机转换或者旋转,某些情况下输入的翻转可以增强数据集。在专门的计算机视觉应用中,存在很多更高级的用以增强数据集的变换。这些方案包括图像中颜色的随机扰动(Krizhevskyet al., 2012b),以及对输入的非线性几何变形(LeCun et al., 1998c)。

语音识别

语音识别任务是将一段包括了自然语言发音的声学信号投影到对应说话人的词序列上。令X = (x(1), x(2), …, x(T)) 表示语音的输入向量(传统做法以20ms 为一帧分割信号)。许多语音识别的系统通过特殊的手工设计方法预处理输入信号,从而提取特征,但是某些深度学习系统(Jaitly and Hinton, 2011) 直接从原始输入中学习特征。令y = (y1; y2,…, yN) 表示目标的输出序列(通常是一个词或者字符的序列)。自动语音识别(automatic speech recognition,ASR) 任务指的是构造一个函数f*ASR,使得它能够在给定声学序列X 的情况下计算最有可能的语言序列y:

深度学习

其中P*是给定输入值X 时对应目标y 的真实条件分布。

从20 世纪80 年代直到2009»2012 年,最先进的语音识别系统是隐马尔可夫模型(hiddenmarkov model, HMM) 和高斯混合模型(gaussian mixture model, GMM) 的结合。GMM 对声学特征和音素(phoneme) 之间的关系建模(Bahl et al., 1987),HMM 对音素序列建模。GMM-HMM 模型将语音信号视作由如下过程生成:首先,一个HMM 生成了一个音素的序列以及离散的子音素状态(比如每一个音素的开始、中间、结尾),然后GMM 把每一个离散的状态转化为一个简短的声音信号。尽管直到最近GMM-HMM 一直在ASR 中占据主导地位,语音识别仍然是神经网络所成功应用的第一个领域。从20 世纪80 年代末期到90 年代初期,大量语音识别系统使用了神经网络(Bourlard and Wellekens, 1989; Waibel et al., 1989; Robinsonand Fallside, 1991; Bengio et al., 1991, 1992; Konig et al., 1996)。当时,基于神经网络的ASR的表现和GMM-HMM 系统的表现差不多。比如说,Robinson and Fallside (1991) 在TIMIT数据集(Garofolo et al., 1993)(有39 个区分的音素) 上达到了26% 的音素错误率,这个结果优于或者说是可以与基于HMM 的结果相比。从那时起,TIMIT 成为音素识别的一个基准数据集,在语音识别中的作用就和MNIST 在对象识别中的作用差不多。然而,由于语音识别软件系统中复杂的工程因素以及在基于GMM-HMM 的系统中已经付出的巨大努力,工业界并没有迫切转向神经网络的需求。结果,直到21 世纪00 年代末期,学术界和工业界的研究者们更多的是用神经网络为GMM-HMM 系统学习一些额外的特征。

之后,随着更大更深的模型以及更大的数据集的出现,通过使用神经网络代替GMM 来实现将声学特征转化为音素(或者子音素状态) 的过程可以大大地提高识别的精度。从2009年开始,语音识别的研究者们将一种无监督学习的深度学习方法应用于语音识别。这种深度学习方法基于训练一个被称作是受限玻尔兹曼机的无向概率模型,从而对输入数据建模。受限玻尔兹曼机将会在第三部分中描述。为了完成语音识别任务,无监督的预训练被用来构造一个深度前馈网络,这个神经网络每一层都是通过训练受限玻尔兹曼机来初始化的。这些网络的输入是从一个固定规格的输入窗(以当前帧为中心) 的谱声学表示抽取,预测了当前帧所对应的HMM 状态的条件概率。训练一个这样的神经网络能够可以显著提高在TIMIT 数据集上的识别率(Mohamed et al., 2009,2012a),并将音素级别的错误率从大约26% 降到了20:7%。关于这个模型成功原因的详细分析可以参考Mohamed et al. (2012b)。对于基本的电话识别工作流程的一个扩展工作是添加说话人自适应相关特征(Mohamed et al., 2011) 的方法,这可以进一步地降低错误率。紧接着的工作则将结构从音素识别(TIMIT 所主要关注的)转向了大规模词汇语音识别(Dahl et al., 2012),这不仅包含了识别音素,还包括了识别大规模词汇的序列。语音识别上的深度网络从最初的使用受限玻尔兹曼机进行预训练发展到了使用诸如整流线性单元和Dropout 这样的技术(Zeiler et al., 2013; Dahl et al., 2013)。从那时开始,工业界的几个语音研究组开始寻求与学术圈的研究者之间的合作。Hinton et al. (2012a)描述了这些合作所带来的突破性进展,这些技术现在被广泛应用在产品中,比如移动手机端。

随后,当研究组使用了越来越大的带标签的数据集,加入了各种初始化、训练方法以及调试深度神经网络的结构之后,他们发现这种无监督的预训练方式是没有必要的,或者说不能带来任何显著的改进。

用语音识别中词错误率来衡量,在语音识别性能上的这些突破是史无前例的(大约30%的提高)。在这之前的长达十年左右的时间内,尽管数据集的规模是随时间增长的(见Deng and Yu (2014) 的图2.4),但基于GMM-HMM 的系统的传统技术已经停滞不前了。这也导致了语音识别领域快速地转向深度学习的研究。在大约两年的时间内,工业界大多数的语音识别产品都包含了深度神经网络,这种成功也激发了ASR 领域对深度学习算法和结构的新一波研究浪潮,并且影响至今。

(编辑:东莞站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!