侵权投诉

关于Dropout、BN及数据预处理方案

电子设计 ? 2021-05-31 17:37 ? 次阅读

一、随机失活(Dropout)

具体做法:在训练的时候,随机失活的实现方法是让神经元以超参数o4YBAF-cdnmAWpDBAAACU_DoSa0457.png的概率被激活或者被设置为 0。如下图所示:

pIYBAF-cdnuAKYslAABDQ5yQB94073.jpg

Dropout 可以看作是 Bagging 的极限形式,每个模型都在当一种情况中训练,同时模型的每个参数都经过与其他模型共享参数,从而高度正则化。在训练过程中,随机失活也可以被认为是对完整的神经网络抽样出一些子集,每次基于输入数据只更新子网络的参数(然而,数量巨大的子网络们并不是相互独立的,因为它们都共享参数)。在测试过程中不使用随机失活,可以理解为是对数量巨大的子网络们做了模型集成(model ensemble),以此来计算出一个平均的预测。

关于 Dropout 的 Motivation:一个是类似于性别在生物进化中的角色:物种为了生存往往会倾向于适应这种环境,环境突变则会导致物种难以做出及时反应,性别的出现可以繁衍出适应新环境的变种,有效的阻止过拟合,即避免环境改变时物种可能面临的灭绝。还有一个就是正则化的思想,减少神经元之间复杂的共适应关系,减少权重使得网络对丢失特定神经元连接的鲁棒性提高。

这里强烈推荐看下论文原文。虽然是英文的,但是对于更深刻的理解还是有很大帮助的!

二、图像数据的预处理

为什么要预处理:简单的从二维来理解,首先,图像数据是高度相关的,假设其分布如下图 a 所示(简化为 2 维)。由于初始化的时候,我们的参数一般都是 0 均值的,因此开始的拟合 o4YBAF-cdn2AUm5PAAAISG9lNi8513.png,基本过原点附近(因为 b 接近于零),如图 b 红色虚线。因此,网络需要经过多次学习才能逐步达到如紫色实线的拟合,即收敛的比较慢。如果我们对输入数据先作减均值操作,如图 c,显然可以加快学习。更进一步的,我们对数据再进行去相关操作,使得数据更加容易区分,这样又会加快训练,如图 d。

pIYBAF-cdoCAGQkwAAAU0Fjltps385.jpg

下面介绍下一些基础预处理方法:

归一化处理

均值减法(Mean subtraction):它对数据中每个独立特征减去平均值,从几何上可以理解为在每个维度上都将数据云的中心都迁移到原点。(就是每个特征数据减去其相应特征的平均值)

归一化(Normalization);先对数据做零中心化(zero-centered)处理,然后每个维度都除以其标准差。

pIYBAF-cdoKAHx1cAAAs6MzWcJQ190.jpg

(中间零中心化,右边归一化)

PCA 和白化(Whitening)

白化(Whitening):白化操作的输入是特征基准上的数据,然后对每个维度除以其特征值来对数值范围进行归一化。该变换的几何解释是:如果数据服从多变量的高斯分布,那么经过白化后,数据的分布将会是一个均值为零,且协方差相等的矩阵

特征向量是按照特征值的大小排列的。我们可以利用这个性质来对数据降维,只要使用前面的小部分特征向量,丢弃掉那些包含的数据没有方差的维度。这个操作也被称为主成分分析( Principal Component Analysis)简称 PCA)降维

o4YBAF-cdoSAM91NAAAqrWV9zyE177.jpg

(中间是经过 PCA 操作的数据,右边是白化)

需要注意的是:

对比与上面的中心化,与 pca 有点类似,但是不同的是,pca 把数据变换到了数据协方差矩阵的基准轴上(协方差矩阵变成对角阵),也就是说他是轴对称的,但简单的零中心化,它不是轴对称的;还有 PCA 是一种降维的预处理,而零中心化并不是。

常见错误:任何预处理策略(比如数据均值)都只能在训练集数据上进行计算,算法训练完毕后再应用到验证集或者测试集上。例如,如果先计算整个数据集图像的平均值然后每张图片都减去平均值,最后将整个数据集分成训练 / 验证 / 测试集,那么这个做法是错误的。应该怎么做呢?应该先分成训练 / 验证 / 测试集,只是从训练集中求图片平均值,然后各个集(训练 / 验证 / 测试集)中的图像再减去这个平均值。

三、Batch Normalization

pIYBAF-cdoeAaDEsAACN5x16PK0221.png

原论文中,作者为了计算的稳定性,加了两个参数将数据又还原回去了,这两个参数也是需要训练的。说白了,就是对每一层的数据都预处理一次。方便直观感受,上张图:

o4YBAF-cdomALAtFAABipDQJan0158.jpg

这个方法可以进一步加速收敛,因此学习率可以适当增大,加快训练速度;过拟合现象可以得倒一定程度的缓解,所以可以不用 Dropout 或用较低的 Dropout,而且可以减小 L2 正则化系数,训练速度又再一次得到了提升。即 Batch Normalization 可以降低我们对正则化的依赖程度。

还有要注意的是,Batch Normalization 和 pca 加白化有点类似,结果都是可以零均值加上单位方差,可以使得数据弱相关,但是在深度神经网络中,我们一般不要 pca 加白化,原因就是白化需要计算整个训练集的协方差矩阵、求逆等操作,计算量很大,此外,反向传播时,白化操作不一定可导。最后,再次强烈直接看 BN 的相关论文,有很多细节值得一看!

编辑:hfy

收藏 人收藏
分享:

评论

相关推荐

结合百科知识和句子语义特征的CNN抽取模型

关系抽取是信息抽取领域中重要的研究任务之一,其典型的应用场景包括知识图谱、问答系统、机器翻译等。目前....
发表于 06-15 16:56 ? 3次 阅读
结合百科知识和句子语义特征的CNN抽取模型

基于主次关系特征的自动文摘方法综述

自动文摘研究是指通过自然语言处理技术对原始文本进行压缩、提炼,在保留文档核心思想的冋时为用户提供简明....
发表于 06-15 16:12 ? 3次 阅读
基于主次关系特征的自动文摘方法综述

基于粗糙规则的脉冲神经膜系统设计方案

脉冲神经膜系统是受到神经生物系统中神经元相互协作处理脉冲过程的启发而提岀的一种新的计算模型。为了更进....
发表于 06-15 15:35 ? 3次 阅读
基于粗糙规则的脉冲神经膜系统设计方案

调试神经网络的实用tips请查收

神经网络的 debug 过程着实不容易,这里是一些有所帮助的 tips。
的头像 智能感知与物联网技术研究所 发表于 06-15 14:12 ? 28次 阅读
调试神经网络的实用tips请查收

端到端深度学习神经网络模型BiGRU-FCN

时间序列数据具有非离散性、数据之间的时序相关性、特征空间维度大等特点,当前大多数分类方法需要经过复杂....
发表于 06-11 16:40 ? 14次 阅读
端到端深度学习神经网络模型BiGRU-FCN

带延迟调整的脉冲神经元学习算法

脉冲神经元有监督学习算法通过梯度下降法调整神经元的突触权值,但目标学习序列长度的增加会降低其精度并延....
发表于 06-11 16:37 ? 15次 阅读
带延迟调整的脉冲神经元学习算法

基于CNN的恶意软件加密C&C通信流量识别方法

为实现恶意软件加密C&C通信流量的准确识别,分析正常网页浏览访问和C&C通信的htps通信过程,发现....
发表于 06-11 14:19 ? 11次 阅读
基于CNN的恶意软件加密C&C通信流量识别方法

基于CNN和LSTM的蛋白质亚细胞定位研究对比

基于CNN和LSTM的蛋白质亚细胞定位研究对比
发表于 06-11 14:16 ? 10次 阅读
基于CNN和LSTM的蛋白质亚细胞定位研究对比

基于LZW编码的卷积神经网络压缩方法综述

针对卷积神经网络(CNN)因参数量大难以移植到嵌入式平台的问题,提出基编码的CNN压缩方法。通过浮点....
发表于 06-11 11:31 ? 6次 阅读
基于LZW编码的卷积神经网络压缩方法综述

结合MFCC和特征的语音情感识别方法

在语音情感识别中提取梅尔频率倒谱系数(MFC℃)会丢失谱特征信息,导致情感识别准确率较低。为此,提出....
发表于 06-11 11:02 ? 9次 阅读
结合MFCC和特征的语音情感识别方法

基于卷积神经网络的相似度计算模型

在智能客服问答系统中,用户所提问句具有咨询意图复杂、上下文相关性弱以及口语化等特点,导致问句相似度计....
发表于 06-11 10:59 ? 15次 阅读
基于卷积神经网络的相似度计算模型

基于区域分割的地震预测混合型算法

由于地震区域地质结构的差异性,采用单一模型难以在分割后的所有小区域都达到较好的预测效果。为此,提出一....
发表于 06-11 10:17 ? 16次 阅读
基于区域分割的地震预测混合型算法

你们知道深度学习有哪四个学习阶段吗

机器学习领域是巨大的,为了学习不迷路,可以从以下列表帮助学习。它概述深度学习的一些学习细节。 阶段1....
的头像 新机器视觉 发表于 06-10 15:27 ? 106次 阅读
你们知道深度学习有哪四个学习阶段吗

基于深度神经网络的因果形式语音增强方法

传统的基于深度神经网络(DNN)的语音增强方法由于采用非因果形式的输入,在处理过程中具有固定延时,不....
发表于 06-10 11:29 ? 14次 阅读
基于深度神经网络的因果形式语音增强方法

基于数据驱动的面部表情识别方法

现有的大多数面部表情识别方法都是假定样本中毎个人脸表情对应单一的情绪,而后作为分类问题进行解决。但是....
发表于 06-10 11:09 ? 7次 阅读
基于数据驱动的面部表情识别方法

网络安全产业中各类产品细分领域带来的发现与思考

产业链图谱的调研研究方向及范围 在2020年,嘶吼安全产业研究院优先考虑IT系统及社会环境的发展,保....
的头像 芯盾时代 发表于 06-09 18:03 ? 437次 阅读
网络安全产业中各类产品细分领域带来的发现与思考

为什么大多数流行的目标检测模型不擅长检测小目标?

导读 对小目标检测进行了分析,并结合已有的方法给出了一些思路。 机器学习正越来越多地进入我们的日常生....
的头像 机器视觉自动化 发表于 06-09 17:50 ? 213次 阅读
为什么大多数流行的目标检测模型不擅长检测小目标?

基于循环神经网络的电影推荐算法

传统电影推荐算法多数基于用户和电影的静态属性进行推荐,忽略了时间序列数据内在的时间和因果因素,推荐质....
发表于 06-09 16:33 ? 6次 阅读
基于循环神经网络的电影推荐算法

基于词嵌入与神经网络的文本匹配模型

为增强文本匹配模型的文本语义捕捉能力并提高语义匹配准确度,提出一种基于词嵌人与依存关系的文本匹配模型....
发表于 06-09 16:28 ? 9次 阅读
基于词嵌入与神经网络的文本匹配模型

快讯:电子织物融合微型器件的数字纤维与智能织物

麻省理工学院Yoel Fink课题组报道了一种集成多种微型器件的可大批量制造的数十米长纤维。首先是将....
的头像 机器人大讲堂 发表于 06-09 10:07 ? 365次 阅读
快讯:电子织物融合微型器件的数字纤维与智能织物

基于深度卷积神经网络的能见度检测

为学习可有效反映能见度的视觉特征,解决大规模训练数据集构建困难的问题,提出一种将深度卷积神经网络应用....
发表于 06-08 16:02 ? 12次 阅读
基于深度卷积神经网络的能见度检测

自编码器神经网络应用及实验综述

自编码器是深度学习中的一种非常重要的无监督学习方法,能够从大量无标签的数据中自动学习,得到蕴含在数据....
发表于 06-07 16:38 ? 13次 阅读
自编码器神经网络应用及实验综述

基于图像语义分割的毛笔笔触实时生成技术

书法在文化传承中占据重要地位,书法书写笔迹的生成也一直是计算机图形学的研究重点和难点。现存基于模型和....
发表于 06-07 15:10 ? 14次 阅读
基于图像语义分割的毛笔笔触实时生成技术

藏文句义分割方法综述

句子是字或词根据语法规则进行组合的编码,句义分割是句子组合规律的解码问题,即对句义进行解析。在藏文分....
发表于 06-07 11:53 ? 11次 阅读
藏文句义分割方法综述

联合时空域信息的重建视频增强方法

基于神经网络的视频质量增强方法能够明显减少视频压缩噪声,提高压缩视频的主观与客观质量。目前大多研究采....
发表于 06-04 15:38 ? 119次 阅读
联合时空域信息的重建视频增强方法

基于人体骨架的行为识别方法综述

基于人体骨架的行为识别方法综述
发表于 06-04 14:21 ? 27次 阅读
基于人体骨架的行为识别方法综述

基于改进CNN的医学图像分割方法

为了提高医学图像分割的精确性和鲁棒性,提岀了一种基于改进卷积神经网络的医学图像分割方法。首先采用卷积....
发表于 06-03 16:23 ? 29次 阅读
基于改进CNN的医学图像分割方法

面向图像识别的轻量级SepNet网络结构

针对卷积神经网络在图像识别任务上模型复杂度大、参数量多,首先提出了一种轻量仳的 Sepet网络结构,....
发表于 06-03 16:20 ? 17次 阅读
面向图像识别的轻量级SepNet网络结构

改进胶囊网络优化分成卷积的亚健康识别

针对传统卷积神经网络(CNN)为获得高准确率不断堆叠卷积层、池化层致使模型结构复杂、训练时间长且数据....
发表于 06-03 16:16 ? 8次 阅读
改进胶囊网络优化分成卷积的亚健康识别

基于卷积神经网络的图像描述生成方法

图像描述,即利用电脑自动描述图像的语义内容一直是计算机视觉领域的一项重要研究任务。尽管使用卷积神经网....
发表于 06-03 14:45 ? 12次 阅读
基于卷积神经网络的图像描述生成方法

基于神经网络的中文命名实体识别方法

在基于神经网络的中文命名实体识别过程中,字的向量化表示是重要步骤,而传统的词向量表示方法只是将字映射....
发表于 06-03 11:30 ? 16次 阅读
基于神经网络的中文命名实体识别方法

基于BiLSTM-CRF的细粒度知识图谱问答模型

基于知识图谱的问答中问句侯选主实体筛选步骤繁琐,且现有多数模型忽略了问句与关系的细粒度相关性。针对该....
发表于 06-03 11:25 ? 11次 阅读
基于BiLSTM-CRF的细粒度知识图谱问答模型

基于双向长短时记忆的序列标注神经网络模型

定义抽取是从非结构化文本中自动识别定义句的任务,定义抽取问题可建模为句子中术语及相应定义的序列标注问....
发表于 06-03 11:21 ? 13次 阅读
基于双向长短时记忆的序列标注神经网络模型

基于双向长短记忆网络等的情感分类方法

基于方面的情感分析已广泛应用于文本信息挖掘,但在句子情感极性模糊或包含多个不同方面情感极性时难以准确....
发表于 06-03 11:13 ? 12次 阅读
基于双向长短记忆网络等的情感分类方法

极限学习机处理不平衡数据分类的算法

基于代价敏感学习的极限学习机(ELM)算法在处理不平衡数据分类问题时,未考虑不同类别样本的分布特点以....
发表于 06-03 10:53 ? 11次 阅读
极限学习机处理不平衡数据分类的算法

基于全卷积神经网络的肝脏CT图像扫描

在计算机断层扫描(CT)图像中肝脏与相邻器官灰度值近似,且不同患者的肝脏轮廓存在差异性,导致肝脏CT....
发表于 06-02 17:11 ? 13次 阅读
基于全卷积神经网络的肝脏CT图像扫描

基于RBF神经网络的越区切换优化算法

在LTE-R越区切换中,基于A3事件的越区切换算法在列车高速运行时容易出现乒乓效应和无线链路连接失败....
发表于 06-02 15:14 ? 17次 阅读
基于RBF神经网络的越区切换优化算法

基于日志信息和CNN-text的软件系统异常检测

基于日志信息和CNN-text的软件系统异常检测
发表于 06-01 15:48 ? 14次 阅读
基于日志信息和CNN-text的软件系统异常检测

基于人工神经网络的驾驶动态辨识模型

驾驶倾向性是衡量驾驶员驾驶过程中情绪偏妤的动夵指标,是碰撞报警烝统中考虑的关键参教。在分析驾驶倾向性....
发表于 06-01 11:27 ? 72次 阅读
基于人工神经网络的驾驶动态辨识模型

基于FPGA的神经网络硬件实现方法

基于FPGA的神经网络硬件实现方法说明。
发表于 06-01 09:35 ? 25次 阅读
基于FPGA的神经网络硬件实现方法

基于进化计算的神经网络设计与实现

基于进化计算的神经网络设计与实现说明。
发表于 06-01 09:25 ? 13次 阅读
基于进化计算的神经网络设计与实现

基于神经网络的优化计算实验

掌握连续Hopfield神经网络的结构和运行机制,理解连续Hopfield神经网络用于优化计算的基本....
发表于 05-31 17:02 ? 12次 阅读
基于神经网络的优化计算实验

神经网络控制简介

神经网络控制基础知识简介。
发表于 05-31 16:37 ? 16次 阅读
神经网络控制简介

神经网络自适应控制及其发展应用

文章系统地阐述了神经网络自适应控制的本质、优势与研究进展,介绍了神经网络自适应控制的不同结构模型及其....
发表于 05-31 16:35 ? 22次 阅读
神经网络自适应控制及其发展应用

一种适用于模式识别的新型神经网络

提出了一种适用于模式识别的新型神经网络模型——局部有监督特征映射网络,描述了该网络的拓扑结构和学习算....
发表于 05-31 16:29 ? 12次 阅读
一种适用于模式识别的新型神经网络

自组织神经网络及其运用

自组织神经网络及其运用说明。
发表于 05-31 16:25 ? 15次 阅读
自组织神经网络及其运用

自构造RBF神经网络及其参数优化

自构造RBF神经网络及其参数优化说明。
发表于 05-31 15:25 ? 13次 阅读
自构造RBF神经网络及其参数优化

基于组合信号源的非线性采样系统辨识方法

为解决对非线性采样系统的状态空间 Hammerstein模型难以辨识的问题,提岀了基于组合信号源的辨....
发表于 05-31 14:32 ? 36次 阅读
基于组合信号源的非线性采样系统辨识方法

入门自然语言处理的基本任务——文本匹配

2020年初,新冠疫情席卷全球。除了“待在家,不乱跑”,我想还能从哪为抗击疫情出点微薄之力呢? 碰巧....
的头像 深度学习自然语言处理 发表于 05-31 11:51 ? 250次 阅读
入门自然语言处理的基本任务——文本匹配

基于DSCNN-BiLSTM的网络入侵检测方法

针对传统的入侵检测方法无法有效提取网络流量数据特征的问题,提岀了一种基于 DSCNN- BILSTM....
发表于 05-31 11:20 ? 18次 阅读
基于DSCNN-BiLSTM的网络入侵检测方法

小波神经网络在汽车电控汽油机故障诊断中的应用是什么?

本文对小波神经网络提出了两个方面的改进并将其应用于汽车电控汽油机故障诊断中。...
发表于 05-19 07:10 ? 0次 阅读
小波神经网络在汽车电控汽油机故障诊断中的应用是什么?

电网谐波的传统检测方法有哪几种?

电网谐波的传统检测方法有哪几种? 基于神经网络的有源电力滤波器应用研究 ...
发表于 05-13 07:03 ? 0次 阅读
电网谐波的传统检测方法有哪几种?

基于三层前馈BP神经网络的图像压缩算法解析

本文介绍了基于三层前馈BP神经网络的图像压缩算法,提出了基于FPGA的实现验证方案,详细讨论了实现该压缩网络组成的重要模...
发表于 05-06 07:01 ? 0次 阅读
基于三层前馈BP神经网络的图像压缩算法解析

基于FPGA的神经网络的性能评估及局限性

FPGA实现神经网络关键问题分析 基于FPGA的ANN实现方法 基于FPGA的神经网络的性能评估及局限性 ...
发表于 04-30 06:58 ? 0次 阅读
基于FPGA的神经网络的性能评估及局限性

Matlab神经网络工具箱是什么? 它在同步中的应用有哪些?

Matlab神经网络工具箱是什么? Matlab神经网络工具箱在同步中的应用有哪些? ...
发表于 04-26 06:42 ? 0次 阅读
Matlab神经网络工具箱是什么? 它在同步中的应用有哪些?

怎么用ZISC036lol赛事官网实现一个模式识别系统?

硬件神经网络技术ZISC的工作原理 如何用VLSI设计硬件神经网络? ZISC技术及其在模式识别中的应用 ...
发表于 04-12 06:55 ? 0次 阅读
怎么用ZISC036lol赛事官网实现一个模式识别系统?

如何利用MonteCarlo分析解决电路容差问题?

容差模拟电路的软故障诊断的小波方法 基于小波和量子神经网络的故障诊断原理 ...
发表于 04-12 06:40 ? 0次 阅读
如何利用MonteCarlo分析解决电路容差问题?

如何采用神经网络技术,对镍铬-镍硅热电偶进行了非线性校正?

请问如何采用基于虚拟仪器编程语言CVI编成的BP神经网络训练仪对K型镍铬-镍硅热电偶的非线性进行校正? ...
发表于 04-08 06:55 ? 0次 阅读
如何采用神经网络技术,对镍铬-镍硅热电偶进行了非线性校正?

CMSIS-NN神经网络内核可以让微控制器效率提升5倍是真的吗?

全新CMSIS-NN神经网络内核让微控制器效率提升5倍...
发表于 03-15 06:55 ? 202次 阅读
CMSIS-NN神经网络内核可以让微控制器效率提升5倍是真的吗?

什么是LSTM神经网络

简单理解LSTM神经网络
发表于 01-28 07:16 ? 202次 阅读
什么是LSTM神经网络