#百面机器学习

深度学习面试题14:Dropout(随机失活)

在训练过程中,Dropout会让输出中的每个值以概率keep_prob变为原来的1/keep_prob倍,以概率1-keep_prob变为0。也就是在每一轮的训练中让一些神经元随机失活,从而让每一个神经元都有机会得到更高效的学习,会让网络更加健壮,减小过拟合。在预测过程中,不再随机失活,也不在扩大神经元的输出。卷积层的...

深度学习面试题13:AlexNet(1000类图像分类)

第一个典型的CNN是LeNet5网络结构,但是第一个引起大家注意的网络却是AlexNet,AlexKrizhevsky其实是Hinton的学生,这个团队领导者是Hinton,于2012年发表论文。AlexNet有60million个参数和65000个神经元,五层卷积,三层全连接网络,最终的输出层是1000通道的soft...

深度学习面试题12:LeNet(手写数字识别)

LeNet是卷积神经网络的祖师爷LeCun在1998年提出,用于解决手写数字识别的视觉任务。自那时起,CNN的最基本的架构就定下来了:卷积层、池化层、全连接层。如今各大深度学习框架中所使用的LeNet都是简化改进过的LeNet-5(-5表示具有5个层),和原始的LeNet有些许不同,比如把激活函数改为了现在很常用的Re...

深度学习面试题11:池化(same池化、valid池化、带深度的池化)

池化(Pooling)操作与卷积类似,取输入张量的每个位置的矩形领域内的最大值或平均值作为该位置的输出。池化操作分为same池化和valid池化,同时还可以设置移动的步长Same最大值池化举例:4行4列的张量x和2行3列的掩码进行步长为1的same最大值池化,其过程如下池化的结果是 返回目录 多深度...

深度学习面试题10:二维卷积(Full卷积、Same卷积、Valid卷积、带深度的二维卷积)

二维卷积的原理和一维卷积类似,也有full卷积、same卷积和valid卷积。举例:3*3的二维张量x和2*2的二维张量K进行卷积二维Full卷积Full卷积的计算过程是:K沿着x从左到右,从上到下移动,每移动到一个固定位置,对应位置的值相乘再求和,计算过程如下: Full卷积的过程记为Cfull=x★K:&...

深度学习面试题09:一维卷积(Full卷积、Same卷积、Valid卷积、带深度的一维卷积)

一维卷积通常有三种类型:full卷积、same卷积和valid卷积,下面以一个长度为5的一维张量I和长度为3的一维张量K(卷积核)为例,介绍这三种卷积的计算过程  一维Full卷积Full卷积的计算过程是:K沿着I顺序移动,每移动到一个固定位置,对应位置的值相乘再求和,计算过程如下:将得到的值依次存...

深度学习面试题08:梯度消失与梯度爆炸

 以下图的全连接神经网络为例,来演示梯度爆炸和梯度消失:梯度消失在模型参数w都是(-1,1)之间的数的前提下,如果激活函数选择的是sigmod(x),那么他的导函数σ’(x)的值域为(0,0.25],即如下三项的范围都是(0,0.25] 那么w1的导数会有很多(0,0.25]范围的数累乘,就会造成w...

深度学习面试题07:sigmod交叉熵、softmax交叉熵

 sigmod交叉熵Sigmod交叉熵实际就是我们所说的对数损失,它是针对二分类任务的损失函数,在神经网络中,一般输出层只有一个结点。假设y为样本标签,_y为全连接网络的输出层的值,那么,这个对数损失定义为PS:这个是可以用极大似然估计推导出来的举例:y=0,_y=0.8,那此时的sigmod交叉熵为1.17...

深度学习面试题06:全连接神经网络正向传播与梯度反向传播

 链式法则类型一: 类型二: 类型三:     返回目录  逻辑回归的正、反向传播逻辑回归可以看做最简单的神经网络,他只有一个神经元,损失函数选择的是对数损失,他的正向传播过程如下图所示:逻辑回归可以看做最简单的神经网络...

深度学习面试题05:激活函数sigmod、tanh、ReLU、LeakyRelu、Relu6

 为什么要用激活函数在神经网络中,如果不对上一层结点的输出做非线性转换的话,再深的网络也是线性模型,只能把输入线性组合再输出(如下图),不能学习到复杂的映射关系,因此需要使用激活函数这个非线性函数做转换。 返回目录 sigmodSigmod激活函数和导函数分别为对应的图像分别为: ...

深度学习面试题04:随机梯度下降法、批量梯度下降法、小批量梯度下降

在《深度学习面试题03改进版梯度下降法Adagrad、RMSprop、Momentum、Adam》中讲到了多种改进的梯度下降公式。而这篇文章和03篇描述的不是一个事情,我们从一个例子说起,就知道改良的GD算法和本节介绍的GD算法的不同点了。一元线性回归模型举例:以房屋面积预测房屋价格假设函数可以设置为 返回目...

深度学习面试题03:改进版梯度下降法Adagrad、RMSprop、Momentum、Adam

发展历史 标准梯度下降法的缺陷如果学习率选的不恰当会出现以上情况 因此有一些自动调学习率的方法。一般来说,随着迭代次数的增加,学习率应该越来越小,因为迭代次数增加后,得到的解应该比较靠近最优解,所以要缩小步长η,那么有什么公式吗?比如:,但是这样做后,所有参数更新时仍都采用同一个学习率,即学习率不能...

深度学习面试题02:标准梯度下降法

 梯度下降是一种迭代式的最优化手段,在机器学习中一般用于求目标函数的极小值点,这个极小值点就是最优的模型内部参数。相比求解析解的手段,GD的通用性更强,所以受到广泛的使用。一元函数的梯度下降法比如求解f(x)=(x-1)2的最小值点梯度下降的公式为,上标表示第i轮的x值初始化点x(0) =4,学习率...

深度学习面试题01:导数、偏导数、方向导数、梯度的概念

 导数导数反映的是函数y=f(x)在某一点处沿x轴正方向的变化率。  比如y=x2,在x=1处的导数=2。 导数是通过极限来定义的,某一点的导数=tanψ,但是前提是△x趋近于0,此时tanψ=tanα=该点导数,公式如下:   返回目录 ...

【深度学习】关于Adam

版权声明:本文为博主原创文章,遵循CC4.0by-sa版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/weixin_31866177/article/details/88601294从SGD(SGD指mini-batchgradientdescent)和Adam两个方面说...
代码星球 代码星球·2021-02-12
首页上一页...3536373839...下一页尾页