蒋豆芽

编辑于 2021-07-21 10:27

本人心血总结，为机器学习、算法求职的同学助力！！！

本专栏适合于Python已经入门的学生或人士，有一定的编程基础。
本专栏适合于算法、机器学习求职的学生或人士。
本专栏特点：
- 本专栏囊括了深度学习、机器学习、NLP、特征工程等一系列知识点的讲解，并且最后总结出了高频面试考点（附有答案）【共301道】，知识点讲解全面，事半功倍，为大家春秋招助力。不仅如此，教程还讲解了简历制作、笔试面试准备、面试技巧等内容。网址：https://blog.nowcoder.net/zhuanlan/qMKkxM

之前本人的C++与嵌入式教程（详情请看这篇帖子：https://www.nowcoder.com/discuss/631829?source_id=profile_create_nctrack&channel=-1 ） 知识点非常全面，适合非科班的同学，几个月以来广受好评。

作者介绍

湖南大学（985）硕士研究生（1%保研），国家奖学金、省优秀研究生称号获得者。校招面试过数十家公司，经验丰富，获得过华为、京东、顺丰科技等公司offer。个人面试经历写作为专刊文章，目前为牛客网专刊作者。擅长机器学习、C++后台开发、嵌入式软件开发。非科班研究生，立志进入互联网领域，最后通过自己的努力拿到大公司的offer，将自己的经历写入了《蒋豆芽的秋招打怪之旅》故事中，和大家分享春秋招的酸甜苦辣。

大纲

机器学习面试题汇总与解析——损失函数

说一下你了解的损失函数？⭐⭐⭐⭐⭐
说说你平时都用过什么损失函数，各自什么特点？⭐⭐⭐⭐⭐
交叉熵函数与最大似然函数的联系和区别？⭐⭐⭐⭐⭐
在用sigmoid作为激活函数的时候，为什么要用交叉熵损失函数，而不用均方误差损失函数？⭐⭐⭐⭐⭐
关于交叉熵损失函数（Cross-entropy）和平方损失（MSE）的区别？⭐⭐⭐⭐⭐
推导交叉熵损失函数？⭐⭐⭐⭐⭐
为什么交叉熵损失函数有log项？⭐⭐⭐⭐⭐
说说adaboost损失函数⭐⭐⭐⭐
说说SVM损失函数⭐⭐⭐⭐
简单的深度神经网络（DNN）的损失函数是什么？⭐⭐⭐⭐
说说KL散度⭐⭐⭐⭐
说说Yolo的损失函数⭐⭐⭐⭐⭐
交叉熵的设计思想是什么⭐⭐⭐⭐⭐
说说iou计算⭐⭐⭐⭐⭐
手写miou计算⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——激活函数

说一下你了解的激活函数？分别应用于什么场景？⭐⭐⭐⭐⭐
说说你平时都用过什么激活函数，各自什么特点？⭐⭐⭐⭐⭐
写一下leaky ReLU的公式，跟ReLU比有什么优势？⭐⭐⭐⭐⭐
了解ReLU6吗？⭐⭐⭐⭐⭐
sigmoid有什么缺点，有哪些解决办法？⭐⭐⭐⭐⭐
relu在零点可导吗，不可导如何进行反向传播？⭐⭐⭐⭐⭐
推导sigmoid求导公式⭐⭐⭐⭐⭐
Softmax公式，溢出怎么处理⭐⭐⭐⭐⭐
Softmax公式求导⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——优化函数

说一下你了解的优化函数？⭐⭐⭐⭐⭐
SGD和Adam谁收敛的比较快？谁能达到全局最优解？⭐⭐⭐⭐⭐
说说常见的优化器以及优化思路，写出他们的优化公式⭐⭐⭐⭐⭐
深度学习中的优化算法总结 Optimizer⭐⭐⭐⭐⭐
adam用到二阶矩的原理是什么⭐⭐⭐⭐⭐
Batch的大小如何选择，过大的batch和过小的batch分别有什么影响⭐⭐⭐⭐⭐
梯度下降的思想⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——正则化

解决模型训练过拟合有哪些思路？⭐⭐⭐⭐⭐
如何判断过拟合？⭐⭐⭐⭐⭐
正则化 $l_1$ （lasso）和 $l_2$ （ridge）的区别？⭐⭐⭐⭐⭐
L1有什么缺点？⭐⭐⭐⭐⭐
L1正则为什么可以达到模型的稀疏性⭐⭐⭐⭐⭐
说说BN（Batch Normolization）的原理⭐⭐⭐⭐⭐
知道BN吗？公式写一下，有什么作用与优势？BN的计算过程。⭐⭐⭐⭐⭐
BN训练和测试有什么不同？⭐⭐⭐⭐⭐
介绍一下BN和LN？有什么差异？LN是在哪个维度上进行归一化？⭐⭐⭐⭐⭐
要同时使用BN和dropout该如何使用？⭐⭐⭐⭐⭐
BN的gama labada意义⭐⭐⭐⭐⭐
数据增强的方法⭐⭐⭐⭐⭐
两个正则化的参数分布⭐⭐⭐⭐⭐
在预测的时候，是使用dropout训练出的权重还是要乘以keep-prib呢，为什么？⭐⭐⭐⭐⭐
为什么Lasso可以筛选变量?⭐⭐⭐⭐⭐
L1正则化为什么能缓解过拟合⭐⭐⭐⭐⭐
BN+CONV融合公式及作用⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——初始化方法

说说初始化方法有哪些？⭐⭐⭐⭐⭐
理想的参数初始化方法是什么？⭐⭐⭐⭐⭐
说说你用过的初始化方法，都有哪些优缺点⭐⭐⭐⭐⭐
网络参数初始化为0可以吗？⭐⭐⭐⭐⭐
随机初始化参数有什么问题？⭐⭐⭐⭐⭐
手推梯度消失和梯度爆炸问题⭐⭐⭐⭐⭐
怎么缓解梯度消失⭐⭐⭐⭐⭐
梯度消失的根本原因⭐⭐⭐⭐⭐
说说归一化方法⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——卷积与池化

说说有哪些卷积⭐⭐⭐⭐⭐
卷积实现原理？⭐⭐⭐⭐⭐
卷积基本计算公式，padding⭐⭐⭐⭐⭐
卷积操作后的特征图大小⭐⭐⭐⭐⭐
常规卷积和深度可分离卷积的计算量⭐⭐⭐⭐⭐
反卷积是怎么做的， unpooling中maxPooling怎么实现？⭐⭐⭐⭐⭐
什么是空洞卷积？⭐⭐⭐⭐⭐
知道哪些卷积类型？请介绍一下⭐⭐⭐⭐⭐
为什么Depthwise卷积后还要进行pointwise卷积⭐⭐⭐⭐⭐
卷积的底层实现/加速技巧⭐⭐⭐⭐⭐
1x1卷积有什么作用⭐⭐⭐⭐⭐
CNN有什么特点和优势⭐⭐⭐⭐⭐
说说你了解的pooling方法⭐⭐⭐⭐⭐
pooling层的作用⭐⭐⭐⭐⭐
常用的pooling方法有哪些，那个更好？⭐⭐⭐⭐⭐
说一下ROI Pooling⭐⭐⭐⭐⭐
说一下maxpooling的反向传播怎么处理⭐⭐⭐⭐⭐
语义分割上采样的方法⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——技术发展

说说分类网络的发展⭐⭐⭐⭐
为什么要设计残差连接⭐⭐⭐⭐⭐
说说语义分割网络的发展⭐⭐⭐⭐
deeplabV3有什么改进，具体讲一下⭐⭐⭐⭐⭐
vgg16同期还有哪些网络，inception网络有什么特点⭐⭐⭐⭐⭐
什么是感受野？⭐⭐⭐⭐⭐
讲一下 mobileNet系列，ResNet系列⭐⭐⭐⭐⭐
说说目标检测的发展⭐⭐⭐⭐⭐
讲一下目标检测one stage， two stage，讲一下yoloV1⭐⭐⭐⭐⭐
yolo实现，损失函数⭐⭐⭐⭐⭐
Faster R-CNN 的具体流程⭐⭐⭐⭐⭐
Faster R-CNN 训练和测试的流程有什么不一样⭐⭐⭐⭐⭐
YOLOv3和Faster R-CNN 的差异⭐⭐⭐⭐⭐
YOLO系列有几个版本，YOLOv4 用到了哪优化方法⭐⭐⭐⭐⭐
除了聚类，还有哪些anchor的设计⭐⭐⭐⭐⭐
anchor的理解⭐⭐⭐⭐⭐
Anchor-free的优势在哪里⭐⭐⭐⭐⭐
介绍比赛中的有用的trick有哪些⭐⭐⭐⭐
手写nms⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——评价指标

说说机器学习评价指标⭐⭐⭐⭐⭐
AUC是什么？AUC是否对正负样本比例敏感？⭐⭐⭐⭐⭐
分类模型如何评价⭐⭐⭐⭐⭐
准确率与精准率的区别⭐⭐⭐⭐⭐
AUC的意义和两种计算方法⭐⭐⭐⭐⭐
讲讲分类，回归，推荐，搜索的评价指标⭐⭐⭐⭐⭐
AB test的原理⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——线性回归与逻辑回归

逻辑回归 LR 详细推导⭐⭐⭐⭐⭐
回归和分类的区别⭐⭐⭐⭐⭐
逻辑回归特征是否归一化⭐⭐⭐⭐⭐
什么样的模型需要特征归一化⭐⭐⭐⭐⭐
如何提升LR的模型性能？⭐⭐⭐⭐⭐
逻辑回归为啥要做特征离散化⭐⭐⭐⭐⭐
LR的详细过程，如何优化⭐⭐⭐⭐⭐
知道什么损失函数，lr公式推导⭐⭐⭐⭐⭐
最小二乘法在什么条件下与极大似然估计等价？⭐⭐⭐⭐⭐
逻辑回归为什么不用平方损失函数？⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——SVM

推导SVM⭐⭐⭐⭐⭐
LR 和 SVM 联系与区别⭐⭐⭐⭐⭐
svm介绍一下⭐⭐⭐⭐⭐
讲一下SVM的原理⭐⭐⭐⭐⭐
如果特征比较多，用LR还是SVM?⭐⭐⭐⭐⭐
介绍SVM⭐⭐⭐⭐⭐
SVM是否可以用随机梯度下降⭐⭐⭐⭐⭐
SVM优缺点⭐⭐⭐⭐⭐
为什么要将求解 SVM 的原始问题转换为其对偶问题⭐⭐⭐⭐⭐
为什么SVM对缺失数据敏感⭐⭐⭐⭐⭐
SVM怎么防止过拟合 ?⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——KNN

KNN介绍一下⭐⭐⭐⭐
KNN优缺点⭐⭐⭐⭐
KNN的K值怎么选⭐⭐⭐⭐
KNN数据需要归一化吗？⭐⭐⭐⭐
KNN三要素说一下⭐⭐⭐⭐
欧式距离与曼哈顿距离区别⭐⭐⭐⭐
knn的k设置的过大会有什么问题⭐⭐⭐⭐

机器学习面试题汇总与解析——聚类

k-means介绍一下⭐⭐⭐⭐⭐
k-means优缺点⭐⭐⭐⭐⭐
k-means的簇怎么选⭐⭐⭐⭐⭐
k-means如何调优⭐⭐⭐⭐⭐
知道哪些聚类模型⭐⭐⭐⭐⭐
K-means的过程⭐⭐⭐⭐⭐
K-means如何选取K值⭐⭐⭐⭐⭐
kmeans聚类如何选择初始点⭐⭐⭐⭐⭐
kmeans聚类，聚的是特征还是样本？特征的距离如何计算？⭐⭐⭐⭐⭐
聚类算法知道哪些⭐⭐⭐⭐⭐
Kmeans算法和EM算法的关系⭐⭐⭐⭐⭐
写Kmeans代码⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——决策树

决策树介绍一下⭐⭐⭐⭐⭐
决策树优缺点⭐⭐⭐⭐⭐
决策树的划分标准是什么⭐⭐⭐⭐⭐
ID3和C4.5的区别⭐⭐⭐⭐⭐
树模型对离散特征怎么处理的⭐⭐⭐⭐⭐
树模型怎么决定一个叶子结点是否要分裂⭐⭐⭐⭐⭐
决策树出现过拟合的原因及解决办法⭐⭐⭐⭐⭐
如何对决策树进行剪枝？⭐⭐⭐⭐⭐
决策树需要进行归一化处理吗⭐⭐⭐⭐⭐
决策树与逻辑回归的区别⭐⭐⭐⭐⭐
说下决策树的损失函数⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——集成学习、Adaboost、随机森林、GBDT、xgBoost、LightGBM

LightGBM和xgBoost、GBDT的区别⭐⭐⭐⭐⭐
xgBoost和gbdt的区别⭐⭐⭐⭐⭐
xgBoost的block结构⭐⭐⭐⭐⭐
XGBoost的优缺点⭐⭐⭐⭐⭐
集成学习 Bagging Boosting⭐⭐⭐⭐⭐
RF和GBDT的区别⭐⭐⭐⭐⭐
GBDT是否适合于处理大规模的ID特征⭐⭐⭐⭐⭐
LightGBM的直方图排序后会比xgboost的效果差吗，为什么⭐⭐⭐⭐⭐
xgboost正则化项和什么有关⭐⭐⭐⭐⭐
随机森林哪两个随机⭐⭐⭐⭐⭐
bootstrap怎么做的⭐⭐⭐⭐⭐
介绍GBDT的详细计算过程⭐⭐⭐⭐⭐
xgb的正则项是什么⭐⭐⭐⭐⭐
xgboost缺失值处理方法⭐⭐⭐⭐⭐
为什么xgboost要二阶展开？⭐⭐⭐⭐⭐
集成学习的方法有哪些⭐⭐⭐⭐⭐
泰勒公式求e的近似值⭐⭐⭐⭐⭐
XGBoost 如果损失函数没有二阶导，该怎么办⭐⭐⭐⭐⭐
GBDT的G梯度的向量长度为多少⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——NLP

LSTM与transform的区别⭐⭐⭐⭐⭐
讲一下Bert原理，Bert好在哪里？⭐⭐⭐⭐⭐
cbow 与 skip-gram 的区别和优缺点⭐⭐⭐⭐⭐
Bert的MLM预训练任务mask的目的是什么⭐⭐⭐⭐⭐
CRF原理⭐⭐⭐⭐
Bert 采用哪种Normalization结构，LayerNorm和BatchNorm区别，LayerNorm结构有参数吗，参数的作用？⭐⭐⭐⭐⭐
如何优化BERT效果⭐⭐⭐⭐⭐
BERT self-attention相比lstm优点是什么？⭐⭐⭐⭐⭐
说说循环神经网络⭐⭐⭐⭐⭐
说说LSTM⭐⭐⭐⭐⭐
LSTM的结构⭐⭐⭐⭐⭐
LSTM的三个门怎么运作的，写一下三个门的公式⭐⭐⭐⭐⭐
LSTM为什么可以解决长期依赖，LSTM会梯度消失吗⭐⭐⭐⭐⭐
LSTM相较于RNN的优势⭐⭐⭐⭐⭐
讲一下LSTM，LSTM相对于RNN有哪些改进？LSTM为什么可以解决长期问题，相对与RNN改进在哪
讲一下LSTM吧，门都是怎么迭代的⭐⭐⭐⭐⭐
RNN为什么难以训练，LSTM又做了什么改进⭐⭐⭐⭐⭐
wide & deep 模型 wide 部分和 deep 部分分别侧重学习什么信息⭐⭐⭐⭐⭐
deepfm 一定优于 wide & deep 吗⭐⭐⭐⭐⭐
Bert的输入是什么？⭐⭐⭐⭐⭐
Bert的词向量的embedding怎么训练得到的？⭐⭐⭐⭐⭐
self-attention理解和作用，为什么要除以根号dk？⭐⭐⭐⭐⭐
BERT中并行计算体现在哪儿⭐⭐⭐⭐⭐
翻译中Q\K\V对应的是什么⭐⭐⭐⭐⭐
attention和self attention的区别⭐⭐⭐⭐⭐
介绍transformer以及讲优势⭐⭐⭐⭐⭐
Transformer encoder和decoder的介绍⭐⭐⭐⭐⭐
BERT模型怎么做的?大致的网络架构是怎么样的?⭐⭐⭐⭐⭐
transformer的position embedding和BERT的position embedding的区别⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——模型优化

若CNN网络很庞大，在手机上运行效率不高，对应模型压缩方法有了解吗⭐⭐⭐⭐⭐
介绍一下模型压缩常用的方法？为什么用知识蒸馏？⭐⭐⭐⭐⭐
知道模型蒸馏吗？谈下原理⭐⭐⭐⭐⭐
做过模型优化吗？模型蒸馏和模型裁剪？⭐⭐⭐⭐⭐
squeezeNet的Fire Module有什么特点？⭐⭐⭐⭐
降低网络复杂度但不影响精度的方法⭐⭐⭐⭐⭐
如果让模型速度提高一倍，有什么解决方案？⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——朴素贝叶斯

朴素贝叶斯介绍一下⭐⭐⭐⭐⭐
朴素贝叶斯优缺点⭐⭐⭐⭐⭐
贝叶斯公式⭐⭐⭐⭐⭐
朴素贝叶斯中的“朴素”怎么理解？⭐⭐⭐⭐⭐
什么是拉普拉斯平滑法?⭐⭐⭐⭐⭐
朴素贝叶斯中有没有超参数可以调？⭐⭐⭐⭐⭐
你知道朴素贝叶斯有哪些应用吗？⭐⭐⭐⭐⭐
朴素贝叶斯对异常值敏不敏感？⭐⭐⭐⭐⭐
频率学派与贝叶斯学派的差别⭐⭐⭐⭐
概率与期望的公式⭐⭐⭐⭐
先验概率与后验概率⭐⭐⭐⭐

机器学习面试题汇总与解析——PCA与LDA

PCA介绍一下⭐⭐⭐⭐⭐
PCA算法步骤⭐⭐⭐⭐⭐
PCA原理⭐⭐⭐⭐⭐
PCA降维之后的维度怎么确定⭐⭐⭐⭐⭐
说说PCA的优缺点⭐⭐⭐⭐⭐
推导一下PCA⭐⭐⭐⭐⭐
降维方法有哪些？⭐⭐⭐⭐⭐
LDA介绍一下⭐⭐⭐⭐⭐
LDA的中心思想是什么⭐⭐⭐⭐⭐
LDA的优缺点⭐⭐⭐⭐⭐
说说LDA的步骤⭐⭐⭐⭐⭐
推导一下LDA⭐⭐⭐⭐⭐
PCA和LDA有什么区别⭐⭐⭐⭐⭐
偏差与方差⭐⭐⭐⭐
SVD懂么⭐⭐⭐⭐⭐
方差和协方差的理解⭐⭐⭐⭐
伯努利分布和二项分布的区别⭐⭐⭐⭐

机器学习面试题汇总与解析——GAN

GAN是用来干什么的，怎么用的，介绍一下⭐⭐⭐⭐⭐
GANs的优缺点是什么?⭐⭐⭐⭐⭐
GAN为什么不好收敛⭐⭐⭐⭐⭐
为什么GAN中的优化器不常用SGD⭐⭐⭐⭐⭐
生成对抗网络在哪里用到的，起什么作用，损失函数是什么⭐⭐⭐⭐⭐
训练GAN的一些技巧⭐⭐⭐⭐⭐
说说GAN的训练过程⭐⭐⭐⭐⭐
Pix2pix和cycleGan的区别⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——特征工程

特征工程有哪些⭐⭐⭐⭐⭐
遇到缺值的情况，有哪些处理方式⭐⭐⭐⭐⭐
样本不均衡的处理办法⭐⭐⭐⭐⭐
训练时样本不平衡问题如何解决；小样本问题如何解决⭐⭐⭐⭐⭐
常见的筛选特征的方法有哪些？⭐⭐⭐⭐⭐
数据怎么清洗，缺失值怎么填充⭐⭐⭐⭐⭐
出现Nan的原因⭐⭐⭐⭐⭐
特征筛选，怎么找出相似性高的特征并去掉⭐⭐⭐⭐⭐
对于不同场景机器学习和深度学习你怎么选择，你更习惯机器学习还是深度学习？⭐⭐⭐⭐⭐
包含百万、上亿特征的数据在深度学习中怎么处理⭐⭐⭐⭐⭐
类别型数据你是如何处理的？比如游戏品类，地域，设备⭐⭐⭐⭐
计算特征之间的相关性方法有哪些？⭐⭐⭐⭐

机器学习面试题汇总与解析——传统算法

傅里叶变换公式及其推导⭐⭐⭐
边缘检测算法⭐⭐⭐
牛顿法的推导过程⭐⭐⭐
了解哪些插值算法⭐⭐⭐
SIFT的整个详细流程⭐⭐⭐
SIFT和SURF的区别⭐⭐⭐
牛顿法和拟牛顿法⭐⭐⭐
FFT和DFT的区别⭐⭐⭐
双线性差值的操作过程⭐⭐⭐

机器学习面试题汇总与解析——Python

python 深拷贝与浅拷贝⭐⭐⭐⭐⭐
python多线程能用多个cpu么？⭐⭐⭐⭐⭐
python垃圾回收机制⭐⭐⭐⭐⭐
python里的生成器是什么⭐⭐⭐⭐⭐
迭代器和生成器的区别⭐⭐⭐⭐⭐
装饰器⭐⭐⭐⭐⭐
python有哪些数据类型⭐⭐⭐⭐⭐
Python 中列表（ List ）中的 del，remove，和 pop 等的用法和区别⭐⭐⭐⭐⭐
python yeild 和return的区别⭐⭐⭐⭐⭐
python set底层实现⭐⭐⭐⭐⭐
python字典和set()的区别⭐⭐⭐⭐⭐
怎么对字典的值进行排序？⭐⭐⭐⭐⭐
init和new和call的区别⭐⭐⭐⭐⭐
import常用库⭐⭐⭐
python的lamda函数⭐⭐⭐⭐⭐
Python内存管理⭐⭐⭐⭐⭐
python在内存上做了哪些优化？⭐⭐⭐⭐⭐
Python中类方法和静态方法的区别⭐⭐⭐⭐⭐
python多线程怎么实现⭐⭐⭐⭐⭐
点积和矩阵相乘的区别？⭐⭐⭐⭐
Python中错误和异常处理⭐⭐⭐⭐
Python 的传参是传值还是传址？⭐⭐⭐⭐
什么是猴子补丁？⭐⭐⭐⭐
当退出 Python 时是否释放所有内存分配？⭐⭐⭐⭐
Python 中的 is 和 == 有什么区别？⭐⭐⭐⭐
gbk和utf8的区别⭐⭐⭐⭐
遍历字典可以用什么方法⭐⭐⭐⭐
反转列表的方法⭐⭐⭐⭐
python 元组中元组转为字典⭐⭐⭐⭐
range在python2和python3里的区别⭐⭐⭐⭐
__init__.py 文件的作用以及意义⭐⭐⭐⭐

机器学习面试题汇总与解析——HR面

本章讲解知识点

1.1 HR心理复盘
1.2 HR常问问题——学校的表现怎么样啊？
1.3 HR常问问题——了解我们公司吗？
1.4 HR常问问题——个人情况
1.5 HR常问问题——业余生活
1.6 HR常问问题——薪资待遇
1.7 HR常问问题——人性考察

已采纳

采纳

精彩回帖

精彩

全部评论

(20) 回帖

加载中...

话题同步到我的动态回帖

本人心血总结，为机器学习、算法求职的同学助力！！！

作者介绍

大纲

机器学习面试题汇总与解析——损失函数

说一下你了解的损失函数？⭐⭐⭐⭐⭐

说说你平时都用过什么损失函数，各自什么特点？⭐⭐⭐⭐⭐

交叉熵函数与最大似然函数的联系和区别？⭐⭐⭐⭐⭐

在用sigmoid作为激活函数的时候，为什么要用交叉熵损失函数，而不用均方误差损失函数？⭐⭐⭐⭐⭐

关于交叉熵损失函数（Cross-entropy）和 平方损失（MSE）的区别？⭐⭐⭐⭐⭐

推导交叉熵损失函数？⭐⭐⭐⭐⭐

为什么交叉熵损失函数有log项？⭐⭐⭐⭐⭐

说说adaboost损失函数⭐⭐⭐⭐

说说SVM损失函数⭐⭐⭐⭐

简单的深度神经网络（DNN）的损失函数是什么？⭐⭐⭐⭐

说说KL散度⭐⭐⭐⭐

说说Yolo的损失函数⭐⭐⭐⭐⭐

交叉熵的设计思想是什么⭐⭐⭐⭐⭐

说说iou计算⭐⭐⭐⭐⭐

手写miou计算⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——激活函数

说一下你了解的激活函数？分别应用于什么场景？⭐⭐⭐⭐⭐

说说你平时都用过什么激活函数，各自什么特点？⭐⭐⭐⭐⭐

写一下leaky ReLU的公式，跟ReLU比有什么优势？⭐⭐⭐⭐⭐

了解ReLU6吗？⭐⭐⭐⭐⭐

sigmoid有什么缺点，有哪些解决办法？⭐⭐⭐⭐⭐

relu在零点可导吗，不可导如何进行反向传播？⭐⭐⭐⭐⭐

推导sigmoid求导公式⭐⭐⭐⭐⭐

Softmax公式，溢出怎么处理⭐⭐⭐⭐⭐

Softmax公式求导⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——优化函数

说一下你了解的优化函数？⭐⭐⭐⭐⭐

SGD和Adam谁收敛的比较快？谁能达到全局最优解？⭐⭐⭐⭐⭐

说说常见的优化器以及优化思路，写出他们的优化公式⭐⭐⭐⭐⭐

深度学习中的优化算法总结 Optimizer⭐⭐⭐⭐⭐

adam用到二阶矩的原理是什么⭐⭐⭐⭐⭐

Batch的大小如何选择，过大的batch和过小的batch分别有什么影响⭐⭐⭐⭐⭐

梯度下降的思想⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——正则化

解决模型训练过拟合有哪些思路？⭐⭐⭐⭐⭐

如何判断过拟合？⭐⭐⭐⭐⭐

正则化（lasso）和（ridge）的区别？⭐⭐⭐⭐⭐

L1有什么缺点？⭐⭐⭐⭐⭐

L1正则为什么可以达到模型的稀疏性⭐⭐⭐⭐⭐

说说BN（Batch Normolization）的原理⭐⭐⭐⭐⭐

知道BN吗？公式写一下，有什么作用与优势？BN的计算过程。⭐⭐⭐⭐⭐

BN训练和测试有什么不同？⭐⭐⭐⭐⭐

介绍一下BN和LN？有什么差异？LN是在哪个维度上进行归一化？⭐⭐⭐⭐⭐

要同时使用BN和dropout该如何使用？⭐⭐⭐⭐⭐

BN的gama labada意义⭐⭐⭐⭐⭐

数据增强的方法⭐⭐⭐⭐⭐

两个正则化的参数分布⭐⭐⭐⭐⭐

在预测的时候，是使用dropout训练出的权重还是要乘以keep-prib呢，为什么？⭐⭐⭐⭐⭐

为什么Lasso可以筛选变量?⭐⭐⭐⭐⭐

L1正则化为什么能缓解过拟合⭐⭐⭐⭐⭐

BN+CONV融合公式及作用⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——初始化方法

说说初始化方法有哪些？⭐⭐⭐⭐⭐

理想的参数初始化方法是什么？⭐⭐⭐⭐⭐

说说你用过的初始化方法，都有哪些优缺点⭐⭐⭐⭐⭐

网络参数初始化为0可以吗？⭐⭐⭐⭐⭐

随机初始化参数有什么问题？⭐⭐⭐⭐⭐

手推梯度消失和梯度爆炸问题⭐⭐⭐⭐⭐

怎么缓解梯度消失⭐⭐⭐⭐⭐

梯度消失的根本原因⭐⭐⭐⭐⭐

说说归一化方法⭐⭐⭐⭐⭐

机器学习面试题汇总与解析——卷积与池化

说说有哪些卷积⭐⭐⭐⭐⭐

卷积实现原理？⭐⭐⭐⭐⭐

卷积基本计算公式，padding⭐⭐⭐⭐⭐

卷积操作后的特征图大小⭐⭐⭐⭐⭐

常规卷积和深度可分离卷积的计算量⭐⭐⭐⭐⭐

反卷积是怎么做的， unpooling中maxPooling怎么实现？⭐⭐⭐⭐⭐

什么是空洞卷积？⭐⭐⭐⭐⭐

知道哪些卷积类型？请介绍一下⭐⭐⭐⭐⭐

为什么Depthwise卷积后还要进行pointwise卷积⭐⭐⭐⭐⭐

卷积的底层实现/加速技巧⭐⭐⭐⭐⭐

1x1卷积有什么作用⭐⭐⭐⭐⭐

CNN有什么特点和优势⭐⭐⭐⭐⭐

说说你了解的pooling方法⭐⭐⭐⭐⭐

pooling层的作用⭐⭐⭐⭐⭐

关于交叉熵损失函数（Cross-entropy）和平方损失（MSE）的区别？⭐⭐⭐⭐⭐

正则化 $l_1$ （lasso）和 $l_2$ （ridge）的区别？⭐⭐⭐⭐⭐