今天中午正打算去吃饭,收到了阿里的意向书,带来了一天的好心情。面经如下。
### 一面(0820)
* 讲一下transformer
* 蒸馏的原理
* GDBT和随机森林区别
* SVM为什么要对偶
* transformer attention为什么要做normalize
* 为什么用维度d_k做normalize
* 样本不均衡问题怎么解决
* overfit怎么解决
* 写一下focal loss和multihead attention的公式
### 二面(0825)
* densent优于其他resnet等
* 训练时一个batch的尺度差异很大,怎么解决
* MAE vs MSE
* soft attention vs hard attention
* transformer中的position embedding作用
* BN和LN
* tensorflow如何设置某些参数不传递梯度
* dropout 训练和推理时的差异
* sparse attention的具体过程
* java进程虚假唤醒
### 阿里3面(0828)
* 一个数左右两边都是素数,那么这个数一定能被6整除吗
* label smooth的其他用法
* 蒸馏思想的矛盾点:stu是想学习一个含有dark knowledge的label, 因此label相比于onehot编码,不同类别之间的距离会拉近,但这样对于分类任务来说应该是个副作用。如何解释?
* 根据GPS判断车辆是在缓慢前进还是停在原地
### 阿里4面(0904)
* 过拟合怎么解决
* 样本不均衡怎么解决
* 自己在做项目过程中遇到了什么问题,怎么解决
* 场景规划。预测用户开车从起点到终点的时间;计算当前点周围的点
### 阿里交叉面(0914)
* 讲msra项目
* 异常检测相关(安全问题)
* 讲一下论文
### 阿里hr面(0921)
* 春招还投递了其他bu
* 对比互联网和外企及其他
* 有其他offer及流程吗? 怎么选
* 兴趣爱好
* 讲一下transformer
* 蒸馏的原理
* GDBT和随机森林区别
* SVM为什么要对偶
* transformer attention为什么要做normalize
* 为什么用维度d_k做normalize
* 样本不均衡问题怎么解决
* overfit怎么解决
* 写一下focal loss和multihead attention的公式
### 二面(0825)
* densent优于其他resnet等
* 训练时一个batch的尺度差异很大,怎么解决
* MAE vs MSE
* soft attention vs hard attention
* transformer中的position embedding作用
* BN和LN
* tensorflow如何设置某些参数不传递梯度
* dropout 训练和推理时的差异
* sparse attention的具体过程
* java进程虚假唤醒
### 阿里3面(0828)
* 一个数左右两边都是素数,那么这个数一定能被6整除吗
* label smooth的其他用法
* 蒸馏思想的矛盾点:stu是想学习一个含有dark knowledge的label, 因此label相比于onehot编码,不同类别之间的距离会拉近,但这样对于分类任务来说应该是个副作用。如何解释?
* 根据GPS判断车辆是在缓慢前进还是停在原地
### 阿里4面(0904)
* 过拟合怎么解决
* 样本不均衡怎么解决
* 自己在做项目过程中遇到了什么问题,怎么解决
* 场景规划。预测用户开车从起点到终点的时间;计算当前点周围的点
### 阿里交叉面(0914)
* 讲msra项目
* 异常检测相关(安全问题)
* 讲一下论文
### 阿里hr面(0921)
* 春招还投递了其他bu
* 对比互联网和外企及其他
* 有其他offer及流程吗? 怎么选
* 兴趣爱好
========================================================
从8月20日至今,经历5轮技术面+1轮hrg面,整体来说流程还是比较快的,而且面试体验也非常好。
流程大概是:1面(0820), 2面(0825), 组内交叉面(0828), 主管面(0904), 跨bu交叉面(0914), hrg面(0921)
牛客许愿比较灵,希望有一个高德的offer,之后回来更面筋
全部评论
(9) 回帖