首页 > 字节 算法 一二三面 面经
头像
阿姨快点发offer啊
发布于 2021-08-20 21:23
+ 关注

字节 算法 一二三面 面经


一面:
1. QK的放缩因子
2. decoder的mask层是如何设计的
3. 为什么需要多头注意力
4. transformer的Position-wise Feed-Forward Networks为什么需要降维升维。
5. 过拟合、欠拟合怎么处理

笔试:[1,2,3,4,54,56,5] 不能相隔偷,最多能投多少

二面:
1.encoder层介绍一下。
2.dropout介绍一下,训练和推理有什么区别。
3.dropout、normalazation、激活函数的先后顺序。


三面:
先笔试:
括号匹配,三数之和组合数
1.MMoE伪代码
2.attention,相关系数,交叉熵伪代码
3.loss weight调参的经验
4.attention的踩坑经验
5.不确定性加权怎么做,为什么不work。

许愿HR面!!许愿!!!



更多模拟面试

全部评论

(5) 回帖
加载中...
话题 回帖

相关热帖

历年真题 真题热练榜 24小时
技术(软件)/信息技术类
查看全部

热门推荐