背景:介绍一下项目,怎么做的,有什么难点。
1.bert怎么做,过拟合怎么办,l1l2的梯度上怎么理解,dropout的训练,测试。
2.attention的结构,为什么除以dk,multi head的过程
3.模态融合怎么做,有没有更好的方案
4.mmoe结构说一下,专家层失效是什么原因,怎么解决
笔试:[1,1,1] target = 1,对数组不同数字加正负号后求和,求方案数。
复盘:bert还有一些小细节还没有注意到,需要多注意。还有方案复盘应该更多一些,结合论文多整理。
全部评论
(2) 回帖