背景:介绍一下项目,怎么做的,有什么难点。
1.bert怎么做,过拟合怎么办,l1l2的梯度上怎么理解,dropout的训练,测试。
2.attention的结构,为什么除以dk,multi head的过程
3.模态融合怎么做,有没有更好的方案
4.mmoe结构说一下,专家层失效是什么原因,怎么解决
扫描二维码,关注牛客
下载牛客APP,随时随地刷题
全部评论
(2) 回帖