首页 > 拼多多-拼越计划-一面冰经
头像
ty丶ziaaaaa
编辑于 2020-08-14 15:34
+ 关注

拼多多-拼越计划-一面冰经

一面
先自我介绍,开始问项目,主要是用到的模型和算法的细节和作用的理解,正常问题。
开始发散:
你项目中的超参是怎么调的,比如学习率或者优化方法,都用过哪些方法。
答:学习率从不使loss NaN的最大量级开始,随训练epoch 衰减 或 warm-up;优化方法用的RMSprop,源码中用的这个,中间尝试过用SGD和Adam,但是都训不好,由于这里面超参调整比较费时间,没做过多尝试,后面就一直用的RMSProp。
问:为什么其他优化方法用了效果不好呢?
答:可能优化空间不适合,各种优化方法各有优缺点。(我咋知道这里哪个更合适啊5555)
追问:adagrad用过没?跟SGD有何区别?
答:在sgd基础上对学习率除以了梯度的平方和累计,每个权重有其自适应的学习率,前期能加快收敛,但后面也有缺陷...
追问:SGD里面的“S”,什么意思?
答:随机,随机取样本,相当于梯度也是随机方向。(这个问题把我整麻了...求大佬帮我解释一哈) (面试官一脸疑问:“是随机吗?...”)
问:训练里面用过多卡吧?里面对梯度有啥操作?
答:用过,多卡 并行计算梯度,然后一个step对多卡梯度进行平均,然后进行梯度更新,如此往复。
追问:为什么要对多卡的梯度做平均?
答:(疑问脸(不然呢?我要哭了)不确定的语气:) 多gpu的目的不是为了提高batchsize,梯度更稳定一些,当然batchsize肯定不是越大越好,同时提高训练速度么?多卡不平均不就相当于batchsize还是很小?
追问:为什么是平均不是sum?
答:... (求大佬指教,这里应该怎么答)

更多模拟面试

全部评论

(8) 回帖
加载中...
话题 回帖

推荐话题

相关热帖

近期热帖

历年真题 真题热练榜 24小时
技术(软件)/信息技术类
查看全部

近期精华帖

热门推荐