首页 > 启元世界二面——深度强化学习凉经
头像
janayt
编辑于 2021-08-20 12:30
+ 关注

启元世界二面——深度强化学习凉经

启元世界二面
自我介绍
实验室项目介绍
MA2C是什么?
在你的项目中,是怎么处理多智能体学习过程中的非平稳问题的?
AC算法和PG算法相比,有什么优势?
在神经网络中,为什么要引入残差结构?
为什么GRU和LSTM相比于RNN能够避免梯度消失问题?
说说off-policy 和 on-policy有什么区别?
ReLu激活函数在0处的导数是多少?ReLu在零点不可导,那么在反向传播中怎么处理?
答:在零点是人为给他赋予一个导数,一般是0或者1,
追问:那给它赋值为2可不可以?为什么?
PPO中,怎么度量两个分布差别到底多大?有哪几种方法去度量?
答:KL散度
追问:那你说说KL散度是怎么计算的?
回答不上来QAQ

撕代码:
题目描述:小Q在游戏中需要守卫一条路线,范围是[0, L], 可认为是一维数轴,现有n个守卫,每个守卫的守护范围是[xi,yi],问小Q至少需要多少个守卫能守护这条路线。
输入:
5 8
0 2
0 7
2 4
4 6
6 9
输出:2

更多模拟面试

全部评论

(3) 回帖
加载中...
话题 回帖

相关热帖

近期热帖

历年真题 真题热练榜 24小时
技术(软件)/信息技术类
查看全部

近期精华帖

热门推荐