首页 > 海康威视算法电话一面
头像
牛客思座
编辑于 2020-09-04 18:13
+ 关注

海康威视算法电话一面

又是一个上来疯狂问强化学习的面试官🤣
首先对着我的知乎专栏《强化学习攻略》疯狂发问:
1. PPO相对于TRPO的改进
2. 什么情况下使用重要性采样?
3. 直观上来说,AC方法是on-policy还是off-policy?既然是on-policy的方法,A3C没有使用重要性采样的情况下,直接取之前策略的数据会不会有问题?
4. DP方法和TD方法区别在哪里?面试官说这个涉及到本质问题。
5. 为什么要采用优势函数?
还有一些RL的问题,没答上来,记不太清了

然后随便聊了一下项目,还说了说在日本的交换经历。面试官说在成都有个分院,多智能体RL的项目就是在德阳落地的,说得我两眼放光。
感觉面试官很随和,许愿二面啊~是真的想回成都哈哈

更多模拟面试

全部评论

(4) 回帖
加载中...
话题 回帖

相关热帖

近期热帖

历年真题 真题热练榜 24小时
技术(软件)/信息技术类
查看全部

近期精华帖

热门推荐