大概35min。
1.自我介绍。
2. 问简历个人项目:
(1)途牛出境旅游产品分析
问热度值是怎么计算,然后做这个项目的考量是什么。因为是本科做的,记得不是太详细了,说的有点磕磕绊绊的。
(2)airbnb的房租预测模型
简要问了下我做了哪些工作(我大概就是做了一些预处理以及建模调参)以及做这个项目有什么应用价值。
另外我说模型的准确度达到了90%以上,面试官问我如何证明模型可靠性。
我说这个需要用新的数据检验,如果在现有数据集表现良好且新的数据集的表现也相差无几,那么就能证明模型是可靠的。自己还提了一下交叉验证。
所以接着问我十折交叉验证的原理。当时有点紧张,应该十份模型取平均表现,说成最好表现了,前后逻辑有点紊乱,被当场纠正。
3. 相关课程:
问现在还写sql吗 python或者R用得多不多?
我回答说sql用的比较多。python也在用,R只有大学上课的时候使用,现在已经不用了。
4. 出题环节:
(1)sql
给出一张用户登录表(login),存有用户id以及登录时间date两个字段,求连续28天每周登录天数大于等于4天的用户id。
没有要去写sql,只需要说思路
害,日期函数不太熟悉,所以就给了一下解题思路。 大概就是按照用户ID以及每周进行分组,然后count天数 选择大于等于4的id.
现在回想起来,碰到日期类的就有点慌,因为课程作业以及刷题都很少用到日期函数,因此说的有点乱。
(2)统计学
有放回抽样问题。
从1万个人中,每天选100个人抽奖,连续抽30天,问最终可以覆盖到的用户数量。
其实抽30天就是抽样100,有放回的抽30次。
说的不太清楚,我感觉就是求一个期望值。极端情况最少是100,最多是3000.
然后排列组合抽到的人数乘以概率得到最后的结果。
但是我感觉不太对劲,这样情况会不会太多了?
统计学渣想问下大神没有比较清晰的思路解答这个问题
说完之后面试官说让我面试完再好好想想这个问题。
最后就是问是不是人在香港,什么时候能实习,实习多久。
反问环节,我问了一下这个岗位具体是做啥的。
之后流程结束,第二天收到了很遗憾.......
全部评论
(6) 回帖