首页 > offer还愿 社招面经 数据科学+算法
头像
r46dou12
编辑于 2020-07-28 15:55
+ 关注

offer还愿 社招面经 数据科学+算法

牛客网真的灵灵灵,写下面经回馈社区!有的实在是太久远了,只记得自己不太会/印象点深的问题了,请大家见谅。
本人背景:美国本硕数学统计专业,一年半美国传统机器学习工作经验,半年国内互联网大厂。没怎么刷题,所以后来主要找了数据科学的职位,算法真是面得我和面试官都心累

360反作弊算法:

项目经历

xgboost特征设计, 算法介绍

Kmeans簇中心不再变了的含义,K如何选择,如何iterate

算法题给一有序数组,按绝对值排序


微博机器学习反作弊算法:

项目经历:特征设计,召回率不足的情况

SVM描述

算法题三数之和、快排


快手数科:

一面

项目经历,AUROC含义,项目用户留存率漏斗

XGBoostGBDT区别

sql题计频次、合并三店销量,row_numberrank区别

二面

单词级逆序,要求空间复杂度O[1]

辛普森悖论、如何修正(加权)

三面

数据不均衡解决方法:过采样,创造样本,负样本加权
项目经历,简历上每个项目的细节、如何实现都问到了,有一个项目不经常说,结果有点磕巴
kmeans流程、调试
实验设计
开放题:如何衡量一个时间序列/一个分布的混乱度,他们之间如何进行比较,如何描述多个时间序列/分布的混乱度

腾讯数科一面:

AUC物理含义

outlier怎么判断 怎么处理

缺省值怎么处理

Categorical variable训练集只出现4种,测试集出现新的第五种,怎么办?

归一化,统一做还是训练集测试集分开做?

xgboost调参 样本特征比

p值,power,一型二型错误,置信区间,t-test

python求平均数 sql求回复的回复数


字节数据科学职位:

一面:

职位、项目介绍

xgboost数据不均衡如何处理

gbdtrandom forest区别

算法最短路径、数组找出相邻三数之和最大的

二面(后来知道是交叉面,我感觉这大哥除了算法啥也不懂):

DFS:
【在微服务的架构下,公司内部会有非常多的独立服务。

服务之间可以相互调用,往往大型应用调用链条很长,如果出现循环依赖将出现非常恶劣的影响。

对于一个具体应用,已知各个服务的调用关系(即依赖关系),请判断是否存在循环调用。

输入:

一组服务依赖关系list,('A', 'B') 表示 A 会调用 B 服务

service_relations = [('A', 'B'), ('A', 'C'), ('B', 'D'), ('D', 'A')]

输出:

由于存在 A - B - D - A 故存在循环依赖,返回True;反之如果不存在,返回False

Follow up

1. 如果有多个环,请都检测出来

2. 返回每个环中的服务名】

sql求每日留存

one-hot外其他的embedding

数据降维方法

字节广告审核数据分析:
一面不记得具体问啥了,项目、xgb算法等等反正聊得挺好的,二面上来算法题两道树结构 一道从n个数里选第k大的,我写了个排序nlog(n),问还有更快的吗,不给提示,我说我想想,然后直接就“今天的面试就到这”
其实就是上面那个数科岗位算法题挂了,我才又投递了这个数分岗位,我就想问,宇宙条的数据分析岗也要考算法吗?我怀疑这个组不想招人,就只想知道其他公司怎么做的,随便找个理由把我拒了?从此对头条印象一落千丈

阿里数科一面:

特征工程
不考虑准确率的情况下,如何提高覆盖率?
smote原理,如何操作,如何决定最近的n
聊下来发现确实不太匹配。。

最后接了快手offer,面下来最大的一个体会就是 适合自己的才是最好的!就我自己举例,原来觉得算法高大上,但没有cs背景没怎么刷题,确实和别人比没那么有优势;相反统计和数学背景,特征工程的工作经历,使得我在更贴近商业/业务时sense会更好一些,所以可能也是一个认识自己的过程吧。。

总之祝大家求职顺利,都拿到自己想要的offer!

更多模拟面试

全部评论

(1) 回帖
加载中...
话题 回帖

推荐话题

  • 278次浏览 7人参与

相关热帖

历年真题 真题热练榜 24小时
技术(软件)/信息技术类
查看全部

热门推荐