r46dou12

编辑于 2020-07-28 15:55

+ 关注

offer还愿社招面经数据科学+算法

牛客网真的灵灵灵，写下面经回馈社区！有的实在是太久远了，只记得自己不太会/印象点深的问题了，请大家见谅。

本人背景：美国本硕数学统计专业，一年半美国传统机器学习工作经验，半年国内互联网大厂。没怎么刷题，所以后来主要找了数据科学的职位，算法真是面得我和面试官都心累

360反作弊算法:

项目经历

xgboost特征设计, 算法介绍

Kmeans簇中心不再变了的含义，K如何选择，如何iterate

算法题给一有序数组，按绝对值排序

微博机器学习反作弊算法：

项目经历：特征设计，召回率不足的情况

SVM描述

算法题三数之和、快排

快手数科：

一面

项目经历，AUROC含义，项目用户留存率漏斗

XGBoost与GBDT区别

sql题计频次、合并三店销量，row_number与rank区别

二面

单词级逆序，要求空间复杂度O[1]

辛普森悖论、如何修正（加权）

三面

数据不均衡解决方法：过采样，创造样本，负样本加权

项目经历，简历上每个项目的细节、如何实现都问到了，有一个项目不经常说，结果有点磕巴

kmeans流程、调试

实验设计

开放题：如何衡量一个时间序列/一个分布的混乱度，他们之间如何进行比较，如何描述多个时间序列/分布的混乱度

腾讯数科一面：

AUC物理含义

outlier怎么判断怎么处理

缺省值怎么处理

Categorical variable训练集只出现4种，测试集出现新的第五种，怎么办？

归一化，统一做还是训练集测试集分开做？

xgboost调参样本特征比

p值，power，一型二型错误，置信区间，t-test

python求平均数 sql求回复的回复数

字节数据科学职位：

一面：

职位、项目介绍

xgboost数据不均衡如何处理

gbdt与random forest区别

算法最短路径、数组找出相邻三数之和最大的

二面（后来知道是交叉面，我感觉这大哥除了算法啥也不懂）：

DFS:

【在微服务的架构下，公司内部会有非常多的独立服务。

服务之间可以相互调用，往往大型应用调用链条很长，如果出现循环依赖将出现非常恶劣的影响。

对于一个具体应用，已知各个服务的调用关系（即依赖关系），请判断是否存在循环调用。

输入：

一组服务依赖关系list，('A', 'B') 表示 A 会调用 B 服务

service_relations = [('A', 'B'), ('A', 'C'), ('B', 'D'), ('D', 'A')]

输出：

由于存在 A - B - D - A 故存在循环依赖，返回True；反之如果不存在，返回False

Follow up：

1. 如果有多个环，请都检测出来

2. 返回每个环中的服务名】

sql求每日留存

one-hot外其他的embedding

数据降维方法

字节广告审核数据分析：

一面不记得具体问啥了，项目、xgb算法等等反正聊得挺好的，二面上来算法题两道树结构一道从n个数里选第k大的，我写了个排序nlog(n)，问还有更快的吗，不给提示，我说我想想，然后直接就“今天的面试就到这”

其实就是上面那个数科岗位算法题挂了，我才又投递了这个数分岗位，我就想问，宇宙条的数据分析岗也要考算法吗？我怀疑这个组不想招人，就只想知道其他公司怎么做的，随便找个理由把我拒了？从此对头条印象一落千丈

阿里数科一面：

特征工程

不考虑准确率的情况下，如何提高覆盖率？

smote原理，如何操作，如何决定最近的n个

聊下来发现确实不太匹配。。

最后接了快手offer，面下来最大的一个体会就是 适合自己的才是最好的！就我自己举例，原来觉得算法高大上，但没有cs背景没怎么刷题，确实和别人比没那么有优势；相反统计和数学背景，特征工程的工作经历，使得我在更贴近商业/业务时sense会更好一些，所以可能也是一个认识自己的过程吧。。

总之祝大家求职顺利，都拿到自己想要的offer！

已采纳

采纳

精彩回帖

精彩

全部评论

(1) 回帖

加载中...

话题同步到我的动态回帖

offer还愿社招面经数据科学+算法

更多模拟面试

已采纳

精彩回帖

全部评论

推荐话题

近期热帖

近期精华帖

热门推荐

offer还愿 社招面经 数据科学+算法

更多模拟面试

已采纳

精彩回帖

全部评论

推荐话题

相关热帖

近期热帖

近期精华帖

热门推荐

offer还愿社招面经数据科学+算法