携程 |数据分析工程师面经社招

携程
一面
怎么在海量数据中找出重复次数最多的一个？
上千万或上亿数据（有重复），统计其中出现次数最多的钱N个数据。　方案：上千万或上亿的数据，现在的机器的内存应该能存下。所以考虑采用hash_map/搜索二叉树/红黑树等来进行统计次数。然后就是取出前N个出现次数最多的数据了，可以用第2题提到的堆机制完成。
一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。
spark用过吗？那你觉得和MR这两个计算框架中间产生的数据倾斜怎么处理
我们工作需要用到一点AI算法，你挑一个讲讲吧
问了dbscan
问了核函数
现场写SQL
随机森林
数据清理
二面
给一个实际场景，怎么分析数据，怎么提取数据特征
怎么做恶意刷单检测
你系统的学习过机器学习算法吗？
选个讲下原理吧K-Means算法及改进，遇到异常值怎么办？评估算法的指标有哪些？
数据预处理过程有哪些？
随机森林原理？有哪些随机方法？
PCA
还有一些围绕着项目问的具体问题
参加过哪些活动？
hive？spark？sql？ nlp？
XGBOOST
还问了数据库，spark，爬虫（简历中有）
三面
具体案例分析，关于京东商城销售的
Linux基本命令
NVL函数
LR
数据库与数据仓库的区别
手写SQL
SQL的数据类型
C的数据类型
分类算法性能的主要评价指标
roc图
查准率查全率
数据缺失怎么办
内连接与外连接的区别

已采纳

采纳

精彩回帖

精彩

全部评论

(2) 回帖

加载中...

话题同步到我的动态回帖

携程 |数据分析工程师面经社招

更多模拟面试

已采纳

精彩回帖

全部评论

推荐话题

近期热帖

近期精华帖

热门推荐

携程 |数据分析工程师 面经 社招

更多模拟面试

已采纳

精彩回帖

全部评论

推荐话题

相关热帖

近期热帖

近期精华帖

热门推荐

携程 |数据分析工程师面经社招