首页 > [211渣硕] 腾讯/阿里/携程 详细NLP算法实习 面经
头像
MirzaZhao
编辑于 2021-04-18 21:13
+ 关注

[211渣硕] 腾讯/阿里/携程 详细NLP算法实习 面经


【未经许可请勿转载!谢谢!】

楼主211菜硕,手里2篇水文。听说之前算法很卷,头铁一次试试。
回答的不好大家见谅😂

——4.17更新——
最后签了腾讯,PCG事业群


阿里(等HR面)

一面:4.6没打招呼突击电话面试(30min)

1.地点ok?时间ok?(base杭州,暑期,全部ok ok ok)简单自我介绍一下,项目经历选一个说说?
2.项目中对于没有标签的数据,怎么处理,还有什么别的方法?(我用的远程监督,别的还有one-shot zero-shot label embedding)
3.假设一个情景题,微博创立初期,短文本,10w数据集,无监督,分类怎么做(我答的用label embedding做或者用embedding+聚类kmeans)
4.embedding怎么实现?(fasttext or word2vec,不能用BERT,数据量大不合适)补充:你说的是词向量,句子向量怎么做呢(+average pooling最常用,还有别的方法没列举)
5.除了你说的方法,还有别的方法可以吗?U-learning听说过吗?(没听清?啥learing?这个真不知道,只听说过Q-learning)
6.kmeans的k怎么选择,这么做效果好吗?为什么?(k不知道,具体情况具体分析吧(编不出来了),效果不好)
7.那如果不用聚类,别的方法怎么做,提示:抽取关键字(关键字抽取可以用词与句子做相似度匹配)
8.按你说的做不具有通用性,那如果是长文本,又怎么做,有什么区别(长文本用词频统计+停用词过滤)
9.你没回答出我想要的答案,因为一个微博可能属于多个类别(多类别无监督分类)
10.快排知道吗?稳定不?(不稳定,因为会交换顺序)
11.bagging、boosting知道吗?(知道,属于ensemble,叽里哇啦叽里哇啦)
12.用啥语言,用啥框架(python,pytorch)

反问:
1.实习时间?
2.表现如何?
个人体会:
面试官人超好,很客气。感觉工程能力还有待提高,很多东西还是停留在理论上。kmeans自己挖的坑,无语了。。。
后面问了大佬,这个情景题可能是LDA之类的主题模型,或者是手动标记数据,再训练。或者是用迁移学习。

二面:4.9约好的电话面试(30min)

1.自我介绍,问论文(简单介绍一下)
2.问比赛,效果怎么样,名次之类的(问啥答啥)
3.二叉树有了解吗,遍历有哪些(前中后层次)项目用过哪些数据结构(好像没有,都是用python做的)
4.动态规划了解吗,解释一下,填表是怎么做的(吧啦吧啦)
5.操作系统了解吗?(本科学过,现在忘了。。)
6.Linux会用吗(会,一般用来跑实验和配环境)Linux debug的时候怎么做的(我用的nohup,输出log日志来debug)
7.计算机网络学过吗?(本科学过,现在忘了。。)那学过哪些课(ML DeepL NLP)DeepL的课程作业有吗(没)
8.BERT模型说一下,历史、演变说一下(RNN、LSTM、ELMo、Attention、Transformer、GPT、BERT、Auto-Encoder、Auto-Regression、Positional Encoder)
9.情感分析怎么做的说一下,对你后面有没有什么启发(根据项目说的,样本不均衡、评价指标等等)
10.别的语言会吗,java,c(本科学过,熟练度不高,现在捡起来很快)
11.有没有关注什么学术平台,或者线下的学术活动(知乎、群、机器之心、自己组织线下交流活动)

反问:
1.表现如何
2.钉钉这边的业务是什么
个人体会:
面试官很客气,像聊天一样,很顺畅。


——4.14更新——
二面已过,等hr面啦!

携程(二面结束等消息)

一面:4.8(1h)

1.自我介绍,实习时间,22年可以嘛(22年看情况)
2.分词知道嘛jieba说一说(知道,维特比算法巴拉巴拉)
3.分词种新词发现怎么做?(几里哇啦扯了一堆)你说的好像和我不是一个东西,新词发现有哪些常用方法(啊。。。不知道)
4.维特比算法中的DAG知道吗,怎么构建的(知道,扯了一堆)
5.所以DAG怎么构建你没有说(构建。。?不是根据统计信息得到的嘛?不知道)
6.看你熟悉维特比算法,HMM知道不(知道的...(西麻哒!!))
7.logP(O|A,B,pi)怎么变成只有ABpi的式子(啊这。。。扯了一堆,三个问题,参数估计,d-separated,动态规划(完全扯错了方向))
8.感觉你说的和我不在一个频道上(哭,真忘了,没想到会问这么细)
9.看你论文用了BERT,说一下BERT和transformer的positional embedding有啥区别(多了一个矩阵,多了一个dropout几里哇啦)
10.这个positional embedding怎么生成的(cos,sin生成的,相当于一个look up tabel)
11.positional embedding公式写一下吧(啊,这个没背啊)
12.sigmoid当数据太大的时候不敏感怎么办(normalization)
13.最后做个笔试,用np实现一个LSTM,初始化权0.5(啊,能不能写伪代码?)不能写伪代码,要跑出来。(啊这。。。我好多np函数用法没背下来怎么办)你让我有点惊讶,居然没记下来这些常用方法(啊这个sigmoid怎么调用来着?)你自己写(啊好的好的,还好记得公式)
——20min后——
14.能运行下不(可以,然后炸了)你这bug在哪你知道不(应该是矩阵搞炸了)是的,怎么改(矩阵操作函数名忘了)好吧我提醒一下,把math.exp改成np.exp(啊好的好的)你这又有一个bug(啊变量名写错了,改一下改一下)
15.跑通了,说一下思路吧(简单解释了下代码思路,理论应该是对的)

反问:
1.表现如何?
2.一共有几面
个人体会:
铁凉凉,不用看了,这也太难顶了,手撕LSTM还问了一堆机器学习东西,本来是准备的论文,BERT,word2vec,结果都没问。这波死的及其惨烈~HMM,新词发现,这俩不熟,赶快补,还有coding能力不够,找机会多写代码!!!

二面:4.12(40min)

1.自我介绍,聊项目论文。
2.BERT和RNN之类的区别(Auto Encoder与Auto regression,吧啦吧啦
3.BERT的缺点,什么情况无法处理,双重否定,数值可以处理吗(应该不太明感)
4.BERT的输入长度多少?(最大512)超出怎么办(截断,数据预处理减少无关数据。实在太长直接上LSTM、Transforemer-XL)
5.实体抽取怎么做的,有了解吗?(没有具体做,但是大概知道上NER这一块的东西,其他不清楚了)
6.一个算法题,求一个大于等于输入的正整数的最小降序序列,比如,325->330, 4->4, 1234->2000, 4321->4321(20min没做出来,说了下思路,暴力递归)

无反问
个人体会:
这个面试官又迟到10min,携程感觉不太守时,不喜欢,然后办公环境看起来也不太行,总的来说不太行。最后算法题没写出来,估计是凉了,不过这个面试官比上一个态度好很多。





腾讯(HR面结束)

一面:4.9腾讯会议面试(30min)

1.自我介绍,每个项目,一个个讲讲
2.论文1中样本怎么获取的(远程监督)继续深挖
3.论文2介绍一下(吧啦吧啦)
4.BERT怎么做分类的说一下(feature based fine turning)
5.比赛做了什么,改动了什么,和第一差距在哪(吧啦吧啦)
6.多任务用和不用的区别在哪(pipline存在误差传递,多任务2个loss加一起)
7.2个loss的超参数怎么获取(经验+网格搜索)这样可能很慢,贝叶斯优化了解吗(不是很了解,只记得是启发式算法)
8.tf会用吗,和pytorch有什么区别(不会,一般都是pytorch,tf有session、graph什么的比较麻烦记得好像,其他不清楚了)
9.其他语言会吗(本科学过、捡起来很快)大数据开发会吗(不会,只听过)
10.树模型和深度学习的区别(只知道效果有差距,具体不太清楚)二者可以结合吗(不是很清楚)
11.树模型介绍一下(决策树、GBDT、XGBOOST、随机森林)核心思想介绍下(吧啦吧啦)
12.Adaboost和GBDT区别(Adaboost对错误给更高的权重,GBDT多个子树加起来(不知道说的对不对))
13.树模型和机器学习比如LR有啥区别(树模型有比较好的可以解释性(这个答案好像不是很满意,应该是稀疏性的问题))
14.稀疏性问题怎么解决(变成dense向量,说了一些分布式表示和one-hot的区别(不知道答偏了没有))
15.推荐系统了解吗(不是特别的了解)想做哪一块(NLP这块吧)推荐转岗可以吗(可)

反问:
1.业务有哪些呢
2.技术栈要求
3.面试不足的地方有哪些
个人体会:
面试官语速快的飞起,有种压力面的感觉,前面说项目的时候打断了好几次,把我说话节奏都带的快了。还有就是coding能力不够,工业界的一些东西还是缺乏

二面:4.12腾讯平台面试(1h20min)

1.自我介绍,问项目。
2.attention知道吗,用过吗(BERT里用过,不是我写的)写一下公式(从attention说到self-attention)
3.q、k、v是啥意思(解释了一下)qk可以用别的方法代替吗(可以,只要是计算距离的方法就行,比如说余弦距离)
4.self-attention和attention的区别(说了一堆好像没答道点上,最核心应该是attention只计算q和v)
5.BERT和其他序列模型区别(BERT不是序列模型,Auto-Encoder的模型,其他比如LSTM是Auto-Regression)
6.推荐算法了解吗(不太了解,只知道协同过滤)
7.机器学习了解吗(了解),LR损失函数写一下(吧啦吧啦写了下,最后y写错了,应该放log外面)
8.FM了解吗?(不了解)Wide&Deep了解吗?(不了解,好像都是推荐系统的那边)
9.XGBOOT说一下(说了下和GBDT区别,之类的)为什么二阶导数好(信息更丰富)二阶导数也会更好的拟合(对对对)
10.LSTM解决了RNN什么问题(长依赖,梯度消失梯度爆炸之类的)
11.LSTM还有一个什么特点?(啥。。。不知道了)做加法比做乘法快(喔喔喔,可能想问三个门并行化?没太理解)
12.转岗推荐可以吗(可)
13.说说对推荐系统理解(只知道协同过滤,时间一致性吧啦吧啦)
14.Embedding的理解,说说(表示学习吧啦吧啦说一堆)
15.写一个二叉树的后序遍历,非递归,手写(双栈法,输出的时候有点小问题)
16.算法题手写:最大子段和(暴力法)

反问:
1.面试表现
2.推荐的技术栈
个人体会:
体验很好,就是写代码有点紧张。腾讯的速度还是很快的,不得不感叹。


HR面:4.13腾讯会议面试(18min)

1.自我介绍,实习时间,信息确认
2.挑一个项目说一下
3.项目中的收获是什么
4.说2个项目中的难点,怎么解决的
5.希望实习获得什么
6.别的公司进度
7.有重大疾病吗
8.如何和别的部门协调资源
9.实习和实验室做项目区别
10.给自己之前2个面试打分

反问:
1.表现怎么样
2.base地(北京、深圳)
个人体会:
腾讯速度真的快的飞起,结束了就云证。昨天2面今天就HR,不得不说太快了。HR态度很客气,体验很好,许愿一个offer!

更多模拟面试

全部评论

(6) 回帖
加载中...
话题 回帖

推荐话题

相关热帖

历年真题 真题热练榜 24小时
技术(软件)/信息技术类
查看全部

近期精华帖

热门推荐