三面
难度:★★★☆☆ 这是部门leader面,没想到leader是一个严肃的大姐姐,语速很慢,逻辑清晰。问题的问题比较general.
1.介绍一下搜索引擎通常有哪些部分组成,你们负责的项目,负责的搜索项目的规模、搜索集群的配置、用户量、并发量等等。
同上,涉密不在帖子里面谈..
2.说说Elasticsearch的应用场景,它的优点和缺点都有哪些?
3.微服务架构的利弊?
把一个服务根据功能拆解为不同的服务,服务之间彼此独立,各司其职。好处就是降低业务耦合度,逻辑清晰,简化部署开发,并且可扩展性好,还可以灵活组合到其他业务。缺点的话,我说了一个服务之间交互需要通过http或者rpc进行通信,效率慢,且相对来说运维更加复杂。
4.使用k8s的好处?
因为我不是做inf的,但上份工作所有的服务都是部署在k8s上的,所以多少页了解一些. 1.减少管理和运营负担,部署更快且安全。2.可以控制服务申请的资源,随时可以拓展,或者限制使用的CPU, Memory等等。3.可以对服务进行更好的监控和检查。4.便于进行CI/CD 5.松耦合,天然适合微服务架构。
5.刷一道题,给定一个数组,找出其中的三个数,要求这三个数的和为0。
例如:输入[2,4,3,-3,-6,0]输出: [(2,4,-6),(3,-3,0)]
典型的3sum问题,解决3sum问题首先要解决2sum问题:也就是给定一个数组,找出其中两个数,要求这两个数之和为target_num,两种方法:
6.给你一个上百亿数量的URL, 请问如何对它们进行去重
印象中看过有博客介绍过使用布隆过滤器来对URL进行去重,所以就介绍了一下布隆过滤器,(话说每次说到这个玩意儿,我脑海里面都会冒出LOL里的布隆拿个盾牌过滤女枪大招的场景
7.讲一下搜索的评价指标?
因为之前几次面试考的都是工程上的东西,算法上的东西我没怎么细看,没想过面试官会问这个,所以答的很不好,很后悔当时没有把F1 score讲出来,这个measurement我是很熟的,是机器学习里非常常用的评价指标,以前打kaggle的时候经常用这个作为评分标准,作业里也都用过。不过现在来看doesn't matter了,反正也拿到offer了。BTW,作为一名即将去
7.MAP(mean average precision)平均正确率均值
上面F-score是一种通用的分类问题的评价指标,对于搜索来说,返回结果是有顺序的,MAP是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank越高),MAP就应该越高。如果系统没有返回相关文档,则准确率默认为0。
之前在英国上Biometrics,也就是一门计算机图像的实际应用的一门课里面,有学习过P-R曲线和ROC曲线,即以precision和recall作为 纵、横轴坐标 的二维曲线,通过不断调整阈值时对应的精度和召回率即可画出:
8.如果让你实现百度搜索框的的搜索提示功能,例如搜索”北京”的时候,提示“北京大学”
9.如果没有搜索日志呢?
那离线部分,就在百度收录的所有网页的内容里,进行较粗粒度分词,将文章分为若干个词组,一个词组作为一个query,计算每个词组的TF-IDF作为score,其他不变.
emmm,我知道这么做肯定有问题,百度肯定不是这么做的,但这已经是我能想出来的最优解了。
10.如何评价自己?最近在看什么书?
如何评价自己就不说了,都懂得,夸夸自己再嘲讽嘲讽自己。然后跟面试官说在看《lucene原理》(其实这是我两个多月前看的,最近在看的其实是《剑指offer》hhh),话说感觉BAT TMD终面好像都喜欢问这个问题。
HR面
你知道你的这个部门负责哪些内容嘛?你的职业规划是什么?倾向于管理还是技术?你怎么看待B站和百度的关系?
把百度一顿吹就完事了.
全部评论
(0) 回帖