首页 > 3.30美团ai应用一面
头像
闭麦源杀鸡
发布于 今天 11:05 山东
+ 关注

3.30美团ai应用一面

1.skills和tools是怎么区分的?

2.skills真正的优点是什么?能做到什么?

3.mcp的讲解?

mcp要定义接口的话,必须把参数那些都定义到上下文中,他是一个比较冗余的信息,会污染到上下文。正常的工具调用是不需要这些冗杂语义的,而skill会隔离这些东西在上下文里面会去隔离这些东西,不光是token消耗量。还有一个重点就是做到按需加载,渐进式加载的问题。

4.长期记忆是怎么做的?

用户的记忆属于实体记忆,实体记忆应该更偏向于关键词记忆,并非rag。

5.接触过融合检索吗?融合检索是什么?

6.混合检索的融合算法是什么样的?他的比重是什么样子的?有可能rag找回了top5,es召回了top5,最后只要五个,如何排序?

我讲解的是rerank逻辑,并非是融合。 融合检索是指把多元的检索混合在一个排序里面。然后混合到一个排序之后,再rerank的时候用相对应的模型。

rag里面分为两种,一种是直接向量,向量采用余弦相似度匹配之后,会有一个对应的分数返回给你,还可以结合用户的输入加上跳回来的东西,进行rerank,因为直接向量检索召回过来的向量是没有语义的,这个时候把用户的query拿到,然后这两个之间再去做一个rerank,这个rerank其实返回的就是你的向量和你的query之间的相关量,会根据相关量进行一个打分,再去做一个排序,这个叫做rerank。

融合排序是另一种排序,向量检索返回的是他的一个评分,bm25返回的是另一个评分,他们是两个评分体系,比方说向量检索排名第一,但是关键词检索可能这个文档排到第十,最终的权重应该是多少,他俩之间应该有一个比重关系,怎么去计算,最终的排名是什么样子的?怎么去融合这个权重?对于不同的业务还有不同的权重,其实设计是不一样的。

7.query改写?rag改写?

要理解他的关键意思,比方说当用户输入我上面的说的是什么,其中的上面就是需要改写的,这种被称为指代消解,这种指代必须要融合上下文,必须把上下文结合起来才能理解。比方说商品退货和商品退款是不是一个意思?他流程最终的走向不一定是一个sop,其实这些都是因为一个用户query他可能能有多个标准才能成为一个答案,所以才会有query改写,因为改写完之后他能有多个query去匹配问题,会到处召回出不同的答案,可能改写完会有三个query,然后再一起去召回,召回完之后再去做一个rerank。

8.理清,提槽

理清,之后才根据路由分类的意图,叫做意图分类,然后分到体内里面,然后每一类里面后面有不同的模型去承接,那个属于理清。

提槽属于另一个维度的东西,比方说解决一个退款,你得知道订单号,需要知道订单号就需要一个提槽,需要这个就需要去和用户进行交互,我需要知道订单号,然后就需要去和用户进行交互,然后提槽成功,你就可以获取对应的订单号,之后就会走到下一步,把信息填完往后进行。

9.rag幻觉是怎么解决的?为啥rag能解决幻觉问题?

10.比方说有个天气助手,他只有北京天气,没有上海的天气,在prompt里面应该怎么去描述这个工具而能减少幻觉的问题?如果用户问上海的天气,应该怎么去解决减少幻觉的问题?提示词怎么去限制大模型没有幻觉呢?

举例,给了一个skill,说明他是一个天气助手,告诉一个城市,告诉你对应的天气,另一个skill里面是,告诉你我是一个天气助手,我只能查北京的天气,哪个幻觉会更大一点?

如果我问上海的天气的时候,第一种是调用工具,因为没有写限制,然后可能返回的就是上海地区不支持查询,而对于后面的工具,根本就不会调用,不会调用工具,然后模型的回答就是未知的,如果上海的天气有训练了,可能就会回答对上海地区不支持查询,但如果模型随便回答,可能就会出现了幻觉。第一种情况的工具已经调用了,大概率是没有幻觉的,第二种是不会调用这个工具,但既然不会触发这个问题,他就会自己去回答。

11.讲解一下ReAct框架?还有plan-execute?分别在什么场景?

任务拆分适合plan-execute模式,然后每个子任务会去尝试用react模式去执行一个任务的循环,来达到最后的计划。

12.实习是搭在什么平台上的?coze?

13.对openclaw的理解?

14.反问:美团评判智能体的指标?

首先得有评测体系,一个是智能体的评测体系,一个是大模型的评测体系,然后判断评的是什么东西,是端到端的评测还是什么?

如果是端到端的话,就需要去评测工具调用的准确度,评测安全,就需要评测红线,熔断机制,一般评测是根据线上的数据,然后根据线上指标的分布,优化一些prompt,他在各个指标里面他的表现能达到什么效果,能不能达到上线的标准?

15.手撕三数之和

第一次面大厂,感觉确实有很多理解不到位,慢慢加油。

全部评论

(1) 回帖
加载中...
话题 回帖