FinnTew

编辑于今天 13:37

+ 关注

PPIO - Serverless AI 后端 - 一面一小时

让 AI 梳理的录音，部分可能会不太准确

Q1: 百度这边推理优化用的什么框架,主要做了什么?

使用框架: SGLang

主要工作:

FP8量化: 显存降低50%,吞吐量提升40-50%,困惑度变化<2%
Chunked Prefill调优: 升级SGLang到0.5.4版本，默认开启chunked prefill, P999延迟从150ms降到120ms
CUDA Graph优化: 解决FP8量化模型无法启用Piecewise的问题,通过注册自定义kernel到FakeTensor。P999延迟降到53ms(降低55%),QPS从30提升到60
并发稳定性: 修复TokenizerManager高并发内存越界问题

Q2: GPU自动化测试怎么做的?

基于已下线rank模型改造,部署到容器中。发包机和目标服务通过信号传递协同控制,定时轮询容器状态,自动采集性能数据。

测试的是L4卡的模型推理性能,不涉及多卡通信。

Q3: 有测过多卡通信性能吗?

没有接触过。目前只做了单卡/单机的模型推理性能测试,没涉及多机多卡部署和卡间通信测试。

Q4: 有做输出质量的benchmark测试吗?

做得比较少。因为query模型是embedding模型,不是生成式模型,只需要保证和策略提供的 baseline 有 99.95% 以上相似度即可。

Q5: 这个Etcd安全漏洞怎么回事,怎么解决的?

问题: 被扫描发现Etcd可无密码访问

原因: Tarot Proxy配置传递流程不规范,认证配置没有正确传递，Etcd V2 V3 鉴权不统一，误导排查

解决: 重构RouteTable配置解析逻辑,规范化配置传递流程,省去中间链路

Q6: 没考虑用mTLS双向认证吗?

考虑过但没采用。主要原因:

TLS握手会增加延迟
证书管理运维成本高
内网环境已有网络隔离保障

Q7: 除了百度搜索这边还有什么对你帮助比较大的项目?

腾讯云实习: 提升了链路排查问题的能力

例: 门神项目流量统计不一致,通过时间窗口定位组件,发现网关配置max packet size导致2M+请求包绕过转发,造成防护绕过。

开源项目: Apache Seata和OSPP开源之夏,在分布式事务和系统设计方面有收获

Q8: 大包转发怎么做的,有考虑性能优化吗?

方案: 在网关入口部署MQ转移大包,再接入门神。单服务在SA2(4C8G)上达到2400+/分钟转发吞吐量。

性能优化: 主要在应用层做了消息队列削峰、异步处理等优化。

不足: 内核态用户态切换没有深入考虑过优化。

Q9: 开源之夏项目主要做了什么?

基于Seata Saga的AI Agent生态建设:

Agent Hub注册中心: 基于Seata NamingServer实现能力发现,结合LLM和Milvus向量数据库优化匹配
A2A通信协议: 支持JSON-RPC和gRPC,让Agent之间相互调用
智能工作流编排: 基于ReAct框架分析需求,通过多轮对话查询Agent能力,编排成JSON格式DAG图
DSL代码脚手架: 自动生成Agent Skill框架,采用Provider模式降低接入成本

Q10: 有调研自动生成补充agent能力的方案吗?

调研过两个方向:

DSL约束代码生成: 用DSL描述Agent行为约束,让大模型生成代码框架(已实现)
动态能力补充: 缺少能力时动态创建Agent(仅调研,未落地)，担心代码质量和安全性，调试维护成本高，目前倾向于预先注册能力而非动态生成

2026最新求职资料大礼包领取

大家都在关注

校招日程表笔试日历 ai模拟面试面试宝典剑指offer 知识点专项练习

已采纳

采纳

精彩回帖

精彩

全部评论

(2) 回帖

加载中...

话题同步到我的动态回帖

PPIO - Serverless AI 后端 - 一面一小时

Q1: 百度这边推理优化用的什么框架,主要做了什么?

Q2: GPU自动化测试怎么做的?

Q3: 有测过多卡通信性能吗?

Q4: 有做输出质量的benchmark测试吗?

Q5: 这个Etcd安全漏洞怎么回事,怎么解决的?

Q6: 没考虑用mTLS双向认证吗?

Q7: 除了百度搜索这边还有什么对你帮助比较大的项目?

Q8: 大包转发怎么做的,有考虑性能优化吗?

Q9: 开源之夏项目主要做了什么?

Q10: 有调研自动生成补充agent能力的方案吗?

已采纳

精彩回帖

全部评论

近期热帖

热门推荐

PPIO - Serverless AI 后端 - 一面 一小时

Q1: 百度这边推理优化用的什么框架,主要做了什么?

Q2: GPU自动化测试怎么做的?

Q3: 有测过多卡通信性能吗?

Q4: 有做输出质量的benchmark测试吗?

Q5: 这个Etcd安全漏洞怎么回事,怎么解决的?

Q6: 没考虑用mTLS双向认证吗?

Q7: 除了百度搜索这边还有什么对你帮助比较大的项目?

Q8: 大包转发怎么做的,有考虑性能优化吗?

Q9: 开源之夏项目主要做了什么?

Q10: 有调研自动生成补充agent能力的方案吗?

已采纳

精彩回帖

全部评论

近期热帖

热门推荐

PPIO - Serverless AI 后端 - 一面一小时