让 AI 梳理的录音,部分可能会不太准确
Q1: 百度这边推理优化用的什么框架,主要做了什么?
使用框架: SGLang
主要工作:
- FP8量化: 显存降低50%,吞吐量提升40-50%,困惑度变化<2%
- Chunked Prefill调优: 升级SGLang到0.5.4版本,默认开启chunked prefill, P999延迟从150ms降到120ms
- CUDA Graph优化: 解决FP8量化模型无法启用Piecewise的问题,通过注册自定义kernel到FakeTensor。P999延迟降到53ms(降低55%),QPS从30提升到60
- 并发稳定性: 修复TokenizerManager高并发内存越界问题
Q2: GPU自动化测试怎么做的?
基于已下线rank模型改造,部署到容器中。发包机和目标服务通过信号传递协同控制,定时轮询容器状态,自动采集性能数据。
测试的是L4卡的模型推理性能,不涉及多卡通信。
Q3: 有测过多卡通信性能吗?
没有接触过。目前只做了单卡/单机的模型推理性能测试,没涉及多机多卡部署和卡间通信测试。
Q4: 有做输出质量的benchmark测试吗?
做得比较少。因为query模型是embedding模型,不是生成式模型,只需要保证和策略提供的 baseline 有 99.95% 以上相似度即可。
Q5: 这个Etcd安全漏洞怎么回事,怎么解决的?
问题: 被扫描发现Etcd可无密码访问
原因: Tarot Proxy配置传递流程不规范,认证配置没有正确传递,Etcd V2 V3 鉴权不统一,误导排查
解决: 重构RouteTable配置解析逻辑,规范化配置传递流程,省去中间链路
Q6: 没考虑用mTLS双向认证吗?
考虑过但没采用。主要原因:
- TLS握手会增加延迟
- 证书管理运维成本高
- 内网环境已有网络隔离保障
Q7: 除了百度搜索这边还有什么对你帮助比较大的项目?
腾讯云实习: 提升了链路排查问题的能力
例: 门神项目流量统计不一致,通过时间窗口定位组件,发现网关配置max packet size导致2M+请求包绕过转发,造成防护绕过。
开源项目: Apache Seata和OSPP开源之夏,在分布式事务和系统设计方面有收获
Q8: 大包转发怎么做的,有考虑性能优化吗?
方案: 在网关入口部署MQ转移大包,再接入门神。单服务在SA2(4C8G)上达到2400+/分钟转发吞吐量。
性能优化: 主要在应用层做了消息队列削峰、异步处理等优化。
不足: 内核态用户态切换没有深入考虑过优化。
Q9: 开源之夏项目主要做了什么?
基于Seata Saga的AI Agent生态建设:
- Agent Hub注册中心: 基于Seata NamingServer实现能力发现,结合LLM和Milvus向量数据库优化匹配
- A2A通信协议: 支持JSON-RPC和gRPC,让Agent之间相互调用
- 智能工作流编排: 基于ReAct框架分析需求,通过多轮对话查询Agent能力,编排成JSON格式DAG图
- DSL代码脚手架: 自动生成Agent Skill框架,采用Provider模式降低接入成本
Q10: 有调研自动生成补充agent能力的方案吗?
调研过两个方向:
- DSL约束代码生成: 用DSL描述Agent行为约束,让大模型生成代码框架(已实现)
- 动态能力补充: 缺少能力时动态创建Agent(仅调研,未落地),担心代码质量和安全性,调试维护成本高,目前倾向于预先注册能力而非动态生成

全部评论
(2) 回帖