- flash attention解释下
- gqa解释下
- 怎么才能训练好一个sft过程?
- sft的loss计算是用什么计算的?
- lora原理
- lora参数权重初始化
- lora的r和缩放参数
- dpo的loss
- dpo数据集怎么构造比较好?
- 如果dpo训练过程中,accept回答和reject回答的loss都在升高,怎么办?
- 假如说dpo效果不好,怎么解决?
- 多轮对话一般要怎么训练?
- rag的流程?
- 检索时,只用关键字匹配会存在问题,怎么具体解决?(没有上下文语义信息)
- 给定一个网页,如何提取其中的关键信息

全部评论
(2) 回帖