首页 > 无论文——小鹏汽车
头像
一只爱飞翔的猪
编辑于 10-25 11:29 北京
+ 关注

无论文——小鹏汽车

4月份成立的基础模型组,对标qwen deepseek等,一千张卡,20人用

目前在做后训练,后面会做预训练

手写一个MHA

重点考察了qkv的维度转换

输入维度 batchsize,sequence lenth, emb_dim

reshape + permute后的维度,3,batchsize,num_head,sequence length,head_dim

qkv = self.qkv(x).reshape(batchsize,sequence length,3,num_head,head_dim).permute(2,0,3,1,4)
q,k,v=qkv[0],qkv[1],qkv[2]

全部评论

(1) 回帖
加载中...
话题 回帖