1. 自我介绍(3min)
2. 询问实习中的项目(15min)
3. 介绍一下BERT模型(15min)
从Transformers开始介绍,balabala,中间打断:
- 为什么使用多头注意力机制
- Transformers中positional embedding为什么要使用sin,cos设计,可以直接用1到512代替吗
- 介绍一下dropout和normalization以及他们在训练和预测时的区别,如何解决batch normalization在训练和预测时统计量不一致的问题
- L1正则化与L2正则化的区别
4. 做题(30min)
- LC 378. 有序矩阵中第 K 小的元素
给你一个 n x n 矩阵 matrix ,其中每行和每列元素均按升序排序,找到矩阵中第 k 小的元素。
请注意,它是 排序后 的第 k 小元素,而不是第 k 个 不同 的元素。 - 开根号,要求保留3位小数
全部评论
(3) 回帖