Info
Section-1
- 现代深度学习模型底层的核心数据结构是什么?
- 深度学习框架在计算梯度时,为什么采用反向自动求导(Reverse Mode AD)而不是前向自动求导?
- 在反向自动求导的计算图中,如果一个节点有多个输出分支(即多个消费者),它的伴随值(梯度)该如何计算?
- 静态计算图(Static Graph)与动态计算图(Dynamic Graph)的核心区别是什么?
- 静态图框架是如何利用底层的算子来处理 if-else 等动态控制流的?
- 在计算图优化中,为什么经常将卷积(Conv2D)和批归一化(BatchNorm)等算子融合(Fusion)执行?
- 训练大模型时,占用 GPU 内存的主要来源包含哪四个部分?
- 梯度检查点(Gradient Checkpointing)技术是如何在训练时减少内存消耗的?
- 在参数服务器(Parameter Server)架构的数据并行中,Worker 节点和 Server 节点的具体分工是什么?
- 进行模型量化时,为什么权重的零点(Zero Point)通常可以被忽略不计?
我们可以逐一解答,或者您可以挑选最感兴趣的一个开始。您想先回答哪个?