Info

Section-1

  1. 现代深度学习模型底层的核心数据结构是什么?
  2. 深度学习框架在计算梯度时,为什么采用反向自动求导(Reverse Mode AD)而不是前向自动求导?
  3. 在反向自动求导的计算图中,如果一个节点有多个输出分支(即多个消费者),它的伴随值(梯度)该如何计算?
  4. 静态计算图(Static Graph)与动态计算图(Dynamic Graph)的核心区别是什么?
  5. 静态图框架是如何利用底层的算子来处理 if-else 等动态控制流的?
  6. 在计算图优化中,为什么经常将卷积(Conv2D)和批归一化(BatchNorm)等算子融合(Fusion)执行?
  7. 训练大模型时,占用 GPU 内存的主要来源包含哪四个部分?
  8. 梯度检查点(Gradient Checkpointing)技术是如何在训练时减少内存消耗的?
  9. 在参数服务器(Parameter Server)架构的数据并行中,Worker 节点和 Server 节点的具体分工是什么?
  10. 进行模型量化时,为什么权重的零点(Zero Point)通常可以被忽略不计?

我们可以逐一解答,或者您可以挑选最感兴趣的一个开始。您想先回答哪个?