Quartz 4

❯

❯

❯

CSE-234

Apr 03, 20262 min read

task

Info

Section-1

现代深度学习模型底层的核心数据结构是什么？
深度学习框架在计算梯度时，为什么采用反向自动求导（Reverse Mode AD）而不是前向自动求导？
在反向自动求导的计算图中，如果一个节点有多个输出分支（即多个消费者），它的伴随值（梯度）该如何计算？
静态计算图（Static Graph）与动态计算图（Dynamic Graph）的核心区别是什么？
静态图框架是如何利用底层的算子来处理 if-else 等动态控制流的？
在计算图优化中，为什么经常将卷积（Conv2D）和批归一化（BatchNorm）等算子融合（Fusion）执行？
训练大模型时，占用 GPU 内存的主要来源包含哪四个部分？
梯度检查点（Gradient Checkpointing）技术是如何在训练时减少内存消耗的？
在参数服务器（Parameter Server）架构的数据并行中，Worker 节点和 Server 节点的具体分工是什么？
进行模型量化时，为什么权重的零点（Zero Point）通常可以被忽略不计？

我们可以逐一解答，或者您可以挑选最感兴趣的一个开始。您想先回答哪个？

Graph View

Info
Section-1

Backlinks

2026-04-03

Created with Quartz v4.5.0 © 2026

GitHub
Discord Community