2026-01-29

Preranking Pytorch 落地方案
修改 preranking_model_triton.py 支持 Cuda Graph
- 使用 cpp 压缩，避免unique
- 避免使用 item 获取
感觉效果好像还可以的样子啊

未使用Graph： BM_Throughput_PyTorchDiversityRank/iterations:1 0.002 ms 0.001 ms 0 AvgLatency_us=4.27905k P50_us=4.134k P99_us=8.542k QPS=5.87085k TotalRequests=58.732k items_per_second=100.914G/s concurrency=32 creatives=2861 device=GPU 开启Graph： BM_Throughput_PyTorchDiversityRank/iterations:1 0.002 ms 0.001 ms 0 AvgLatency_us=3.09925k P50_us=2.777k P99_us=7.308k QPS=7.19071k TotalRequests=72.015k items_per_second=74.8597G/s concurrency=32 creatives=2861 device=GPU

qps 从 5.7k → 7.1k

但是这个长度

一些优化思路：

K_MAX 应该是可以缩小的，只是当前算法实现有问题
V_TID & V_AID 同理

Quartz 4

Explorer

2026-01-29

Graph View