• Preranking Pytorch 落地方案

  • 修改 preranking_model_triton.py 支持 Cuda Graph

    • 使用 cpp 压缩,避免unique
    • 避免使用 item 获取
  • 感觉效果好像还可以的样子啊

未使用Graph: BM_Throughput_PyTorchDiversityRank/iterations:1 0.002 ms 0.001 ms 0 AvgLatency_us=4.27905k P50_us=4.134k P99_us=8.542k QPS=5.87085k TotalRequests=58.732k items_per_second=100.914G/s concurrency=32 creatives=2861 device=GPU 开启Graph: BM_Throughput_PyTorchDiversityRank/iterations:1 0.002 ms 0.001 ms 0 AvgLatency_us=3.09925k P50_us=2.777k P99_us=7.308k QPS=7.19071k TotalRequests=72.015k items_per_second=74.8597G/s concurrency=32 creatives=2861 device=GPU

qps 从 5.7k 7.1k

但是这个长度

一些优化思路:

  1. K_MAX 应该是可以缩小的,只是当前算法实现有问题
  2. V_TID & V_AID 同理