-
修改 preranking_model_triton.py 支持 Cuda Graph
- 使用 cpp 压缩,避免unique
- 避免使用 item 获取
-
感觉效果好像还可以的样子啊
未使用Graph: BM_Throughput_PyTorchDiversityRank/iterations:1 0.002 ms 0.001 ms 0 AvgLatency_us=4.27905k P50_us=4.134k P99_us=8.542k QPS=5.87085k TotalRequests=58.732k items_per_second=100.914G/s concurrency=32 creatives=2861 device=GPU 开启Graph: BM_Throughput_PyTorchDiversityRank/iterations:1 0.002 ms 0.001 ms 0 AvgLatency_us=3.09925k P50_us=2.777k P99_us=7.308k QPS=7.19071k TotalRequests=72.015k items_per_second=74.8597G/s concurrency=32 creatives=2861 device=GPU
qps 从 5.7k → 7.1k
但是这个长度
一些优化思路:
- K_MAX 应该是可以缩小的,只是当前算法实现有问题
- V_TID & V_AID 同理