NvPerf GPU 性能计数器参考手册
NvPerf GPU 性能计数器参考手册 本文档基于 NVIDIA 官方文档,对 NvProfAnalyzer 中使用的所有 GPU 性能计数器进行中文解释。 参考文档来源 Nsight Compute Profiling Guide — 计数器命名规则、硬件单元、管线定义 Nsight Graphics Advanced Learning — 图形管线各单元的功能说明 Nsight Graphics System Architecture — GPU 系统架构图解 NVIDIA Peak Performance Analysis Blog — 性能分析方法论 Nsight Compute CLI — CLI 工具与指标映射表 一、计数器命名规则 NVIDIA 性能计数器遵循统一的命名格式: 单元__(子单元?)_(管线阶段?)_度量_(限定符?) 示例解读: sm__inst_executed 单元: SM | 度量: inst_executed (指令执行) | 限定符: 无 → SM 执行的 warp 指令总数 sm__inst_executed_pipe_fma 单元: SM | 度量: inst_executed | 限定符: pipe_fma → FMA 管线执行的 warp 指令数 smsp__thread_inst_executed_pipe_tex_pred_on ...