NvPerf GPU 性能计数器参考手册

NvPerf GPU 性能计数器参考手册 本文档基于 NVIDIA 官方文档,对 NvProfAnalyzer 中使用的所有 GPU 性能计数器进行中文解释。 参考文档来源 Nsight Compute Profiling Guide — 计数器命名规则、硬件单元、管线定义 Nsight Graphics Advanced Learning — 图形管线各单元的功能说明 Nsight Graphics System Architecture — GPU 系统架构图解 NVIDIA Peak Performance Analysis Blog — 性能分析方法论 Nsight Compute CLI — CLI 工具与指标映射表 一、计数器命名规则 NVIDIA 性能计数器遵循统一的命名格式: 单元__(子单元?)_(管线阶段?)_度量_(限定符?) 示例解读: sm__inst_executed 单元: SM | 度量: inst_executed (指令执行) | 限定符: 无 → SM 执行的 warp 指令总数 sm__inst_executed_pipe_fma 单元: SM | 度量: inst_executed | 限定符: pipe_fma → FMA 管线执行的 warp 指令数 smsp__thread_inst_executed_pipe_tex_pred_on ...

April 20, 2026 · 12 min · MrOptimist

NVIDIA GPU性能计数器完整参考手册

NVIDIA GPU性能计数器完整参考手册 (NvPerf/Nsight系列) 文件信息 CSV文件示例: Unity_2026.04.02_10.06_frame628066.pagecache.nvperf.csv 参数总数: 2958个性能计数器 工具演进: nvperf → Nsight系列工具(推荐) 一、性能计数器命名规则详解 1.1 Nsight Compute命名规范 根据Nsight Compute Profiling Guide: 基本格式: unit__(subunit?)_(pipestage?)_quantity_(qualifiers?) 接口计数器: unit__(subunit?)_(pipestage?)_(interface)_quantity_(qualifiers?) 组成部分: unit: GPU逻辑或物理单元(如sm、dram、lts) subunit: 单元内的子单元(可选) pipestage: 管线阶段(可选) quantity: 测量的内容(字节、计数、比率等) qualifiers: 附加谓词(操作类型、访问模式等) 1.2 后缀含义 .avg: 平均值 .max: 最大值 .min: 最小值 .sum: 总和 (bytes): 单位标识(字节) _op_read: 读取操作 _op_write: 写入操作 _lookup_hit: 查找命中 _lookup_miss: 查找未命中 二、GPU硬件架构单元详解 2.1 计算核心单元 单元前缀 中文名称 功能描述 对应文档 sm__ 流多处理器 GPU的主要计算单元,包含多个CUDA核心,执行着色器指令 Nsight Compute Profiling Guide smsp__ SM子分区 SM内的四个子分区,各含调度器、寄存器文件和执行单元 同上 tpc__ 纹理处理集群 包含多个SM和纹理单元的处理集群 Nsight Graphics System Architecture vpc__ 顶点处理集群 处理顶点着色相关任务的集群 同上 2.2 图形管线单元 单元前缀 中文名称 功能描述 对应文档 fe__ 前端单元 图形管线的初始阶段,处理命令分发 Nsight Graphics Advanced Learning gr__ 图形渲染单元 图形渲染相关操作 同上 raster__ 光栅化单元 将图元转换为像素片段 同上 pes__ 图元引擎状态 协调顶点、曲面细分、几何等阶段 同上 2.3 内存系统单元 单元前缀 中文名称 功能描述 对应文档 dram__ DRAM内存控制器 设备主内存(GDDR6/GDDR5X)访问控制器 Nsight Compute Profiling Guide fbpa__ 帧缓冲区分区 帧缓冲区内存分区管理 Nsight Graphics System Architecture lts__ 本地纹理存储 纹理数据的本地存储 同上 l1tex__ L1纹理缓存 包含L1数据缓存和纹理处理两个并行管线 同上 2.4 缓存系统单元 单元前缀 中文名称 功能描述 对应文档 gcc__ 图形命令缓存 图形命令的缓存系统 Nsight Graphics Advanced Learning l2__ L2缓存 为GPU所有单元提供服务,一致性的中心点 Nsight Graphics System Architecture syslts__ 系统本地纹理存储 系统级的纹理存储管理 同上 2.5 其他系统单元 单元前缀 中文名称 功能描述 对应文档 idc__ 指令分发单元 指令分发相关操作 Nsight Compute Profiling Guide pcie__ PCI Express总线 CPU-GPU数据传输总线 Nsight Graphics System Architecture prop__ 预ROP单元 协调深度和颜色像素处理,管理API顺序 Nsight Graphics Advanced Learning rtcore__ 光线追踪核心 专用光线追踪处理单元 同上 三、图形管线处理阶段详解 3.1 前端处理(World Pipe) 根据Nsight Graphics Advanced Learning: ...

April 20, 2026 · 4 min · MrOptimist