<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>NVIDIA on MrOptimist</title><link>https://mr0ptimist.github.io/tags/nvidia/</link><description>Recent content in NVIDIA on MrOptimist</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 20 Apr 2026 10:03:00 +0800</lastBuildDate><atom:link href="https://mr0ptimist.github.io/tags/nvidia/index.xml" rel="self" type="application/rss+xml"/><item><title>NvPerf GPU 性能计数器参考手册</title><link>https://mr0ptimist.github.io/posts/nvperf_counters_reference/</link><pubDate>Mon, 20 Apr 2026 10:03:00 +0800</pubDate><guid>https://mr0ptimist.github.io/posts/nvperf_counters_reference/</guid><description>&lt;h1 id="nvperf-gpu-性能计数器参考手册"&gt;NvPerf GPU 性能计数器参考手册&lt;/h1&gt;
&lt;p&gt;本文档基于 NVIDIA 官方文档，对 NvProfAnalyzer 中使用的所有 GPU 性能计数器进行中文解释。&lt;/p&gt;
&lt;h2 id="参考文档来源"&gt;参考文档来源&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="https://docs.nvidia.com/nsight-compute/ProfilingGuide/index.html"&gt;Nsight Compute Profiling Guide&lt;/a&gt; — 计数器命名规则、硬件单元、管线定义&lt;/li&gt;
&lt;li&gt;&lt;a href="https://docs.nvidia.com/nsight-graphics/AdvancedLearning/index.html"&gt;Nsight Graphics Advanced Learning&lt;/a&gt; —
图形管线各单元的功能说明&lt;/li&gt;
&lt;li&gt;&lt;a href="https://docs.nvidia.com/nsight-graphics/UserGuide/gpu-trace-system-architecture.html"&gt;Nsight Graphics System Architecture&lt;/a&gt; —
GPU 系统架构图解&lt;/li&gt;
&lt;li&gt;&lt;a href="https://developer.nvidia.com/blog/the-peak-performance-analysis-method-for-optimizing-any-gpu-workload/"&gt;NVIDIA Peak Performance Analysis Blog&lt;/a&gt; —
性能分析方法论&lt;/li&gt;
&lt;li&gt;&lt;a href="https://docs.nvidia.com/nsight-compute/NsightComputeCli/index.html"&gt;Nsight Compute CLI&lt;/a&gt; — CLI 工具与指标映射表&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="一计数器命名规则"&gt;一、计数器命名规则&lt;/h2&gt;
&lt;p&gt;NVIDIA 性能计数器遵循统一的命名格式：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;单元__(子单元?)_(管线阶段?)_度量_(限定符?)
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;示例解读：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;&lt;code&gt;sm__inst_executed&lt;/code&gt;&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;单元: SM | 度量: inst_executed (指令执行) | 限定符: 无&lt;/li&gt;
&lt;li&gt;→ SM 执行的 warp 指令总数&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;&lt;code&gt;sm__inst_executed_pipe_fma&lt;/code&gt;&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;单元: SM | 度量: inst_executed | 限定符: pipe_fma&lt;/li&gt;
&lt;li&gt;→ FMA 管线执行的 warp 指令数&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;&lt;code&gt;smsp__thread_inst_executed_pipe_tex_pred_on&lt;/code&gt;&lt;/strong&gt;&lt;/p&gt;</description></item><item><title>NVIDIA GPU性能计数器完整参考手册</title><link>https://mr0ptimist.github.io/posts/nvidia_gpu_performance_counters_complete_zh/</link><pubDate>Mon, 20 Apr 2026 10:02:00 +0800</pubDate><guid>https://mr0ptimist.github.io/posts/nvidia_gpu_performance_counters_complete_zh/</guid><description>&lt;h1 id="nvidia-gpu性能计数器完整参考手册-nvperfnsight系列"&gt;NVIDIA GPU性能计数器完整参考手册 (NvPerf/Nsight系列)&lt;/h1&gt;
&lt;h2 id="文件信息"&gt;文件信息&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;CSV文件示例&lt;/strong&gt;: &lt;code&gt;Unity_2026.04.02_10.06_frame628066.pagecache.nvperf.csv&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;参数总数&lt;/strong&gt;: 2958个性能计数器&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;工具演进&lt;/strong&gt;: nvperf → Nsight系列工具（推荐）&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="一性能计数器命名规则详解"&gt;一、性能计数器命名规则详解&lt;/h2&gt;
&lt;h3 id="11-nsight-compute命名规范"&gt;1.1 Nsight Compute命名规范&lt;/h3&gt;
&lt;p&gt;根据&lt;a href="https://docs.nvidia.com/nsight-compute/ProfilingGuide/index.html"&gt;Nsight Compute Profiling Guide&lt;/a&gt;：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;基本格式&lt;/strong&gt;: &lt;code&gt;unit__(subunit?)_(pipestage?)_quantity_(qualifiers?)&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;接口计数器&lt;/strong&gt;: &lt;code&gt;unit__(subunit?)_(pipestage?)_(interface)_quantity_(qualifiers?)&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;组成部分&lt;/strong&gt;:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;unit&lt;/strong&gt;: GPU逻辑或物理单元（如sm、dram、lts）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;subunit&lt;/strong&gt;: 单元内的子单元（可选）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;pipestage&lt;/strong&gt;: 管线阶段（可选）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;quantity&lt;/strong&gt;: 测量的内容（字节、计数、比率等）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;qualifiers&lt;/strong&gt;: 附加谓词（操作类型、访问模式等）&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="12-后缀含义"&gt;1.2 后缀含义&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;&lt;code&gt;.avg&lt;/code&gt;&lt;/strong&gt;: 平均值&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;&lt;code&gt;.max&lt;/code&gt;&lt;/strong&gt;: 最大值&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;&lt;code&gt;.min&lt;/code&gt;&lt;/strong&gt;: 最小值&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;&lt;code&gt;.sum&lt;/code&gt;&lt;/strong&gt;: 总和&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;&lt;code&gt;(bytes)&lt;/code&gt;&lt;/strong&gt;: 单位标识（字节）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;&lt;code&gt;_op_read&lt;/code&gt;&lt;/strong&gt;: 读取操作&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;&lt;code&gt;_op_write&lt;/code&gt;&lt;/strong&gt;: 写入操作&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;&lt;code&gt;_lookup_hit&lt;/code&gt;&lt;/strong&gt;: 查找命中&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;&lt;code&gt;_lookup_miss&lt;/code&gt;&lt;/strong&gt;: 查找未命中&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="二gpu硬件架构单元详解"&gt;二、GPU硬件架构单元详解&lt;/h2&gt;
&lt;h3 id="21-计算核心单元"&gt;2.1 计算核心单元&lt;/h3&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;单元前缀&lt;/th&gt;
&lt;th&gt;中文名称&lt;/th&gt;
&lt;th&gt;功能描述&lt;/th&gt;
&lt;th&gt;对应文档&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;sm__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;流多处理器&lt;/td&gt;
&lt;td&gt;GPU的主要计算单元，包含多个CUDA核心，执行着色器指令&lt;/td&gt;
&lt;td&gt;&lt;a href="https://docs.nvidia.com/nsight-compute/ProfilingGuide/index.html"&gt;Nsight Compute Profiling Guide&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;smsp__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;SM子分区&lt;/td&gt;
&lt;td&gt;SM内的四个子分区，各含调度器、寄存器文件和执行单元&lt;/td&gt;
&lt;td&gt;同上&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;tpc__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;纹理处理集群&lt;/td&gt;
&lt;td&gt;包含多个SM和纹理单元的处理集群&lt;/td&gt;
&lt;td&gt;&lt;a href="https://docs.nvidia.com/nsight-graphics/UserGuide/gpu-trace-system-architecture.html"&gt;Nsight Graphics System Architecture&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;vpc__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;顶点处理集群&lt;/td&gt;
&lt;td&gt;处理顶点着色相关任务的集群&lt;/td&gt;
&lt;td&gt;同上&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="22-图形管线单元"&gt;2.2 图形管线单元&lt;/h3&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;单元前缀&lt;/th&gt;
&lt;th&gt;中文名称&lt;/th&gt;
&lt;th&gt;功能描述&lt;/th&gt;
&lt;th&gt;对应文档&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;fe__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;前端单元&lt;/td&gt;
&lt;td&gt;图形管线的初始阶段，处理命令分发&lt;/td&gt;
&lt;td&gt;&lt;a href="https://docs.nvidia.com/nsight-graphics/AdvancedLearning/index.html"&gt;Nsight Graphics Advanced Learning&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;gr__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;图形渲染单元&lt;/td&gt;
&lt;td&gt;图形渲染相关操作&lt;/td&gt;
&lt;td&gt;同上&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;raster__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;光栅化单元&lt;/td&gt;
&lt;td&gt;将图元转换为像素片段&lt;/td&gt;
&lt;td&gt;同上&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;pes__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;图元引擎状态&lt;/td&gt;
&lt;td&gt;协调顶点、曲面细分、几何等阶段&lt;/td&gt;
&lt;td&gt;同上&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="23-内存系统单元"&gt;2.3 内存系统单元&lt;/h3&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;单元前缀&lt;/th&gt;
&lt;th&gt;中文名称&lt;/th&gt;
&lt;th&gt;功能描述&lt;/th&gt;
&lt;th&gt;对应文档&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;dram__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;DRAM内存控制器&lt;/td&gt;
&lt;td&gt;设备主内存（GDDR6/GDDR5X）访问控制器&lt;/td&gt;
&lt;td&gt;&lt;a href="https://docs.nvidia.com/nsight-compute/ProfilingGuide/index.html"&gt;Nsight Compute Profiling Guide&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;fbpa__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;帧缓冲区分区&lt;/td&gt;
&lt;td&gt;帧缓冲区内存分区管理&lt;/td&gt;
&lt;td&gt;&lt;a href="https://docs.nvidia.com/nsight-graphics/UserGuide/gpu-trace-system-architecture.html"&gt;Nsight Graphics System Architecture&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;lts__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;本地纹理存储&lt;/td&gt;
&lt;td&gt;纹理数据的本地存储&lt;/td&gt;
&lt;td&gt;同上&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;l1tex__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;L1纹理缓存&lt;/td&gt;
&lt;td&gt;包含L1数据缓存和纹理处理两个并行管线&lt;/td&gt;
&lt;td&gt;同上&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="24-缓存系统单元"&gt;2.4 缓存系统单元&lt;/h3&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;单元前缀&lt;/th&gt;
&lt;th&gt;中文名称&lt;/th&gt;
&lt;th&gt;功能描述&lt;/th&gt;
&lt;th&gt;对应文档&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;gcc__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;图形命令缓存&lt;/td&gt;
&lt;td&gt;图形命令的缓存系统&lt;/td&gt;
&lt;td&gt;&lt;a href="https://docs.nvidia.com/nsight-graphics/AdvancedLearning/index.html"&gt;Nsight Graphics Advanced Learning&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;l2__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;L2缓存&lt;/td&gt;
&lt;td&gt;为GPU所有单元提供服务，一致性的中心点&lt;/td&gt;
&lt;td&gt;&lt;a href="https://docs.nvidia.com/nsight-graphics/UserGuide/gpu-trace-system-architecture.html"&gt;Nsight Graphics System Architecture&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;syslts__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;系统本地纹理存储&lt;/td&gt;
&lt;td&gt;系统级的纹理存储管理&lt;/td&gt;
&lt;td&gt;同上&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="25-其他系统单元"&gt;2.5 其他系统单元&lt;/h3&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;单元前缀&lt;/th&gt;
&lt;th&gt;中文名称&lt;/th&gt;
&lt;th&gt;功能描述&lt;/th&gt;
&lt;th&gt;对应文档&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;idc__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;指令分发单元&lt;/td&gt;
&lt;td&gt;指令分发相关操作&lt;/td&gt;
&lt;td&gt;&lt;a href="https://docs.nvidia.com/nsight-compute/ProfilingGuide/index.html"&gt;Nsight Compute Profiling Guide&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;pcie__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;PCI Express总线&lt;/td&gt;
&lt;td&gt;CPU-GPU数据传输总线&lt;/td&gt;
&lt;td&gt;&lt;a href="https://docs.nvidia.com/nsight-graphics/UserGuide/gpu-trace-system-architecture.html"&gt;Nsight Graphics System Architecture&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;prop__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;预ROP单元&lt;/td&gt;
&lt;td&gt;协调深度和颜色像素处理，管理API顺序&lt;/td&gt;
&lt;td&gt;&lt;a href="https://docs.nvidia.com/nsight-graphics/AdvancedLearning/index.html"&gt;Nsight Graphics Advanced Learning&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;&lt;code&gt;rtcore__&lt;/code&gt;&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;光线追踪核心&lt;/td&gt;
&lt;td&gt;专用光线追踪处理单元&lt;/td&gt;
&lt;td&gt;同上&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id="三图形管线处理阶段详解"&gt;三、图形管线处理阶段详解&lt;/h2&gt;
&lt;h3 id="31-前端处理world-pipe"&gt;3.1 前端处理（World Pipe）&lt;/h3&gt;
&lt;p&gt;根据&lt;a href="https://docs.nvidia.com/nsight-graphics/AdvancedLearning/index.html"&gt;Nsight Graphics Advanced Learning&lt;/a&gt;：&lt;/p&gt;</description></item></channel></rss>