MrOptimist

纹理压缩格式详解：ASTC、BC、ETC 与 PVRTC

概述纹理压缩（Texture Compression）是实时渲染中降低显存占用和带宽消耗的核心技术。与通用图像压缩（如 PNG、JPEG）不同，硬件纹理压缩格式支持随机访问——GPU 无需解压整幅图像即可直接读取单个 texel，这对纹理缓存和着色器采样至关重要。本文系统梳理主流硬件纹理压缩格式的技术细节、适用场景及硬件支持情况，所有关键数据均来自官方文档与公开规范。 BC 系列（Block Compression） BC 系列是 DirectX 生态中最主流的压缩格式，由 S3TC（DXT）发展而来，后续经 RGTC、BPTC 扩展为今日形态。所有 BC 格式均以固定 4×4 texel 块为单位进行编码。 BC1（原 DXT1 / S3TC）数据量：64 bits / 4×4 block（4 bpp）结构：两个 16-bit RGB565 端点色 + 16 个 2-bit 索引色板：4 色（两个端点 + 两个插值色） Alpha：无独立 alpha，仅支持 1-bit “镂空”（punch-through）透明支持通道：RGB（无独立 Alpha）典型用途：不透明漫反射贴图、简单遮罩据 Khronos Data Format Specification 描述，BC1 的 1-bit alpha 行为由两个端点值的相对大小决定： color0 > color1（按无符号整数比较）：4 色不透明模式，00/01/10/11 均为插值颜色，无透明 color0 <= color1：3 色 + 透明模式，11 表示完全透明像素（alpha = 0）实际使用方式编码端：向压缩器提供带 Alpha 的源图（如 PNG with 1-bit alpha），大多数 BC1 编码器（如 DirectXTex、nvcompress、Compressonator）会自动判断 block 是否需要透明模式。若源图 alpha 为纯 0/255，编码器会尽量使用 color0 <= color1 模式将 11 映射为透明。 ...

UE console 速记

r.VT.Borders 10 设置VT可视化

UE5 Nanite 与传统渲染管线的深度源码对比

本文基于 UE 5.4/5.5 引擎源码，从源码层面深入对比 Nanite 渲染管线与传统网格渲染管线的差异。所有代码引用均标注了引擎内的原始路径。 1. 宏观架构概览传统渲染管线和 Nanite 管线的最根本区别在于：几何处理的主导权从 CPU 转移到了 GPU，并且材质着色从 Pixel Shader 迁移到了 Compute Shader。维度传统渲染 (Traditional) Nanite 几何裁剪 CPU-driven Frustum/Occlusion Culling GPU-driven Cluster Culling + Two-Pass Occlusion LOD 离散 LOD (StaticMesh LOD0~N) 连续 LOD (Cluster Hierarchy, Runtime Streaming) 光栅化硬件光栅化 (Fixed Function RS) 软件光栅化 (Compute) + 硬件光栅化 (Mesh/Prim Shader) 中间表示无 (直接写 GBuffer/FrameBuffer) Visibility Buffer (VisBuffer64) 材质着色 Pixel Shader (BasePassPixelShader.usf) Compute Shader (ComputeShaderOutputCommon.ush) GBuffer 输出 SV_Target MRT UAV (ComputeShadingOutputs.OutTargetN) DrawCall FMeshDrawCommand (CPU 组装) Indirect Dispatch (GPU 驱动) 2. 渲染入口与调度 2.1 传统渲染的入口传统渲染的顶层调度在 FDeferredShadingSceneRenderer::Render() 中，通过 RenderBasePass() 等函数发起。每个 FPrimitiveSceneProxy 会在 FMeshPassProcessor 中被转换为 FMeshDrawCommand，最终由 FParallelMeshDrawCommandPass 提交到 RHI。 ...

Nanite VisBuffer 核心概念速查

Nanite VisBuffer 核心概念速查 Nanite 是 UE5 的虚拟化几何系统，其核心创新是用 Visibility Buffer（可见性缓冲）替代传统 G-Buffer，将几何处理与材质着色完全解耦。本文梳理 VisBuffer 管线中涉及的关键概念。 VisBuffer 整体管线 Mesh → Instance → Cluster Group → Cluster → Triangle → VisBuffer → Material Pass Culling Pass（计算着色器）：GPU 端逐 Cluster 做视锥/遮挡/屏幕尺寸剔除 Rasterization Pass：将可见像素写入 VisBuffer（仅存 ID，不做材质计算） Material Pass：全屏 Pass 读取 VisBuffer，解码 ID，仅对可见像素着色一次来源：Brian Karis, “A Deep Dive into Nanite Virtualized Geometry”, SIGGRAPH 2021 (Advances in Real-Time Rendering) 三角形（Triangle） Cluster 内的基本渲染单元。每个 Cluster 包含最多 128 个三角形。在 VisBuffer 中，三角形 ID 占约 7 bit（2^7 = 128），用于在 Material Pass 中定位该三角形的三个顶点并做重心坐标插值。 ...

使用文档

Hugo 博客使用文档站点信息站点目录：D:\ClaudeOutput\my-site\ 文章目录：content\posts\ 配置文件：hugo.toml 主题：PaperMod 本地预览：http://localhost:1313/ GitHub 仓库：https://github.com/mr0ptimist/mr0ptimist.github.io BAT 工具文件功能 serve_启动预览.bat 启动本地预览服务器（自动杀旧进程），含草稿，实时刷新 build_构建发布.bat 构建静态文件到 public/ 目录 new-post_新建文章.bat 交互式创建文章（标题、标签、分类、是否隐藏） clean_清除输出.bat 删除 public/ 目录日常写文章流程 1. 双击 new-post_新建文章.bat → 输入标题、选标签/分类、是否隐藏 2. 编辑 content/posts/xxx.md → 写文章内容 3. 双击 serve_启动预览.bat → 浏览器打开 http://localhost:1313/ 查看效果 4. 关掉预览（关闭窗口即可） 5. git add . && git commit -m "new post" && git push → 自动部署文章格式 +++ date = '2026-04-20T12:00:00+08:00' draft = false title = '文章标题' tags = ['标签1', '标签2'] categories = ['分类'] hidden = true +++ 正文内容，支持 Markdown 语法。 draft = true：草稿，只在 serve -D 模式下显示 draft = false：正式发布 hidden = true：加密文章，需在导航栏输入密码后才显示私密文章在 hugo.toml 中配置 secretPassword = '密码' 文章 front matter 加 hidden = true 即可隐藏导航栏锁图标 → 弹窗输入密码 → 隐藏文章出现再次点击锁图标 → 重新锁定密码状态用 sessionStorage，关闭浏览器自动重置隐藏文章不会出现在分类、标签列表中导航栏功能按钮功能锁图标解锁/锁定私密文章箭头图标调整文章宽度和 TOC 宽度太阳/月亮切换亮色/暗色主题 TOC（目录导航）大屏（1400px+）自动在左侧显示浮动 TOC 滚动时高亮当前标题只显示一级标题和带数字编号的子标题点击箭头按钮可调整 TOC 宽度（150-400px）部署使用 GitHub Actions 自动部署，push 到 main 分支即可： ...

移动端 GPU 可见性剔除机制对比

1. 移动端 GPU 可见性剔除机制对比 1.1 概览 PowerVR HSR Apple HSR Mali FPK Adreno LRZ 全称 Hidden Surface Removal Hidden Surface Removal Forward Pixel Kill Low Resolution Z 架构 TBDR TBDR TBDR TBDR 粒度逐像素逐像素逐像素（尽力而为）逐块（8x8 像素）保证级不透明物体保证零过度绘制不透明物体保证零过度绘制非保证，尽力剔除非保证，块级粗剔除绘制顺序依赖不透明物体顺序无关不透明物体顺序无关正面到背面更优 Binning pass 构建后顺序无关，但正面到背面可提升 Early-Z 效率 AlphaTest 失效失效失效失效 Alpha Blend 失效失效失效失效 gl_FragDepth 写入失效失效失效失效 1.2 PowerVR HSR (Imagination) 1.2.1 原理 TBDR 架构中，所有几何体先提交到 Tile，HSR 在 PS 执行前对整个 Tile 做可见性解析，只对最终可见像素跑 PS。 ...

NvPerf GPU 性能计数器参考手册

NvPerf GPU 性能计数器参考手册本文档基于 NVIDIA 官方文档，对 NvProfAnalyzer 中使用的所有 GPU 性能计数器进行中文解释。参考文档来源 Nsight Compute Profiling Guide — 计数器命名规则、硬件单元、管线定义 Nsight Graphics Advanced Learning — 图形管线各单元的功能说明 Nsight Graphics System Architecture — GPU 系统架构图解 NVIDIA Peak Performance Analysis Blog — 性能分析方法论 Nsight Compute CLI — CLI 工具与指标映射表一、计数器命名规则 NVIDIA 性能计数器遵循统一的命名格式：单元__(子单元?)_(管线阶段?)_度量_(限定符?) 示例解读： sm__inst_executed 单元: SM | 度量: inst_executed (指令执行) | 限定符: 无 → SM 执行的 warp 指令总数 sm__inst_executed_pipe_fma 单元: SM | 度量: inst_executed | 限定符: pipe_fma → FMA 管线执行的 warp 指令数 smsp__thread_inst_executed_pipe_tex_pred_on ...

NVIDIA GPU性能计数器完整参考手册

NVIDIA GPU性能计数器完整参考手册 (NvPerf/Nsight系列) 文件信息 CSV文件示例: Unity_2026.04.02_10.06_frame628066.pagecache.nvperf.csv 参数总数: 2958个性能计数器工具演进: nvperf → Nsight系列工具（推荐）一、性能计数器命名规则详解 1.1 Nsight Compute命名规范根据Nsight Compute Profiling Guide：基本格式: unit__(subunit?)_(pipestage?)_quantity_(qualifiers?) 接口计数器: unit__(subunit?)_(pipestage?)_(interface)_quantity_(qualifiers?) 组成部分: unit: GPU逻辑或物理单元（如sm、dram、lts） subunit: 单元内的子单元（可选） pipestage: 管线阶段（可选） quantity: 测量的内容（字节、计数、比率等） qualifiers: 附加谓词（操作类型、访问模式等） 1.2 后缀含义 .avg: 平均值 .max: 最大值 .min: 最小值 .sum: 总和 (bytes): 单位标识（字节） _op_read: 读取操作 _op_write: 写入操作 _lookup_hit: 查找命中 _lookup_miss: 查找未命中二、GPU硬件架构单元详解 2.1 计算核心单元单元前缀中文名称功能描述对应文档 sm__ 流多处理器 GPU的主要计算单元，包含多个CUDA核心，执行着色器指令 Nsight Compute Profiling Guide smsp__ SM子分区 SM内的四个子分区，各含调度器、寄存器文件和执行单元同上 tpc__ 纹理处理集群包含多个SM和纹理单元的处理集群 Nsight Graphics System Architecture vpc__ 顶点处理集群处理顶点着色相关任务的集群同上 2.2 图形管线单元单元前缀中文名称功能描述对应文档 fe__ 前端单元图形管线的初始阶段，处理命令分发 Nsight Graphics Advanced Learning gr__ 图形渲染单元图形渲染相关操作同上 raster__ 光栅化单元将图元转换为像素片段同上 pes__ 图元引擎状态协调顶点、曲面细分、几何等阶段同上 2.3 内存系统单元单元前缀中文名称功能描述对应文档 dram__ DRAM内存控制器设备主内存（GDDR6/GDDR5X）访问控制器 Nsight Compute Profiling Guide fbpa__ 帧缓冲区分区帧缓冲区内存分区管理 Nsight Graphics System Architecture lts__ 本地纹理存储纹理数据的本地存储同上 l1tex__ L1纹理缓存包含L1数据缓存和纹理处理两个并行管线同上 2.4 缓存系统单元单元前缀中文名称功能描述对应文档 gcc__ 图形命令缓存图形命令的缓存系统 Nsight Graphics Advanced Learning l2__ L2缓存为GPU所有单元提供服务，一致性的中心点 Nsight Graphics System Architecture syslts__ 系统本地纹理存储系统级的纹理存储管理同上 2.5 其他系统单元单元前缀中文名称功能描述对应文档 idc__ 指令分发单元指令分发相关操作 Nsight Compute Profiling Guide pcie__ PCI Express总线 CPU-GPU数据传输总线 Nsight Graphics System Architecture prop__ 预ROP单元协调深度和颜色像素处理，管理API顺序 Nsight Graphics Advanced Learning rtcore__ 光线追踪核心专用光线追踪处理单元同上三、图形管线处理阶段详解 3.1 前端处理（World Pipe）根据Nsight Graphics Advanced Learning： ...

Nanite: A Deep Dive

Nanite: A Deep Dive 来源: Karis_Nanite_SIGGRAPH_Advances_2021_final — Brian Karis, Rune Stubbe, Graham Wihlidal 会议: SIGGRAPH 2021 Advances in Real-Time Rendering in Games course 作者主讲: Brian Karis (Engineering Fellow, Epic Games) 主题: UE5 全新虚拟几何系统 Nanite 的深度技术解析目录愿景与现实可选方案的探索 GPU Driven Pipeline 三角形 Cluster Culling 与 Occlusion Culling Visibility Buffer 与可见性/材质解耦次线性扩展与 Cluster 层次结构 LOD 裂缝问题与 DAG 构建构建流程详解（Build Operations）简化算法与误差度量运行时视相关 LOD 选择并行 LOD 选择与层次裁剪 Persistent Threads 与两 Pass Occlusion Culling 光栅化（软件 + 硬件混合）小三角形与微多边形软光栅器小实例（Tiny Instances）与 Imposter 延迟材质求值（Deferred Material Evaluation）流水线性能数据阴影：Virtual Shadow Maps Streaming（几何流送）压缩：内存表示与磁盘表示结果与未来工作致谢与参考文献 1. 愿景与现实 1.1 The Dream（梦想）像 Virtual Texturing 那样虚拟化几何： ...

UE 纹理流送池与 Shader 调试 CVar 速查

纹理流送池 UE 根据流送池预算决定纹理加载哪些 mip level，超出预算时低优先级纹理只加载低分辨率 mip，控制台输出 Texture streaming pool over X MB 警告。查询与调整 // 运行时查询当前值 r.Streaming.PoolSize // 运行时修改（单位 MiB） r.Streaming.PoolSize 3000 永久设置在 DefaultEngine.ini 中： [/Script/Engine.RendererSettings] r.Streaming.PoolSize=3000 诊断命令命令用途 stat streaming 查看池使用量、各纹理流送状态 ListStreamingTextures 列出所有流送纹理及占用 r.Streaming.MaxTempMemoryAllowed 临时内存上限，过小也会导致流送卡顿常见原因与对策原因对策纹理分辨率过高 / mip 过多降低 TextureGroup 的 MaxLOD 或分辨率 UDIM / 大量贴图同时可见拆分 LOD、降低远处 mip 预算本身设太小合理提高 PoolSize（需匹配目标显存）纹理未设 Streaming 确认 Texture → Never Stream 未勾选 Shader 调试 CVar 在 RenderDoc 中查看 Compute Shader 源码，需在 ConsoleVariables.ini 的 [Startup] 段配置以下 CVar： ...