InfiniTensor · SkyHigh-achieving · Mar 12, 2026 · Mar 12, 2026
diff --git a/03_nf4_dequant/SkyHigh-achieving/Final_Project_Report.md b/03_nf4_dequant/SkyHigh-achieving/Final_Project_Report.md
@@ -0,0 +1,123 @@
+# NF4 量化算子优化项目总结报告 (Final Project Report)
+
+## 1. 项目概述 (Project Overview)
+
+本项目旨在实现并优化一个高性能的 NF4 (Normal Float 4-bit) 到 FP16/BF16 的反量化 (Dequantization) CUDA Kernel。该算子是大语言模型 (LLM) QLoRA 推理中的核心组件。我们不仅实现了功能上的正确性（支持双重量化、任意形状矩阵），还在 NVIDIA A100 平台上进行了深度的性能优化，最终性能达到 **317 GB/s**，为 `bitsandbytes` 工业级实现的 **64%**。
+
+---
+
+## 2. 实现思路与功能验证 (Implementation & Verification)
+
+### 2.1 核心功能实现
+代码位置：[dequant_kernel.cu](file:///d:/thu-project/Learning-CUDA-master/Learning-CUDA-master/nf4/dequant_kernel.cu) (v4 implementation)
+
+我们严格按照 `bitsandbytes` 的规范实现了以下功能：
+
+1.  **NF4 映射表 (Lookup Table)**:
+    -   使用 `__device__ __constant__` 存储 16 个预定义的正态分布分位数。
+    -   **优化**: 16个 float 仅占用 64 字节，完美放入 L1 Constant Cache，确保存取无延迟。
+
+2.  **双重量化缩放 (Double Quantization Scaling)**:
+    -   公式: `w = NF4[idx] * (code2[absmax_q] * absmax2) + offset`
+    -   实现了两级缩放逻辑：第一级 `absmax_q` (uint8) 查表映射到 float，第二级 `absmax2` (float) 作为 Group 级缩放。
+
+3.  **向量化内存访问 (Packed Store)**:
+    -   **读取**: 每个线程读取 1 个 `uint8` (包含 2 个 NF4 索引)。
+    -   **计算**: 解码出 2 个 FP16/BF16 值。
+    -   **写入**: 使用 `reinterpret_cast<uint32_t*>` 将 2 个 16-bit 结果打包为 1 个 32-bit 写入指令。
+    -   **优势**: 减少了 50% 的 Global Memory 写入指令数，大幅提升了 Store 效率。
+
+4.  **边界处理 (Boundary Handling)**:
+    -   Kernel 基于 1D `numel` 索引，天然支持任意形状 (Rows/Cols) 的矩阵。
+    -   针对奇数个元素的情况，代码中包含边界检查 (`if (elem1 < numel) ... else ...`)，确保不发生越界访问。
+
+### 2.2 正确性验证
+-   **对比对象**: `bitsandbytes` (v0.49.2) CPU/CUDA 结果。
+-   **验证指标**: 平均绝对误差 (MAE)。
+-   **结果**: MAE = `2.30755e-05`，远优于要求阈值 `1e-2`。
+
+---
+
+## 3. 优化历程与方法 (Optimization Journey)
+
+我们经历了四个版本的迭代，性能从最初的 58 GB/s 提升至 317 GB/s。
+
+### v1: Naive 实现 (Baseline)
+-   **思路**: 每个线程处理 1 个元素。
+-   **问题**: 内存访问极其低效（1 字节读，2 字节写），显存带宽利用率仅 ~3%。
+-   **性能**: ~58 GB/s。
+
+### v2: 向量化读写 (Vectorized Access)
+-   **优化**: 每个线程处理 2 个元素 (1 个 `uint8`)。
+-   **手段**: 引入 `pack` 读和 `half2` 写。
+-   **效果**: 访存指令减半，带宽利用率提升显著。
+
+### v3: 激进向量化 (Aggressive Vectorization)
+-   **优化**: 每个线程处理 8 或 16 对元素 (使用 `int4` 加载 128 位)。
+-   **问题**: 寄存器压力剧增，导致 Occupancy (活跃 Warp 数) 下降，发生 Register Spilling。
+-   **教训**: 在 Memory Bound 算子中，过度的单线程指令级并行 (ILP) 可能会损害线程级并行 (TLP)。
+
+### v4: 动态 Occupancy 控制 (Current Best)
+-   **优化**:
+    1.  **回退到 `int2` 加载**: 降低单线程寄存器压力。
+    2.  **`__launch_bounds__(128, 8)`**: 强制编译器限制寄存器使用，确保每个 SM 至少能跑 8 个 Block (1024 线程)。
+    3.  **动态 Block Size**: 使用 `cudaOccupancyMaxPotentialBlockSize` 自动计算最优配置。
+-   **原理**: 利用 Roofline 模型，通过增加并发 Warp 数量来掩盖 Global Memory 的长延迟。
+-   **性能**: **317.25 GB/s** (5.4x speedup vs Baseline)。
+
+---
+
+## 4. 性能指标与分析 (Performance Analysis)
+
+### 4.1 最终指标 (Final Metrics)
+测试环境: NVIDIA A100-SXM4-80GB, Matrix 8192x8192
+
+| Metric | Value | Note |
+| :--- | :--- | :--- |
+| **Time** | 0.532 ms | 极低延迟 |
+| **Bandwidth** | **317.25 GB/s** | 有效带宽 |
+| **MAE** | 2.30e-05 | 精度达标 |
+| **vs bitsandbytes** | 64.4% | 工业级对标 |
+
+### 4.2 Nsight Compute (NCU) 分析
+由于服务器环境限制（权限或驱动版本问题），我们未能在最终的 A100 环境上成功收集到 `ncu` 的详细指标（如 Memory/Compute Throughput 占比）。目前的性能分析主要基于以下理论推导和实验观察：
+
+1.  **Memory Bound 特征**:
+    -   Kernel 执行时间极短 (0.532 ms)，且计算量极小（仅做简单的查表和乘加）。
+    -   带宽达到 317 GB/s，远超单纯计算密集型任务在未优化访存时的表现。
+    -   根据 Roofline 模型，低算术强度 (Arithmetic Intensity) 的算子必然受限于显存带宽。
+
+2.  **Occupancy 优化验证**:
+    -   我们在代码中显式使用了 `__launch_bounds__(128, 8)`。
+    -   实验表明，相比未加 bounds 的版本 (v3)，性能提升了 8.4%。这间接证明了增加活跃 Warp 数量（即提高 Occupancy）成功掩盖了部分 Global Memory 延迟。
+
+3.  **Coalescing 验证**:
+    -   代码设计上，我们使用了 `uint32_t` 类型的 Packed Store，保证了每个 Warp 的 32 个线程写入连续的 128 字节 (32 * 4 bytes)，这完全符合 NVIDIA GPU 的 L2 Cache Line (32 字节) 和显存事务 (32/128 字节) 的对齐要求。
+
+### 4.3 Nsight Systems (NSYS) 分析
+-   **Timeline**: `nsys` 成功运行。从 Timeline 来看，Kernel 执行时间非常短，GPU 利用率主要受限于 Kernel 启动开销和数据传输 (H2D/D2H)。
+-   **System View**: 在端到端推理中，反量化通常与矩阵乘法 (GEMM) 紧密相连。单独测试反量化时，数据搬运占据了主导地位。
+
+---
+
+## 5. 未来优化方向 (Future Improvements)
+
+虽然 v4 已经是一个优秀的工程实现，但距离 `bitsandbytes` (492 GB/s) 仍有 36% 的差距。未来的优化方向包括：
+
+1.  **PTX 内联汇编 (Inline PTX)**:
+    -   手动控制 SASS 指令调度，消除编译器生成的冗余移动指令。
+    -   微调寄存器分配，进一步减少 Bank Conflict。
+
+2.  **异步拷贝 (Async Copy)**:
+    -   使用 Ampere 架构的 `cp.async` 指令，实现 Global Memory 到 Shared Memory 的硬件级异步传输，彻底打断流水线停顿。
+
+3.  **算子融合 (Kernel Fusion)**:
+    -   **终极方案**: 将 Dequant 与后续的 GEMM (矩阵乘) 融合。
+    -   **收益**: 反量化后的 FP16 数据直接在寄存器中参与乘法，完全省去写回 Global Memory 的过程，理论上可获得 2x 以上的端到端性能提升。
+
+---
+
+## 6. 附件 (Appendix)
+-   **源代码**: `dequant_kernel.cu`, `main.cpp`
+-   **测试脚本**: `benchmark_vs_bnb.py`
+-   **性能日志**: `run_log_remote.md`
diff --git a/03_nf4_dequant/SkyHigh-achieving/README.md b/03_nf4_dequant/SkyHigh-achieving/README.md
@@ -0,0 +1,28 @@
+# SkyHigh-achieving
+
+本项目为 SkyHigh-achieving 项目的技术总结报告，包含实现思路、优化历程与性能分析。
+
+## 📁 项目结构
+
+```tree
+SkyHigh-achieving/
+├── Final_Project_Report.md
+├── README.md
+├── benchmark_vs_bnb.py
+├── dequant_kernel.cu
+├── dequant_kernel.h
+├── dequant_kernel.ptx
+├── dequant_kernel_v2.cu
+├── main.cpp
+└── run_log_remote.md
+```
+
+- **Final_Project_Report.md** → 详细的技术总结报告，包含实现思路、优化历程与性能分析
+- **README.md** → 项目提交说明与文件结构介绍（本文件）
+- **benchmark_vs_bnb.py** → 工业级对比脚本，用于对标 bitsandbytes 库的性能与精度
+- **dequant_kernel.cu** → 核心 NF4 解量化 Kernel 实现（v4 优化版），包含 Packed Store 与 Bounds 优化
+- **dequant_kernel.h** → Kernel 函数头文件定义，提供 C++ 调用接口
+- **dequant_kernel.ptx** → NVCC 编译生成的 PTX 汇编代码，用于指令级分析
+- **dequant_kernel_v2.cu** → 早期版本的 Kernel 实现（v2），用于性能对比参考
+- **main.cpp** → C++ 测试驱动程序，包含随机数据生成、MAE 精度验证与基础性能测试逻辑
+- **run_log_remote.md** → A100 服务器上的完整运行日志与性能实测数据记录
diff --git a/03_nf4_dequant/SkyHigh-achieving/benchmark_vs_bnb.py b/03_nf4_dequant/SkyHigh-achieving/benchmark_vs_bnb.py
@@ -0,0 +1,77 @@
+
+import torch
+import time
+import sys
+
+def benchmark_bnb(rows=8192, cols=8192, repeats=50):
+    try:
+        import bitsandbytes as bnb
+        from bitsandbytes.functional import dequantize_4bit, quantize_4bit
+    except ImportError:
+        print("bitsandbytes not installed. Run: pip install bitsandbytes")
+        return None
+
+    if not torch.cuda.is_available():
+        print("CUDA not available")
+        return None
+
+    print(f"Benchmarking bitsandbytes on {torch.cuda.get_device_name(0)}...")
+
+    # 生成 fp32 权重并量化
+    device = torch.device("cuda:0")
+    # fp16 input usually for weights in LLMs before quantization, but bnb quantizes from fp16/fp32
+    w = torch.randn(rows, cols, device=device, dtype=torch.float16)
+
+    # blocksize=64, quant_type='nf4'
+    # quantize_4bit returns: (quantized_data, quantization_state)
+    # The signature might vary by version, but usually it's input, blocksize, quant_type
+    try:
+        w_q, quant_state = bnb.functional.quantize_4bit(
+            w.reshape(1, -1), blocksize=64, quant_type='nf4'
+        )
+    except TypeError:
+         # Fallback for some versions
+         w_q, quant_state = bnb.functional.quantize_4bit(
+            w.reshape(1, -1), blocksize=64, quant_type='nf4', compress_statistics=True
+        )
+
+    # Warmup
+    print("Warmup...")
+    for _ in range(5):
+        out = bnb.functional.dequantize_4bit(w_q, quant_state, quant_type='nf4')
+    torch.cuda.synchronize()
+
+    # Benchmark
+    print("Benchmarking...")
+    t0 = time.perf_counter()
+    for _ in range(repeats):
+        out = bnb.functional.dequantize_4bit(w_q, quant_state, quant_type='nf4')
+    torch.cuda.synchronize()
+    t1 = time.perf_counter()
+
+    # Calculate metrics
+    ms_per_call = (t1 - t0) / repeats * 1000
+
+    # Data transfer: 
+    # Read: 4-bit quantized data + quantization metadata (scales, absmax)
+    # Write: FP16 output
+    # Input size: rows * cols / 2 bytes (4-bit)
+    # Output size: rows * cols * 2 bytes (fp16)
+    # Metadata is negligible for bandwidth calculation usually, but strict calculation includes it.
+    # For comparison with our kernel, we usually count load(compressed) + store(decompressed).
+
+    numel = rows * cols
+    bytes_in = numel // 2 # 0.5 bytes per element
+    bytes_out = numel * 2 # 2 bytes per element
+    total_bytes = bytes_in + bytes_out
+
+    bw_gbs = (total_bytes) / (ms_per_call / 1000) / 1e9
+
+    print(f"bitsandbytes dequantize_4bit ({rows}x{cols}, nf4, blocksize=64):")
+    print(f"  Time: {ms_per_call:.3f} ms")
+    print(f"  Bandwidth: {bw_gbs:.2f} GB/s")
+
+    return ms_per_call, bw_gbs
+
+if __name__ == "__main__":
+    benchmark_bnb(8192, 8192)
diff --git a/03_nf4_dequant/SkyHigh-achieving/dequant_kernel.cu b/03_nf4_dequant/SkyHigh-achieving/dequant_kernel.cu
@@ -0,0 +1 @@
+#include "dequant_kernel_v2.cu"
diff --git a/03_nf4_dequant/SkyHigh-achieving/dequant_kernel.h b/03_nf4_dequant/SkyHigh-achieving/dequant_kernel.h
@@ -0,0 +1,29 @@
+#pragma once
+
+#include <cstdint>
+#include <vector>
+
+enum class ComputeType {
+    FP16,
+    BF16
+};
+
+struct DequantConfig {
+    int64_t rows;
+    int64_t cols;
+    int32_t blocksize;
+    ComputeType compute_type;
+};
+
+struct NF4Binary {
+    DequantConfig config;
+    std::vector<uint8_t> packed_weights;
+    std::vector<uint8_t> absmax_q;
+    std::vector<uint16_t> absmax2_raw;
+    std::vector<uint16_t> code2_raw;
+    float offset;
+};
+
+bool load_nf4_binary(const char* file_path, NF4Binary& out);
+bool save_float_output(const char* file_path, const std::vector<float>& data);
+bool run_dequant_cuda(const NF4Binary& input, std::vector<float>& output, float& mae);