基于CUDA的实时图像双边滤波优化及多平台移植 by Snowkyo16 · Pull Request #48 · InfiniTensor/Learning-CUDA

Snowkyo16 · 2026-03-16T10:22:19Z

本项目实现了基于 CUDA 的高性能双边滤波算法，通过渐进式优化，从 CPU 基线到 Stream 流水线共 5 个版本：V0（CPU）→ V1（Naive GPU，726.59x）→ V2（Shared Memory，643.52x）→ V3（常量内存 LUT，819.98x）→ V4（Stream 流水线，987.14x）。最终在 NVIDIA A100 上达到 652.04 MP/s 吞吐量，等效 4K帧率 78.61 fps，成功达成 4K@60fps 实时处理目标。
项目成功从 NVIDIA CUDA 移植到 3 个国产 GPU 平台（天数智芯 BI-V100、沐曦 C500、摩尔线程 S5000），验证了 CUDA 编程模型在国产生态中的可移植性。所有版本与 OpenCV 对比 MAE = 0.0489（< 1），PSNR = 61.16 dB（> 40 dB），满足正确性要求。

- 实现CPU双边滤波 (bilateral_cpu.cpp) - stb_image 图像读写 - params.txt 参数配置 - OpenCV 对比验证脚本 - Makefile 编译系统

- 新增src/kernels.cu: 一个线程处理一个像素的naive kernel - 新增include/benchmark.h + src/benchmark.cpp：通用计时/对比框架 - 重构main.cu为版本调度器，支持MODE参数

- 新增V2 kernel: shared memory tiling with halo协作加载 - 修复颜色权重: L1范数，与OpenCV一致 - 修复窗口形状，圆形窗口，与OpenCV一致 - 统一输出PNG无损格式

新增V3 Kernel: 常量内存LUT, 使用__expf, #pragma unroll通道展开优化benchmark框架：1次预热+N次计时取平均，GPU版本默认10轮

- 预分配device buffer，消除每帧cudaaMalloc/cudaFree - cudaHostAlloc 分配pinned memory，支持cudaMemcpyAsync - 4路CUDA stream流水线，kernel和D2H重叠执行

Snowkyo16 added 9 commits March 7, 2026 16:16

V0: CPU 双边滤波基线实现

950eb3b

- 实现CPU双边滤波 (bilateral_cpu.cpp) - stb_image 图像读写 - params.txt 参数配置 - OpenCV 对比验证脚本 - Makefile 编译系统

V1: Naive CUDA kernel实现

9f76960

- 新增src/kernels.cu: 一个线程处理一个像素的naive kernel - 新增include/benchmark.h + src/benchmark.cpp：通用计时/对比框架 - 重构main.cu为版本调度器，支持MODE参数

V2: Shared Memory Tiling + L1范数修复 + 圆形窗口

08c4a61

- 新增V2 kernel: shared memory tiling with halo协作加载 - 修复颜色权重: L1范数，与OpenCV一致 - 修复窗口形状，圆形窗口，与OpenCV一致 - 统一输出PNG无损格式

V3: Constant Memory

692a229

新增V3 Kernel: 常量内存LUT, 使用__expf, #pragma unroll通道展开优化benchmark框架：1次预热+N次计时取平均，GPU版本默认10轮

V4: Pinned Memory + CUDA Stream流水线

6f0c772

- 预分配device buffer，消除每帧cudaaMalloc/cudaFree - cudaHostAlloc 分配pinned memory，支持cudaMemcpyAsync - 4路CUDA stream流水线，kernel和D2H重叠执行

V5: MetaX C500 MACA Platform Port

0b9b228

V4.1.0: Iluvatar BI100 Platform Port

2938088

V6: Moore Threads S5000 MUSA Platform Port

b20052e

docs: 更新实验报告

3efa2f3

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

基于CUDA的实时图像双边滤波优化及多平台移植#48

基于CUDA的实时图像双边滤波优化及多平台移植#48
Snowkyo16 wants to merge 9 commits intoInfiniTensor:2025-winter-projectfrom
Snowkyo16:2025-winter-project

Snowkyo16 commented Mar 16, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

Snowkyo16 commented Mar 16, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant