【训练营】FlashAttention 接入 by BAI-123-GUO · Pull Request #125 · InfiniTensor/InfiniTrain

BAI-123-GUO · 2026-03-16T11:11:39Z

Summary

接入基于 cuDNN Frontend Graph 的 FlashAttention/SDPA，实现 GPT-2 与 LLaMA-3 的 --flash 开关，并补齐 functional / autograd / CUDA kernel 路径。
在 A100 + CUDA 12.8 + cuDNN 9.7 环境完成 BF16 验证与 benchmark；Flash 路径按硬件/后端支持边界仅面向 CUDA + BF16。
补充 benchmark 与日志解析脚本，便于复现实验与生成性能结果。

Main Changes

Validation

benchmark
GPT-2: 238.37 ms -> 203.90 ms (1.169x)
LLaMA-3: 1299.91 ms -> 1278.74 ms (1.017x)

Notes
报告与日志未包含在 PR 中，将单独提交。

BAI-123-GUO added 2 commits March 16, 2026 19:06

FlashAttention SDPA integration

860de2f

fix: normalize line endings for format check

b793fda

kilinchange self-requested a review March 17, 2026 06:20

kilinchange self-assigned this Mar 17, 2026

Provide feedback