From 2b0c9096320f011467d288402181d73efa36d690 Mon Sep 17 00:00:00 2001
From: kilinchange <kilinchange@163.com>
Date: Fri, 6 Mar 2026 09:56:28 +0000
Subject: [PATCH] feat: add common BF16/FP16 abstraction infrastructure

---
 infini_train/include/common/common.h          |  16 +-
 infini_train/include/common/cpu/common_cpu.h  |  35 +-
 infini_train/include/core/device_guard.h      |   1 +
 infini_train/include/core/dtype_bridge.h      | 122 ++++++
 infini_train/include/datatype.h               | 354 ++++++++++++-----
 infini_train/include/dispatcher.h             | 362 +-----------------
 infini_train/include/dtype_dispatch.h         | 325 ++++++++++++++++
 infini_train/include/tensor.h                 |   4 +-
 infini_train/include/tensor_fill_impl.h       |  28 ++
 infini_train/src/core/cpu/cpu_dispatch.h      |  24 ++
 infini_train/src/core/cuda/cuda_dispatch.h    |  42 ++
 .../src/core/cuda/cuda_dtype_bridge.h         |  20 +
 infini_train/src/core/cuda/cuda_stream.cc     |   4 +-
 infini_train/src/core/cuda/cuda_stream.h      |   2 +-
 infini_train/src/kernels/cpu/cast.cc          |  14 +-
 infini_train/src/kernels/cpu/elementwise.cc   |   4 +-
 infini_train/src/kernels/cpu/embedding.cc     |   2 +-
 infini_train/src/kernels/cpu/gather.cc        |   2 +-
 infini_train/src/kernels/cpu/layernorm.cc     |  10 +-
 infini_train/src/kernels/cpu/linear.cc        |   4 +-
 infini_train/src/kernels/cpu/outer.cc         |   4 +-
 infini_train/src/kernels/cpu/slice.cc         |   2 +-
 infini_train/src/kernels/cpu/split.cc         |   2 +-
 infini_train/src/kernels/cpu/transform.cc     |   2 +-
 .../src/kernels/cuda/accumulate_grad.cu       |  44 ++-
 infini_train/src/kernels/cuda/cast.cu         |  14 +-
 infini_train/src/kernels/cuda/comm.cu         |   2 +-
 infini_train/src/kernels/cuda/concat.cu       |  25 +-
 .../src/kernels/cuda/cross_entropy.cu         |  47 ++-
 infini_train/src/kernels/cuda/elementwise.cu  |  18 +-
 infini_train/src/kernels/cuda/embedding.cu    |   7 +-
 infini_train/src/kernels/cuda/fill.cu         |   3 +-
 infini_train/src/kernels/cuda/gather.cu       |   8 +-
 infini_train/src/kernels/cuda/layernorm.cu    |  15 +-
 infini_train/src/kernels/cuda/linear.cu       |  33 +-
 infini_train/src/kernels/cuda/outer.cu        |   7 +-
 infini_train/src/kernels/cuda/reduction.cu    |   7 +-
 infini_train/src/kernels/cuda/slice.cu        |  11 +-
 infini_train/src/kernels/cuda/softmax.cu      |   4 +-
 infini_train/src/kernels/cuda/split.cu        |   7 +-
 infini_train/src/kernels/cuda/stack.cu        |   8 +-
 infini_train/src/kernels/cuda/transform.cu    |  35 +-
 .../cuda/vocab_parallel_cross_entropy.cu      |   4 +-
 infini_train/src/nn/init.cc                   |  11 +-
 infini_train/src/nn/parallel/process_group.cc |   2 +-
 infini_train/src/optimizer.cc                 |   9 +-
 infini_train/src/tensor.cc                    |  37 +-
 test/hook/test_precision_check.cc             |  10 +-
 48 files changed, 1071 insertions(+), 682 deletions(-)
 create mode 100644 infini_train/include/core/dtype_bridge.h
 create mode 100644 infini_train/include/dtype_dispatch.h
 create mode 100644 infini_train/include/tensor_fill_impl.h
 create mode 100644 infini_train/src/core/cpu/cpu_dispatch.h
 create mode 100644 infini_train/src/core/cuda/cuda_dispatch.h
 create mode 100644 infini_train/src/core/cuda/cuda_dtype_bridge.h

diff --git a/infini_train/include/common/common.h b/infini_train/include/common/common.h
index b6a02543..80cba728 100644
--- a/infini_train/include/common/common.h
+++ b/infini_train/include/common/common.h
@@ -7,11 +7,21 @@
 
 #include "infini_train/include/datatype.h"
 
+/**
+ * General Utility Macros
+ */
+#define EXPAND(X) X
+// This macro lets you pass an arbitrary expression that may contain internal
+// commas to another macro without having the commas causing the expression
+// to be interpreted as being multiple arguments
+// Basically an alternative for __VA_OPTS__ before C++20
+// ref: https://github.com/pytorch/pytorch/blob/main/aten/src/ATen/Dispatch_v2.h
+#define WRAP(...) __VA_ARGS__
+#define CAT(a, b) CAT_(a, b)
+#define CAT_(a, b) a##b
+
 #define CEIL_DIV(x, y) (((x) + (y)-1) / (y))
 #define LOG_LOC(LEVEL, MSG) LOG(LEVEL) << MSG << " at " << __FILE__ << ":" << __LINE__
-#define LOG_UNSUPPORTED_DTYPE(DTYPE, CONTEXT_IDENTIFIER)                                                               \
-    LOG_LOC(FATAL, WRAP(CONTEXT_IDENTIFIER << ": Unsupported data type: "                                              \
-                                                  + kDataTypeToDesc.at(static_cast<infini_train::DataType>(dtype))))
 
 inline std::vector<int64_t> ComputeStrides(const std::vector<int64_t> &dims) {
     std::vector<int64_t> strides(dims.size(), 1);
diff --git a/infini_train/include/common/cpu/common_cpu.h b/infini_train/include/common/cpu/common_cpu.h
index d4c73e84..b8a01538 100644
--- a/infini_train/include/common/cpu/common_cpu.h
+++ b/infini_train/include/common/cpu/common_cpu.h
@@ -3,20 +3,41 @@
 #include <type_traits>
 #include <utility>
 
+#include "infini_train/include/datatype.h"
+
 namespace infini_train::common::cpu {
+
+namespace detail {
+
+// FP16/BF16 don't support implicit conversion, so we route through float.
+template <typename DST, typename SRC> DST CastImpl(SRC &&x) {
+    using SrcBase = std::remove_cvref_t<SRC>;
+    if constexpr (std::is_same_v<DST, SrcBase>) {
+        return x;
+    } else if constexpr (std::is_same_v<DST, FP16> || std::is_same_v<DST, BF16>) {
+        // Destination is a framework 16-bit type: convert via float
+        return DST(static_cast<float>(std::forward<SRC>(x)));
+    } else if constexpr (std::is_same_v<SrcBase, FP16> || std::is_same_v<SrcBase, BF16>) {
+        // Source is a framework 16-bit type: widen to float first
+        return static_cast<DST>(static_cast<float>(x));
+    } else {
+        return static_cast<DST>(std::forward<SRC>(x));
+    }
+}
+
+} // namespace detail
+
 /**
- * Converts a value between arbitrary types. This offers perfect
- * forwarding which preserves value categories (lvalues/rvalues)
+ * Converts a value between arbitrary types, including framework FP16/BF16.
  *
- * @tparam DST Destination type (deduced)
+ * @tparam DST Destination type
  * @tparam SRC Source type (deduced)
- * @param x Input value (preserves const/volatile and value category)
+ * @param x Input value
  * @return Value converted to DST type
  */
 template <typename DST, typename SRC> DST Cast(SRC &&x) {
     static_assert(!std::is_reference_v<DST>, "Cast cannot return reference types");
-
-    // TODO(lzm): add cpu-version fp16 and bf16
-    return (DST)(std::forward<SRC>(x));
+    return detail::CastImpl<DST>(std::forward<SRC>(x));
 }
+
 } // namespace infini_train::common::cpu
diff --git a/infini_train/include/core/device_guard.h b/infini_train/include/core/device_guard.h
index 36945ea1..098a2b0b 100644
--- a/infini_train/include/core/device_guard.h
+++ b/infini_train/include/core/device_guard.h
@@ -67,6 +67,7 @@ class DeviceGuardImpl {
     // Device management
     // ----------------------------------------------------------------------
 
+    // FIXME(dcj): impl should only bind with device type
     virtual Device GetDevice() const = 0;
 
     virtual void SetDevice(Device device) const;
diff --git a/infini_train/include/core/dtype_bridge.h b/infini_train/include/core/dtype_bridge.h
new file mode 100644
index 00000000..d9575496
--- /dev/null
+++ b/infini_train/include/core/dtype_bridge.h
@@ -0,0 +1,122 @@
+#pragma once
+
+#include <cstdint>
+#include <cstring>
+#include <type_traits>
+
+#include "infini_train/include/datatype.h"
+#include "infini_train/include/device.h"
+
+namespace infini_train::core {
+
+/**
+ * Dtype bridge
+ *
+ * Purpose:
+ * - Define the backend-agnostic mapping protocol from framework scalar types
+ *   (e.g. infini_train::FP16/BF16) to backend-native scalar types
+ *   (e.g. __half / __nv_bfloat16 / vendor fp16/bf16 types).
+ *
+ * Design notes:
+ * - This header MUST remain backend-agnostic.
+ * - Framework public code should only depend on infini_train::FP16/BF16.
+ * - Backend code provides specializations of NativeScalar<Dev, Scalar>.
+ * - ScalarConvert provides optional value-level conversion helpers.
+ */
+
+// -----------------------------------------------------------------------------
+// NativeScalar: framework scalar -> backend native scalar mapping
+// -----------------------------------------------------------------------------
+// Primary template intentionally undefined.
+// Each backend specializes the scalar types it supports.
+template <Device::DeviceType Dev, typename Scalar> struct NativeScalar;
+
+template <Device::DeviceType Dev, typename Scalar> using NativeScalar_t = typename NativeScalar<Dev, Scalar>::type;
+
+// Optional convenience alias for CUDA call sites.
+// Keep only one copy here; backend files should NOT redefine it.
+template <typename Scalar> using NativeScalarCUDA_t = NativeScalar_t<Device::DeviceType::kCUDA, Scalar>;
+
+// -----------------------------------------------------------------------------
+// Bitcast utilities
+// -----------------------------------------------------------------------------
+template <typename To, typename From> inline To Bitcast(const From &from) noexcept {
+    static_assert(sizeof(To) == sizeof(From), "Bitcast requires same size");
+    static_assert(std::is_trivially_copyable_v<To>, "Bitcast To must be trivially copyable");
+    static_assert(std::is_trivially_copyable_v<From>, "Bitcast From must be trivially copyable");
+
+    To to{};
+    std::memcpy(&to, &from, sizeof(To));
+    return to;
+}
+
+// -----------------------------------------------------------------------------
+// HasNativeScalar: detect whether a NativeScalar specialization exists
+// -----------------------------------------------------------------------------
+template <Device::DeviceType Dev, typename Scalar, typename = void> struct HasNativeScalar : std::false_type {};
+
+template <Device::DeviceType Dev, typename Scalar>
+struct HasNativeScalar<Dev, Scalar, std::void_t<typename NativeScalar<Dev, Scalar>::type>> : std::true_type {};
+
+template <Device::DeviceType Dev, typename Scalar>
+inline constexpr bool HasNativeScalar_v = HasNativeScalar<Dev, Scalar>::value;
+
+// -----------------------------------------------------------------------------
+// ScalarConvert: framework scalar <-> backend native scalar conversion glue
+// -----------------------------------------------------------------------------
+// Primary template intentionally undefined by default.
+// Backends may specialize this if simple bitcast is insufficient.
+template <Device::DeviceType Dev, typename Scalar, typename Enable = void> struct ScalarConvert;
+
+// Default FP16 conversion: preserve raw 16-bit bit pattern.
+template <Device::DeviceType Dev> struct ScalarConvert<Dev, infini_train::FP16, void> {
+    static_assert(HasNativeScalar_v<Dev, infini_train::FP16>,
+                  "Missing NativeScalar specialization for FP16 on this backend");
+
+    using Native = NativeScalar_t<Dev, infini_train::FP16>;
+
+    static inline Native ToNative(infini_train::FP16 v) noexcept {
+        static_assert(sizeof(Native) == sizeof(uint16_t), "Native FP16 must be 16-bit");
+        return Bitcast<Native>(v.x);
+    }
+
+    static inline infini_train::FP16 FromNative(Native v) noexcept {
+        infini_train::FP16 out{};
+        static_assert(sizeof(Native) == sizeof(uint16_t), "Native FP16 must be 16-bit");
+        out.x = Bitcast<uint16_t>(v);
+        return out;
+    }
+};
+
+// Default BF16 conversion: preserve raw 16-bit bit pattern.
+template <Device::DeviceType Dev> struct ScalarConvert<Dev, infini_train::BF16, void> {
+    static_assert(HasNativeScalar_v<Dev, infini_train::BF16>,
+                  "Missing NativeScalar specialization for BF16 on this backend");
+
+    using Native = NativeScalar_t<Dev, infini_train::BF16>;
+
+    static inline Native ToNative(infini_train::BF16 v) noexcept {
+        static_assert(sizeof(Native) == sizeof(uint16_t), "Native BF16 must be 16-bit");
+        return Bitcast<Native>(v.x);
+    }
+
+    static inline infini_train::BF16 FromNative(Native v) noexcept {
+        infini_train::BF16 out{};
+        static_assert(sizeof(Native) == sizeof(uint16_t), "Native BF16 must be 16-bit");
+        out.x = Bitcast<uint16_t>(v);
+        return out;
+    }
+};
+
+// -----------------------------------------------------------------------------
+// Convenience wrappers
+// -----------------------------------------------------------------------------
+template <Device::DeviceType Dev, typename Scalar> inline NativeScalar_t<Dev, Scalar> ToNative(Scalar v) noexcept {
+    return ScalarConvert<Dev, Scalar>::ToNative(v);
+}
+
+template <Device::DeviceType Dev, typename Scalar> inline Scalar FromNative(NativeScalar_t<Dev, Scalar> v) noexcept {
+    return ScalarConvert<Dev, Scalar>::FromNative(v);
+}
+
+} // namespace infini_train::core
diff --git a/infini_train/include/datatype.h b/infini_train/include/datatype.h
index 79f325db..bfef622e 100644
--- a/infini_train/include/datatype.h
+++ b/infini_train/include/datatype.h
@@ -1,14 +1,203 @@
 #pragma once
 
+#include <bit>
+#include <cmath>
 #include <cstdint>
+#include <limits>
 #include <string>
+#include <type_traits>
 #include <unordered_map>
-#ifdef USE_CUDA
-#include <cuda_bf16.h>
-#include <cuda_fp16.h>
-#endif
 
 namespace infini_train {
+
+// -----------------------------------------------------------------------------
+// Framework scalar types (16-bit storage + fallback scalar semantics)
+// -----------------------------------------------------------------------------
+// FP16/BF16 are framework-level 16-bit scalar/storage types.
+// They are used for:
+//   - framework type identity
+//   - dtype mapping
+//   - metadata / storage layout
+//   - CPU/reference/fallback conversion paths
+//
+// They are NOT intended to define backend-native arithmetic semantics.
+// Backend kernels should use backend-specific type maps, e.g.:
+//   - CUDA: __half / __nv_bfloat16
+//   - CPU : FP16 / BF16 / widened compute types (as needed)
+// -----------------------------------------------------------------------------
+
+namespace detail {
+
+// ---------------------------
+// BF16 helpers
+// ---------------------------
+inline constexpr uint16_t FloatToBf16Bits(float value) {
+    const uint32_t bits = std::bit_cast<uint32_t>(value);
+    const uint32_t lsb = (bits >> 16) & 1u;
+    const uint32_t rounding_bias = 0x7fffu + lsb;
+    return static_cast<uint16_t>((bits + rounding_bias) >> 16);
+}
+
+inline constexpr float Bf16BitsToFloat(uint16_t bits) {
+    const uint32_t u32 = static_cast<uint32_t>(bits) << 16;
+    return std::bit_cast<float>(u32);
+}
+
+// ---------------------------
+// FP16 helpers
+// Pure software IEEE-754 half <-> float conversion for framework fallback use.
+// ---------------------------
+inline constexpr uint16_t FloatToFp16Bits(float value) {
+    const uint32_t bits = std::bit_cast<uint32_t>(value);
+
+    const uint32_t sign = (bits >> 16) & 0x8000u;
+    uint32_t mantissa = bits & 0x007fffffu;
+    int32_t exp = static_cast<int32_t>((bits >> 23) & 0xffu);
+
+    // NaN / Inf
+    if (exp == 0xff) {
+        if (mantissa == 0) {
+            return static_cast<uint16_t>(sign | 0x7c00u); // inf
+        }
+        return static_cast<uint16_t>(sign | 0x7e00u); // quiet NaN
+    }
+
+    // Zero / subnormal in float32
+    if (exp == 0) {
+        return static_cast<uint16_t>(sign);
+    }
+
+    // Convert exponent bias: fp32 bias 127 -> fp16 bias 15
+    exp = exp - 127 + 15;
+
+    // Overflow -> inf
+    if (exp >= 0x1f) {
+        return static_cast<uint16_t>(sign | 0x7c00u);
+    }
+
+    // Underflow -> subnormal / zero
+    if (exp <= 0) {
+        if (exp < -10) {
+            return static_cast<uint16_t>(sign);
+        }
+
+        mantissa |= 0x00800000u;
+
+        const int shift = 14 - exp;
+        uint32_t half_mant = mantissa >> shift;
+
+        const uint32_t remainder = mantissa & ((1u << shift) - 1u);
+        const uint32_t halfway = 1u << (shift - 1);
+        if (remainder > halfway || (remainder == halfway && (half_mant & 1u))) {
+            ++half_mant;
+        }
+
+        return static_cast<uint16_t>(sign | half_mant);
+    }
+
+    // Normal fp16
+    uint32_t half_exp = static_cast<uint32_t>(exp) << 10;
+    uint32_t half_mant = mantissa >> 13;
+
+    const uint32_t round_bits = mantissa & 0x1fffu;
+    if (round_bits > 0x1000u || (round_bits == 0x1000u && (half_mant & 1u))) {
+        ++half_mant;
+        if (half_mant == 0x400u) {
+            half_mant = 0;
+            half_exp += 0x0400u;
+            if (half_exp >= 0x7c00u) {
+                return static_cast<uint16_t>(sign | 0x7c00u);
+            }
+        }
+    }
+
+    return static_cast<uint16_t>(sign | half_exp | half_mant);
+}
+
+inline constexpr float Fp16BitsToFloat(uint16_t bits) {
+    const uint32_t sign = (static_cast<uint32_t>(bits & 0x8000u)) << 16;
+    const uint32_t exp = (bits >> 10) & 0x1fu;
+    const uint32_t mant = bits & 0x03ffu;
+
+    uint32_t out = 0;
+
+    if (exp == 0) {
+        if (mant == 0) {
+            out = sign;
+        } else {
+            uint32_t mantissa = mant;
+            int32_t e = -14;
+            while ((mantissa & 0x0400u) == 0) {
+                mantissa <<= 1;
+                --e;
+            }
+            mantissa &= 0x03ffu;
+            const uint32_t exp32 = static_cast<uint32_t>(e + 127) << 23;
+            const uint32_t mant32 = mantissa << 13;
+            out = sign | exp32 | mant32;
+        }
+    } else if (exp == 0x1f) {
+        out = sign | 0x7f800000u | (mant << 13);
+    } else {
+        const uint32_t exp32 = static_cast<uint32_t>(static_cast<int32_t>(exp) - 15 + 127) << 23;
+        const uint32_t mant32 = mant << 13;
+        out = sign | exp32 | mant32;
+    }
+
+    return std::bit_cast<float>(out);
+}
+
+} // namespace detail
+
+struct alignas(2) FP16 {
+    uint16_t x{0};
+
+    struct from_bits_t {};
+    static constexpr from_bits_t from_bits() { return {}; }
+
+    constexpr FP16() = default;
+    constexpr FP16(uint16_t bits, from_bits_t) : x(bits) {}
+
+    explicit constexpr FP16(float value) : x(detail::FloatToFp16Bits(value)) {}
+    explicit constexpr FP16(double value) : FP16(static_cast<float>(value)) {}
+    explicit constexpr FP16(int value) : FP16(static_cast<float>(value)) {}
+    explicit constexpr FP16(int64_t value) : FP16(static_cast<float>(value)) {}
+
+    explicit constexpr operator float() const { return detail::Fp16BitsToFloat(x); }
+    explicit constexpr operator double() const { return static_cast<double>(static_cast<float>(*this)); }
+
+    FP16 &operator++() {
+        *this = FP16(static_cast<float>(*this) + 1.0f);
+        return *this;
+    }
+};
+
+struct alignas(2) BF16 {
+    uint16_t x{0};
+
+    struct from_bits_t {};
+    static constexpr from_bits_t from_bits() { return {}; }
+
+    constexpr BF16() = default;
+    constexpr BF16(uint16_t bits, from_bits_t) : x(bits) {}
+
+    explicit constexpr BF16(float value) : x(detail::FloatToBf16Bits(value)) {}
+    explicit constexpr BF16(double value) : BF16(static_cast<float>(value)) {}
+    explicit constexpr BF16(int value) : BF16(static_cast<float>(value)) {}
+    explicit constexpr BF16(int64_t value) : BF16(static_cast<float>(value)) {}
+
+    explicit constexpr operator float() const { return detail::Bf16BitsToFloat(x); }
+    explicit constexpr operator double() const { return static_cast<double>(static_cast<float>(*this)); }
+
+    BF16 &operator++() {
+        *this = BF16(static_cast<float>(*this) + 1.0f);
+        return *this;
+    }
+};
+
+// -----------------------------------------------------------------------------
+// DataType enum and metadata tables
+// -----------------------------------------------------------------------------
 enum class DataType : int8_t {
     kUINT8,
     kINT8,
@@ -37,103 +226,91 @@ inline const std::unordered_map<DataType, std::string> kDataTypeToDesc = {
     {DataType::kFLOAT16, "fp16"},  {DataType::kFLOAT32, "fp32"},  {DataType::kFLOAT64, "fp64"},
 };
 
-/**
- * Compile-time type mapping from DataType enum to concrete C++ types.
- *
- * - Primary template: Declared but undefined to enforce specialization
- * - Specializations: Explicit mappings (DataType::kFLOAT32 → float, etc)
- * - TypeMap_t alias: Direct access to mapped type (TypeMap_t<DataType::kINT32> → int32_t)
- *
- * Enables type-safe generic code where operations dispatch based on DataType tokens,
- * with zero runtime overhead. Extend by adding new specializations.
- */
-template <DataType DType> struct TypeMap;
+// -----------------------------------------------------------------------------
+// Compile-time type mapping infrastructure
+// -----------------------------------------------------------------------------
+
+// Default framework scalar/storage mapping.
+// This is the shared baseline mapping used by:
+//   - framework TypeMap
+//   - CPU backend type map
+//   - other backends that only need to override a few dtypes
+template <DataType DType> struct DefaultScalarTypeMap;
+
+// Forward framework mapping alias
+template <DataType DType> using DefaultScalarTypeMap_t = typename DefaultScalarTypeMap<DType>::type;
+
+// Framework compile-time type mapping: DataType -> framework C++ type
+template <DataType DType> struct TypeMap : DefaultScalarTypeMap<DType> {};
+
 template <DataType DType> using TypeMap_t = typename TypeMap<DType>::type;
 
-/**
- * Compile-time type mapping from C++ types to DataType enum.
- *
- * Example usage: DataTypeMap<int32_t>::value  // Returns DataType::kINT32
- * DataTypeMap_v for convenient access to the mapped value (e.g., DataTypeMap_v<int32_t>).
- */
+// -----------------------------------------------------------------------------
+// Compile-time reverse mapping: framework C++ type -> DataType
+// -----------------------------------------------------------------------------
 template <typename T> struct DataTypeMap;
+
 template <typename T> inline constexpr DataType DataTypeMap_v = DataTypeMap<T>::value;
 
-// Macro to define TypeMap specializations and reverse mappings
-#define DEFINE_DATA_TYPE_MAPPING(ENUM_VALUE, CPP_TYPE)                                                                 \
-    template <> struct TypeMap<DataType::ENUM_VALUE> {                                                                 \
+// Macro to define DefaultScalarTypeMap specialization + framework reverse mapping
+#define DEFINE_DEFAULT_DATA_TYPE_MAPPING(ENUM_VALUE, CPP_TYPE)                                                         \
+    template <> struct DefaultScalarTypeMap<DataType::ENUM_VALUE> {                                                    \
         using type = CPP_TYPE;                                                                                         \
     };                                                                                                                 \
     template <> struct DataTypeMap<CPP_TYPE> {                                                                         \
         static constexpr DataType value = DataType::ENUM_VALUE;                                                        \
     };
 
-DEFINE_DATA_TYPE_MAPPING(kUINT8, uint8_t)
-DEFINE_DATA_TYPE_MAPPING(kINT8, int8_t)
-DEFINE_DATA_TYPE_MAPPING(kUINT16, uint16_t)
-DEFINE_DATA_TYPE_MAPPING(kINT16, int16_t)
-DEFINE_DATA_TYPE_MAPPING(kUINT32, uint32_t)
-DEFINE_DATA_TYPE_MAPPING(kINT32, int32_t)
-DEFINE_DATA_TYPE_MAPPING(kUINT64, uint64_t)
-DEFINE_DATA_TYPE_MAPPING(kINT64, int64_t)
-DEFINE_DATA_TYPE_MAPPING(kFLOAT32, float)
-DEFINE_DATA_TYPE_MAPPING(kFLOAT64, double)
-
-#ifdef USE_CUDA
-DEFINE_DATA_TYPE_MAPPING(kBFLOAT16, nv_bfloat16)
-DEFINE_DATA_TYPE_MAPPING(kFLOAT16, half)
-#else
-// Non-CUDA fallbacks
-template <> struct TypeMap<DataType::kBFLOAT16> {
-    using type = uint16_t;
-};
-template <> struct TypeMap<DataType::kFLOAT16> {
-    using type = uint16_t;
-};
+DEFINE_DEFAULT_DATA_TYPE_MAPPING(kUINT8, uint8_t)
+DEFINE_DEFAULT_DATA_TYPE_MAPPING(kINT8, int8_t)
+DEFINE_DEFAULT_DATA_TYPE_MAPPING(kUINT16, uint16_t)
+DEFINE_DEFAULT_DATA_TYPE_MAPPING(kINT16, int16_t)
+DEFINE_DEFAULT_DATA_TYPE_MAPPING(kUINT32, uint32_t)
+DEFINE_DEFAULT_DATA_TYPE_MAPPING(kINT32, int32_t)
+DEFINE_DEFAULT_DATA_TYPE_MAPPING(kUINT64, uint64_t)
+DEFINE_DEFAULT_DATA_TYPE_MAPPING(kINT64, int64_t)
+DEFINE_DEFAULT_DATA_TYPE_MAPPING(kBFLOAT16, BF16)
+DEFINE_DEFAULT_DATA_TYPE_MAPPING(kFLOAT16, FP16)
+DEFINE_DEFAULT_DATA_TYPE_MAPPING(kFLOAT32, float)
+DEFINE_DEFAULT_DATA_TYPE_MAPPING(kFLOAT64, double)
 
-// TODO(lzm): currently for non-CUDA/CPU, there's an ambiguity of uint16_t mapping to both kUINT16 and
-// kFLOAT16/kBFLOAT16. When CPU custom bfloat16/float16 types are defined, we should replace uint16_t with those types.
-#endif
-#undef DEFINE_DATA_TYPE_MAPPING
+#undef DEFINE_DEFAULT_DATA_TYPE_MAPPING
 
-// Extends std::is_floating_point to support CUDA floating-point types.
+// -----------------------------------------------------------------------------
+// Type traits extensions (framework fallback scalar semantics)
+// -----------------------------------------------------------------------------
 template <typename T> struct is_floating_point_ext : std::is_floating_point<T> {};
 
-// Extends std::is_arithmetic to support CUDA floating-point types.
 template <typename T> struct is_arithmetic_ext : std::is_arithmetic<T> {};
 
-// Specializations for CUDA types
-#ifdef USE_CUDA
-template <> struct is_floating_point_ext<__nv_bfloat16> : std::true_type {};
-template <> struct is_arithmetic_ext<__nv_bfloat16> : std::true_type {};
-template <> struct is_floating_point_ext<__half> : std::true_type {};
-template <> struct is_arithmetic_ext<__half> : std::true_type {};
-#endif
+template <> struct is_floating_point_ext<BF16> : std::true_type {};
+template <> struct is_arithmetic_ext<BF16> : std::true_type {};
+
+template <> struct is_floating_point_ext<FP16> : std::true_type {};
+template <> struct is_arithmetic_ext<FP16> : std::true_type {};
+
+// -----------------------------------------------------------------------------
+// Promotion helpers (framework-level WidestType)
+// -----------------------------------------------------------------------------
+namespace detail {
 
-namespace {
 template <typename T1, typename T2> struct LargerType {
     static constexpr size_t size1 = sizeof(T1);
     static constexpr size_t size2 = sizeof(T2);
     using type = std::conditional_t<(size1 >= size2), T1, T2>;
 };
 
-// Specializations of LargerType for the specific 16-bit FP combinations
-#ifdef USE_CUDA
-template <> struct LargerType<__nv_bfloat16, __half> {
+template <> struct LargerType<BF16, FP16> {
     using type = float;
 };
 
-template <> struct LargerType<__half, __nv_bfloat16> {
+template <> struct LargerType<FP16, BF16> {
     using type = float;
 };
-#endif
 
 /**
- * @brief Finds the first type in a parameter pack that satisfies the given predicate. If no type matches,
- * returns the last type in the pack (base case).
- *
- * @tparam Predicate Template template parameter that takes one type and provides a static `value` member
- * @tparam Ts Parameter pack of types to check
+ * @brief Finds the first type in a parameter pack that satisfies the given predicate.
+ * If no type matches, returns the last type in the pack (base case).
  */
 template <template <typename> class Predicate, typename... Ts> struct FirstMatchingType;
 
@@ -147,12 +324,8 @@ struct FirstMatchingType<Predicate, T, Ts...> {
 };
 
 /**
- * @brief Recursively finds the widest type among those that satisfy a predicate. Types not satisfying the predicate are
- * ignored and don't affect the current maximum.
- *
- * @tparam Predicate Template template parameter that defines the type filter
- * @tparam CurrentMax The current widest type found so far
- * @tparam Ts Remaining types to process
+ * @brief Recursively finds the widest type among those that satisfy a predicate.
+ * Types not satisfying the predicate are ignored and don't affect the current maximum.
  */
 template <template <typename> class Predicate, typename CurrentMax, typename... Ts> struct WidestTypeImpl;
 
@@ -170,31 +343,34 @@ template <template <typename> class Predicate, typename... Ts> struct MaxTypeByS
     using first = typename FirstMatchingType<Predicate, Ts...>::type;
     using type = typename WidestTypeImpl<Predicate, first, Ts...>::type;
 };
-} // namespace
+
+} // namespace detail
 
 /**
- * @brief Finds the widest/largest type according to the dtype promotion logic in PyTorch among a pack of arithmetic
+ * @brief Finds the widest/largest type according to a PyTorch-like dtype promotion rule among a pack of arithmetic
  * types.
  *
- * Selects the type with the widest size from the provided type list. Includes support for CUDA floating-point types
- * (__half, __nv_bfloat16) when compiled with CUDA.
  * - If floating-point types are present, selects the largest floating-point type;
  * - Otherwise selects the largest integral type.
- * - If multiple integral types have the same size, the precedence follows the list order (i.e., the first type that has
- * the widest size will be selected).
+ * - If multiple integral types have the same size, precedence follows the list order.
  *
- * @tparam Ts Pack of types to evaluate. Must all be arithmetic or CUDA floating-point types.
- * @throws static_assert If no types are provided or if any type is non-arithmetic.
- * @note For mixed 16-bit floating-point types (__half and __nv_bfloat16), promotes to float (32-bit).
+ * Note:
+ * - FP16/BF16 are treated as floating-point.
+ * - Mixed FP16 and BF16 promotes to float (32-bit).
  */
 template <typename... Ts> struct WidestType {
     static_assert(sizeof...(Ts) > 0, "At least one type is required");
-    static_assert((is_arithmetic_ext<Ts>::value && ...), "All types must be arithmetic or CUDA floating-point types");
+    static_assert((is_arithmetic_ext<Ts>::value && ...),
+                  "All types must be arithmetic or framework floating-point types (FP16/BF16)");
+
     static constexpr bool has_float = (is_floating_point_ext<Ts>::value || ...);
-    using type = typename std::conditional_t<has_float, MaxTypeBySizeWithPredicate<is_floating_point_ext, Ts...>,
-                                             MaxTypeBySizeWithPredicate<std::is_integral, Ts...>>::type;
+
+    using type =
+        typename std::conditional_t<has_float, detail::MaxTypeBySizeWithPredicate<is_floating_point_ext, Ts...>,
+                                    detail::MaxTypeBySizeWithPredicate<std::is_integral, Ts...>>::type;
 };
 
-// Convenience alias for WidestType::type
+// Convenience alias
 template <typename... Ts> using WidestType_t = typename WidestType<Ts...>::type;
+
 } // namespace infini_train
diff --git a/infini_train/include/dispatcher.h b/infini_train/include/dispatcher.h
index fc95d64e..1ba97f25 100644
--- a/infini_train/include/dispatcher.h
+++ b/infini_train/include/dispatcher.h
@@ -1,6 +1,5 @@
 #pragma once
 
-#include <format>
 #include <map>
 #include <type_traits>
 #include <utility>
@@ -8,370 +7,14 @@
 #include "glog/logging.h"
 
 #include "infini_train/include/autocast.h"
-#include "infini_train/include/common/common.h"
 #include "infini_train/include/device.h"
+#include "infini_train/include/dtype_dispatch.h"
 #ifdef PROFILE_MODE
 #include "infini_train/include/profiler.h"
 #endif
 
-/**
- * General Utility Macros
- */
-#define EXPAND(X) X
-// This macro lets you pass an arbitrary expression that may contain internal
-// commas to another macro without having the commas causing the expression
-// to be interpreted as being multiple arguments
-// Basically an alternative for __VA_OPTS__ before C++20
-// ref: https://github.com/pytorch/pytorch/blob/main/aten/src/ATen/Dispatch_v2.h
-#define WRAP(...) __VA_ARGS__
-#define CAT(a, b) CAT_(a, b)
-#define CAT_(a, b) a##b
-
-/**
- * Data Type Macros
- * Defines common categories of data types for dispatching
- */
-#define INFINI_FLOATING_TYPES DataType::kFLOAT32, DataType::kFLOAT64
-#define INFINI_REDUCED_FLOATING_TYPES DataType::kFLOAT16, DataType::kBFLOAT16
-#define INFINI_ALL_FLOATING_TYPES EXPAND(INFINI_FLOATING_TYPES), EXPAND(INFINI_REDUCED_FLOATING_TYPES)
-#define INFINI_SIGNED_INTEGRAL_TYPES DataType::kINT8, DataType::kINT16, DataType::kINT32, DataType::kINT64
-#define INFINI_UNSIGNED_INTEGRAL_TYPES DataType::kUINT8, DataType::kUINT16, DataType::kUINT32, DataType::kUINT64
-#define INFINI_ALL_INTEGRAL_TYPES EXPAND(INFINI_SIGNED_INTEGRAL_TYPES), EXPAND(INFINI_UNSIGNED_INTEGRAL_TYPES)
-#define INFINI_ALL_TYPES EXPAND(INFINI_ALL_FLOATING_TYPES), EXPAND(INFINI_ALL_INTEGRAL_TYPES)
-#define INFINI_8_BIT_TYPES DataType::kINT8, DataType::kUINT8
-#define INFINI_16_BIT_TYPES DataType::kINT16, DataType::kUINT16, DataType::kFLOAT16, DataType::kBFLOAT16
-#define INFINI_32_BIT_TYPES DataType::kINT32, DataType::kUINT32, DataType::kFLOAT32
-#define INFINI_64_BIT_TYPES DataType::kINT64, DataType::kUINT64, DataType::kFLOAT64
-
-/**
- * Dispatch Macros
- */
-#define DISPATCH_WITH_DEFAULT(DTYPE_EXPR, BODY, DEFAULT_BODY, ...)                                                     \
-    switch (DTYPE_EXPR) {                                                                                              \
-        CAT(DISPATCH_CASE_, PP_NARG(__VA_ARGS__))(__VA_ARGS__, WRAP(BODY)) default : { WRAP(DEFAULT_BODY); }           \
-    }
-
-// dispatch with switch and arbitrary number of cases
-#define DISPATCH(DTYPE_EXPR, BODY, ...)                                                                                \
-    DISPATCH_WITH_DEFAULT(                                                                                             \
-        DTYPE_EXPR, WRAP(BODY),                                                                                        \
-        EXPAND(LOG(FATAL) << "Unsupported data type at " << __FILE__ << ":" << __LINE__; return nullptr;),             \
-        __VA_ARGS__)
-
-// dispatch a single case
-#define DISPATCH_CASE(BODY, ...) CAT(DISPATCH_CASE_, PP_NARG(__VA_ARGS__))(__VA_ARGS__, WRAP(BODY))
-
-// Helper macros to count the number of arguments
-#define PP_NARG(...) PP_NARG_(__VA_ARGS__, PP_RSEQ_N())
-#define PP_NARG_(...) PP_ARG_N(__VA_ARGS__)
-#define PP_ARG_N(_1, _2, _3, _4, _5, _6, _7, _8, _9, _10, _11, _12, _13, _14, _15, _16, _17, _18, _19, _20, _21, _22,  \
-                 _23, _24, _25, _26, _27, _28, _29, _30, _31, _32, _33, _34, _35, _36, _37, _38, _39, _40, _41, _42,   \
-                 _43, _44, _45, _46, _47, _48, _49, _50, _51, _52, _53, _54, _55, _56, _57, _58, _59, _60, _61, _62,   \
-                 _63, N, ...)                                                                                          \
-    N
-#define PP_RSEQ_N()                                                                                                    \
-    63, 62, 61, 60, 59, 58, 57, 56, 55, 54, 53, 52, 51, 50, 49, 48, 47, 46, 45, 44, 43, 42, 41, 40, 39, 38, 37, 36,    \
-        35, 34, 33, 32, 31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8,  \
-        7, 6, 5, 4, 3, 2, 1, 0
-
-// Macros to generate case labels
-// Should have up to number of DataType cases (currently 12)
-#define DISPATCH_CASE_1(T1, BODY)                                                                                      \
-    case T1: {                                                                                                         \
-        BODY break;                                                                                                    \
-    }
-
-#define DISPATCH_CASE_2(T1, T2, BODY)                                                                                  \
-    case T1:                                                                                                           \
-    case T2: {                                                                                                         \
-        BODY break;                                                                                                    \
-    }
-
-#define DISPATCH_CASE_3(T1, T2, T3, BODY)                                                                              \
-    case T1:                                                                                                           \
-    case T2:                                                                                                           \
-    case T3: {                                                                                                         \
-        BODY break;                                                                                                    \
-    }
-
-#define DISPATCH_CASE_4(T1, T2, T3, T4, BODY)                                                                          \
-    case T1:                                                                                                           \
-    case T2:                                                                                                           \
-    case T3:                                                                                                           \
-    case T4: {                                                                                                         \
-        BODY break;                                                                                                    \
-    }
-
-#define DISPATCH_CASE_5(T1, T2, T3, T4, T5, BODY)                                                                      \
-    case T1:                                                                                                           \
-    case T2:                                                                                                           \
-    case T3:                                                                                                           \
-    case T4:                                                                                                           \
-    case T5: {                                                                                                         \
-        BODY break;                                                                                                    \
-    }
-
-#define DISPATCH_CASE_6(T1, T2, T3, T4, T5, T6, BODY)                                                                  \
-    case T1:                                                                                                           \
-    case T2:                                                                                                           \
-    case T3:                                                                                                           \
-    case T4:                                                                                                           \
-    case T5:                                                                                                           \
-    case T6: {                                                                                                         \
-        BODY break;                                                                                                    \
-    }
-
-#define DISPATCH_CASE_7(T1, T2, T3, T4, T5, T6, T7, BODY)                                                              \
-    case T1:                                                                                                           \
-    case T2:                                                                                                           \
-    case T3:                                                                                                           \
-    case T4:                                                                                                           \
-    case T5:                                                                                                           \
-    case T6:                                                                                                           \
-    case T7: {                                                                                                         \
-        BODY break;                                                                                                    \
-    }
-
-#define DISPATCH_CASE_8(T1, T2, T3, T4, T5, T6, T7, T8, BODY)                                                          \
-    case T1:                                                                                                           \
-    case T2:                                                                                                           \
-    case T3:                                                                                                           \
-    case T4:                                                                                                           \
-    case T5:                                                                                                           \
-    case T6:                                                                                                           \
-    case T7:                                                                                                           \
-    case T8: {                                                                                                         \
-        BODY break;                                                                                                    \
-    }
-
-#define DISPATCH_CASE_9(T1, T2, T3, T4, T5, T6, T7, T8, T9, BODY)                                                      \
-    case T1:                                                                                                           \
-    case T2:                                                                                                           \
-    case T3:                                                                                                           \
-    case T4:                                                                                                           \
-    case T5:                                                                                                           \
-    case T6:                                                                                                           \
-    case T7:                                                                                                           \
-    case T8:                                                                                                           \
-    case T9: {                                                                                                         \
-        BODY break;                                                                                                    \
-    }
-
-#define DISPATCH_CASE_10(T1, T2, T3, T4, T5, T6, T7, T8, T9, T10, BODY)                                                \
-    case T1:                                                                                                           \
-    case T2:                                                                                                           \
-    case T3:                                                                                                           \
-    case T4:                                                                                                           \
-    case T5:                                                                                                           \
-    case T6:                                                                                                           \
-    case T7:                                                                                                           \
-    case T8:                                                                                                           \
-    case T9:                                                                                                           \
-    case T10: {                                                                                                        \
-        BODY break;                                                                                                    \
-    }
-
-#define DISPATCH_CASE_11(T1, T2, T3, T4, T5, T6, T7, T8, T9, T10, T11, BODY)                                           \
-    case T1:                                                                                                           \
-    case T2:                                                                                                           \
-    case T3:                                                                                                           \
-    case T4:                                                                                                           \
-    case T5:                                                                                                           \
-    case T6:                                                                                                           \
-    case T7:                                                                                                           \
-    case T8:                                                                                                           \
-    case T9:                                                                                                           \
-    case T10:                                                                                                          \
-    case T11: {                                                                                                        \
-        BODY break;                                                                                                    \
-    }
-
-#define DISPATCH_CASE_12(T1, T2, T3, T4, T5, T6, T7, T8, T9, T10, T11, T12, BODY)                                      \
-    case T1:                                                                                                           \
-    case T2:                                                                                                           \
-    case T3:                                                                                                           \
-    case T4:                                                                                                           \
-    case T5:                                                                                                           \
-    case T6:                                                                                                           \
-    case T7:                                                                                                           \
-    case T8:                                                                                                           \
-    case T9:                                                                                                           \
-    case T10:                                                                                                          \
-    case T11:                                                                                                          \
-    case T12: {                                                                                                        \
-        BODY break;                                                                                                    \
-    }
-
 namespace infini_train {
 
-template <DataType... DTypes> struct DataTypeList {};
-
-template <DataType Dtype, typename List> struct IsDataTypeInList;
-
-template <DataType Dtype, DataType... DTypes>
-struct IsDataTypeInList<Dtype, DataTypeList<DTypes...>> : std::disjunction<std::bool_constant<Dtype == DTypes>...> {};
-
-template <DataType Dtype, typename List>
-inline constexpr bool IsDataTypeInList_v = IsDataTypeInList<Dtype, List>::value;
-
-// function to check if a type is in a list of types
-template <typename T, typename... Ts> inline constexpr bool IsTypeInList = (std::is_same_v<T, Ts> || ...);
-
-/**
- * @brief Dispatches a functor call based on runtime DataType, restricted to specified allowed types.
- *
- * This function:
- * 1. Maps runtime DataType to compile-time C++ types using TypeMap_t
- * 2. Only processes types specified in AllowedDTypes template parameter
- * 3. Calls functor with resolved type and forwarded arguments
- *
- * @tparam AllowedDTypes List of DataType enums to support
- * @param dtype Runtime data type to dispatch
- * @param func Templated functor to call (must accept operator()<T>)
- * @param context_identifier Optional string for context in error messages
- * @param args Arguments to be forwarded to the functor
- *
- * Behavior:
- * - For allowed types: Instantiates functor with mapped C++ type
- * - For disallowed and unknown types: Logs error and returns
- *
- * @see TypeMap for DataType to C++ type mapping
- */
-template <DataType... AllowedDTypes, typename Functor, typename... Args>
-auto DispatchFunc(DataType dtype, Functor &&func, std::string_view context_identifier = "", Args &&...args) {
-    switch (dtype) {
-
-#define CASE_FOR_TYPE(DType)                                                                                           \
-    case DType: {                                                                                                      \
-        if constexpr (IsTypeInList<TypeMap_t<DType>, TypeMap_t<AllowedDTypes>...>) {                                   \
-            return std::forward<Functor>(func).template operator()<TypeMap_t<DType>>(std::forward<Args>(args)...);     \
-        } else {                                                                                                       \
-            break;                                                                                                     \
-        }                                                                                                              \
-    }
-
-        CASE_FOR_TYPE(DataType::kUINT8)
-        CASE_FOR_TYPE(DataType::kINT8)
-        CASE_FOR_TYPE(DataType::kUINT16)
-        CASE_FOR_TYPE(DataType::kINT16)
-        CASE_FOR_TYPE(DataType::kUINT32)
-        CASE_FOR_TYPE(DataType::kINT32)
-        CASE_FOR_TYPE(DataType::kUINT64)
-        CASE_FOR_TYPE(DataType::kINT64)
-        CASE_FOR_TYPE(DataType::kFLOAT32)
-        CASE_FOR_TYPE(DataType::kFLOAT64)
-        CASE_FOR_TYPE(DataType::kBFLOAT16)
-        CASE_FOR_TYPE(DataType::kFLOAT16)
-#undef CASE_FOR_TYPE
-    }
-    LOG_UNSUPPORTED_DTYPE(dtype, context_identifier);
-    // prevent the compiler warning about control reaching the end of non-void function
-    std::abort();
-}
-
-namespace {
-/**
- * @brief Responsible for resolving a list of data types and invoking a functor with the corresponding C++ types.
- *
- * @tparam index            Current index in the `dtypes` vector.
- * @tparam AllowedListTuple Tuple of allowed `DataType` sets per dispatch level.
- * @tparam ResolvedTypes    Accumulated resolved C++ types.
- */
-template <size_t index, typename AllowedListTuple, typename... ResolvedTypes> struct DtypeDispatcher {
-
-    /**
-     * @brief Dispatches based on runtime data types and invokes the functor with resolved C++ types.
-     *
-     * Recursively matches each `DataType` in `dtypes` against the corresponding allowed list in
-     * `AllowedListTuple`. For each match, maps the `DataType` to a C++ type using `TypeMap_t`.
-     * Once all types are resolved, invokes the functor.
-     *
-     * @param dtypes              Vector of runtime data types to dispatch on.
-     * @param func                Functor to invoke with resolved template types.
-     * @param context_identifier  String used for logging or error context.
-     * @param args                Additional arguments forwarded to the functor.
-     * @return Result of invoking the functor with resolved types and forwarded arguments.
-     */
-    template <typename Functor, typename... Args>
-    static auto call(const std::vector<DataType> &dtypes, Functor &&func, std::string_view context_identifier,
-                     Args &&...args) {
-        constexpr size_t num_lists = std::tuple_size_v<AllowedListTuple>;
-
-        if constexpr (index == num_lists) {
-            // Base case: All types resolved, invoke the functor
-            return std::forward<Functor>(func).template operator()<ResolvedTypes...>(std::forward<Args>(args)...);
-        } else {
-            // Recursive case: Resolve the next type
-            using CurrentList = std::tuple_element_t<index, AllowedListTuple>;
-            DataType dtype = dtypes[index];
-
-            switch (dtype) {
-#define CASE_FOR_TYPE(DType)                                                                                           \
-    case DType:                                                                                                        \
-        if constexpr (IsDataTypeInList_v<DType, CurrentList>) {                                                        \
-            using T = TypeMap_t<DType>;                                                                                \
-            return DtypeDispatcher<index + 1, AllowedListTuple, ResolvedTypes..., T>::call(                            \
-                dtypes, std::forward<Functor>(func), context_identifier, std::forward<Args>(args)...);                 \
-        } else {                                                                                                       \
-            break;                                                                                                     \
-        }
-
-                CASE_FOR_TYPE(DataType::kUINT8)
-                CASE_FOR_TYPE(DataType::kINT8)
-                CASE_FOR_TYPE(DataType::kUINT16)
-                CASE_FOR_TYPE(DataType::kINT16)
-                CASE_FOR_TYPE(DataType::kUINT32)
-                CASE_FOR_TYPE(DataType::kINT32)
-                CASE_FOR_TYPE(DataType::kUINT64)
-                CASE_FOR_TYPE(DataType::kINT64)
-                CASE_FOR_TYPE(DataType::kFLOAT32)
-                CASE_FOR_TYPE(DataType::kFLOAT64)
-                CASE_FOR_TYPE(DataType::kBFLOAT16)
-                CASE_FOR_TYPE(DataType::kFLOAT16)
-#undef CASE_FOR_TYPE
-            }
-            LOG_UNSUPPORTED_DTYPE(dtype, context_identifier);
-            // prevent the compiler warning about control reaching the end of non-void function
-            std::abort();
-        }
-    }
-};
-} // namespace
-
-/**
- * @brief Dispatches a functor based on a list of runtime data types.
- *
- * Given a vector of `DataType` values and corresponding allowed type lists, this function resolves
- * each data type to its mapped C++ type using `TypeMap_t`, then invokes the provided functor with
- * those types as template parameters.
- *
- * @tparam AllowedTypeLists   Variadic list of allowed data type sets per dispatch level.
- * @tparam Functor            Callable object with a templated call operator.
- * @tparam Args               Additional arguments to forward to the functor.
- *
- * @param dtypes              Vector of runtime data types to dispatch on.
- * @param func                Functor to invoke after resolving types.
- * @param context_identifier  Optional context string for error reporting/logging.
- * @param args                Additional arguments to pass to the functor.
- * @return Result of invoking the functor with resolved template types and arguments.
- *
- * Example functor using a templated lambda: [=]<typename T1, typename T2>() { ... }
- */
-template <typename... AllowedTypeLists, typename Functor, typename... Args>
-auto DispatchFunc(const std::vector<DataType> &dtypes, Functor &&func, std::string_view context_identifier = "",
-                  Args &&...args) {
-    constexpr size_t num_lists = sizeof...(AllowedTypeLists);
-    if (dtypes.size() != num_lists) {
-        LOG(FATAL) << std::format("DispatchFunc expects {} dtypes, but only got {} in {}", num_lists, dtypes.size(),
-                                  context_identifier);
-        std::abort();
-    }
-
-    using AllowedListTuple = std::tuple<AllowedTypeLists...>;
-    return DtypeDispatcher<0, AllowedListTuple>::call(dtypes, std::forward<Functor>(func), context_identifier,
-                                                      std::forward<Args>(args)...);
-}
-
 class KernelFunction {
 public:
     template <typename FuncT> explicit KernelFunction(FuncT &&func) : func_ptr_(reinterpret_cast<void *>(func)) {}
@@ -388,14 +31,12 @@ class KernelFunction {
 
         if constexpr (std::is_void_v<RetT>) {
             fn(std::forward<ArgsT>(args)...);
-
 #ifdef PROFILE_MODE
             Profiler::Instance().EndRecord(ctx.name, ctx.device);
 #endif
             return;
         } else {
             RetT ret = fn(std::forward<ArgsT>(args)...);
-
 #ifdef PROFILE_MODE
             Profiler::Instance().EndRecord(ctx.name, ctx.device);
 #endif
@@ -440,6 +81,7 @@ class Dispatcher {
 private:
     std::map<KeyT, KernelFunction> key_to_kernel_map_;
 };
+
 } // namespace infini_train
 
 #define REGISTER_KERNEL(device, kernel_name, kernel_func)                                                              \
diff --git a/infini_train/include/dtype_dispatch.h b/infini_train/include/dtype_dispatch.h
new file mode 100644
index 00000000..4810f851
--- /dev/null
+++ b/infini_train/include/dtype_dispatch.h
@@ -0,0 +1,325 @@
+#pragma once
+
+#include <format>
+#include <tuple>
+#include <type_traits>
+#include <utility>
+#include <vector>
+
+#include "glog/logging.h"
+
+#include "infini_train/include/common/common.h"
+#include "infini_train/include/datatype.h"
+
+// ---------------------------------------------------------------------------
+// Dispatch macros for dtype switch statements
+// ---------------------------------------------------------------------------
+
+#define LOG_UNSUPPORTED_DTYPE(DTYPE, CONTEXT_IDENTIFIER)                                                               \
+    LOG_LOC(FATAL, std::string(CONTEXT_IDENTIFIER)                                                                     \
+                       + ": Unsupported data type: " + kDataTypeToDesc.at(static_cast<infini_train::DataType>(dtype)))
+
+// Helper macros to count the number of arguments
+#define PP_NARG(...) PP_NARG_(__VA_ARGS__, PP_RSEQ_N())
+#define PP_NARG_(...) PP_ARG_N(__VA_ARGS__)
+#define PP_ARG_N(_1, _2, _3, _4, _5, _6, _7, _8, _9, _10, _11, _12, _13, _14, _15, _16, _17, _18, _19, _20, _21, _22,  \
+                 _23, _24, _25, _26, _27, _28, _29, _30, _31, _32, _33, _34, _35, _36, _37, _38, _39, _40, _41, _42,   \
+                 _43, _44, _45, _46, _47, _48, _49, _50, _51, _52, _53, _54, _55, _56, _57, _58, _59, _60, _61, _62,   \
+                 _63, N, ...)                                                                                          \
+    N
+#define PP_RSEQ_N()                                                                                                    \
+    63, 62, 61, 60, 59, 58, 57, 56, 55, 54, 53, 52, 51, 50, 49, 48, 47, 46, 45, 44, 43, 42, 41, 40, 39, 38, 37, 36,    \
+        35, 34, 33, 32, 31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8,  \
+        7, 6, 5, 4, 3, 2, 1, 0
+
+#define DISPATCH_CASE(BODY, ...) CAT(DISPATCH_CASE_, PP_NARG(__VA_ARGS__))(__VA_ARGS__, WRAP(BODY))
+
+#define DISPATCH_WITH_DEFAULT(DTYPE_EXPR, BODY, DEFAULT_BODY, ...)                                                     \
+    switch (DTYPE_EXPR) {                                                                                              \
+        CAT(DISPATCH_CASE_, PP_NARG(__VA_ARGS__))(__VA_ARGS__, WRAP(BODY)) default : { WRAP(DEFAULT_BODY); }           \
+    }
+
+#define DISPATCH(DTYPE_EXPR, BODY, ...)                                                                                \
+    DISPATCH_WITH_DEFAULT(                                                                                             \
+        DTYPE_EXPR, WRAP(BODY),                                                                                        \
+        EXPAND(LOG(FATAL) << "Unsupported data type at " << __FILE__ << ":" << __LINE__; return nullptr;),             \
+        __VA_ARGS__)
+
+#define DISPATCH_CASE_1(T1, BODY)                                                                                      \
+    case T1: {                                                                                                         \
+        BODY break;                                                                                                    \
+    }
+
+#define DISPATCH_CASE_2(T1, T2, BODY)                                                                                  \
+    case T1:                                                                                                           \
+    case T2: {                                                                                                         \
+        BODY break;                                                                                                    \
+    }
+
+#define DISPATCH_CASE_3(T1, T2, T3, BODY)                                                                              \
+    case T1:                                                                                                           \
+    case T2:                                                                                                           \
+    case T3: {                                                                                                         \
+        BODY break;                                                                                                    \
+    }
+
+#define DISPATCH_CASE_4(T1, T2, T3, T4, BODY)                                                                          \
+    case T1:                                                                                                           \
+    case T2:                                                                                                           \
+    case T3:                                                                                                           \
+    case T4: {                                                                                                         \
+        BODY break;                                                                                                    \
+    }
+
+#define DISPATCH_CASE_5(T1, T2, T3, T4, T5, BODY)                                                                      \
+    case T1:                                                                                                           \
+    case T2:                                                                                                           \
+    case T3:                                                                                                           \
+    case T4:                                                                                                           \
+    case T5: {                                                                                                         \
+        BODY break;                                                                                                    \
+    }
+
+#define DISPATCH_CASE_6(T1, T2, T3, T4, T5, T6, BODY)                                                                  \
+    case T1:                                                                                                           \
+    case T2:                                                                                                           \
+    case T3:                                                                                                           \
+    case T4:                                                                                                           \
+    case T5:                                                                                                           \
+    case T6: {                                                                                                         \
+        BODY break;                                                                                                    \
+    }
+
+#define DISPATCH_CASE_7(T1, T2, T3, T4, T5, T6, T7, BODY)                                                              \
+    case T1:                                                                                                           \
+    case T2:                                                                                                           \
+    case T3:                                                                                                           \
+    case T4:                                                                                                           \
+    case T5:                                                                                                           \
+    case T6:                                                                                                           \
+    case T7: {                                                                                                         \
+        BODY break;                                                                                                    \
+    }
+
+#define DISPATCH_CASE_8(T1, T2, T3, T4, T5, T6, T7, T8, BODY)                                                          \
+    case T1:                                                                                                           \
+    case T2:                                                                                                           \
+    case T3:                                                                                                           \
+    case T4:                                                                                                           \
+    case T5:                                                                                                           \
+    case T6:                                                                                                           \
+    case T7:                                                                                                           \
+    case T8: {                                                                                                         \
+        BODY break;                                                                                                    \
+    }
+
+#define DISPATCH_CASE_9(T1, T2, T3, T4, T5, T6, T7, T8, T9, BODY)                                                      \
+    case T1:                                                                                                           \
+    case T2:                                                                                                           \
+    case T3:                                                                                                           \
+    case T4:                                                                                                           \
+    case T5:                                                                                                           \
+    case T6:                                                                                                           \
+    case T7:                                                                                                           \
+    case T8:                                                                                                           \
+    case T9: {                                                                                                         \
+        BODY break;                                                                                                    \
+    }
+
+#define DISPATCH_CASE_10(T1, T2, T3, T4, T5, T6, T7, T8, T9, T10, BODY)                                                \
+    case T1:                                                                                                           \
+    case T2:                                                                                                           \
+    case T3:                                                                                                           \
+    case T4:                                                                                                           \
+    case T5:                                                                                                           \
+    case T6:                                                                                                           \
+    case T7:                                                                                                           \
+    case T8:                                                                                                           \
+    case T9:                                                                                                           \
+    case T10: {                                                                                                        \
+        BODY break;                                                                                                    \
+    }
+
+#define DISPATCH_CASE_11(T1, T2, T3, T4, T5, T6, T7, T8, T9, T10, T11, BODY)                                           \
+    case T1:                                                                                                           \
+    case T2:                                                                                                           \
+    case T3:                                                                                                           \
+    case T4:                                                                                                           \
+    case T5:                                                                                                           \
+    case T6:                                                                                                           \
+    case T7:                                                                                                           \
+    case T8:                                                                                                           \
+    case T9:                                                                                                           \
+    case T10:                                                                                                          \
+    case T11: {                                                                                                        \
+        BODY break;                                                                                                    \
+    }
+
+#define DISPATCH_CASE_12(T1, T2, T3, T4, T5, T6, T7, T8, T9, T10, T11, T12, BODY)                                      \
+    case T1:                                                                                                           \
+    case T2:                                                                                                           \
+    case T3:                                                                                                           \
+    case T4:                                                                                                           \
+    case T5:                                                                                                           \
+    case T6:                                                                                                           \
+    case T7:                                                                                                           \
+    case T8:                                                                                                           \
+    case T9:                                                                                                           \
+    case T10:                                                                                                          \
+    case T11:                                                                                                          \
+    case T12: {                                                                                                        \
+        BODY break;                                                                                                    \
+    }
+
+namespace infini_train {
+
+/**
+ * Data Type Macros
+ * Defines common categories of data types for dispatching
+ */
+#define INFINI_FLOATING_TYPES DataType::kFLOAT32, DataType::kFLOAT64
+#define INFINI_REDUCED_FLOATING_TYPES DataType::kFLOAT16, DataType::kBFLOAT16
+#define INFINI_ALL_FLOATING_TYPES INFINI_FLOATING_TYPES, INFINI_REDUCED_FLOATING_TYPES
+#define INFINI_SIGNED_INTEGRAL_TYPES DataType::kINT8, DataType::kINT16, DataType::kINT32, DataType::kINT64
+#define INFINI_UNSIGNED_INTEGRAL_TYPES DataType::kUINT8, DataType::kUINT16, DataType::kUINT32, DataType::kUINT64
+#define INFINI_ALL_INTEGRAL_TYPES INFINI_SIGNED_INTEGRAL_TYPES, INFINI_UNSIGNED_INTEGRAL_TYPES
+#define INFINI_ALL_TYPES INFINI_ALL_FLOATING_TYPES, INFINI_ALL_INTEGRAL_TYPES
+#define INFINI_8_BIT_TYPES DataType::kINT8, DataType::kUINT8
+#define INFINI_16_BIT_TYPES DataType::kINT16, DataType::kUINT16, DataType::kFLOAT16, DataType::kBFLOAT16
+#define INFINI_32_BIT_TYPES DataType::kINT32, DataType::kUINT32, DataType::kFLOAT32
+#define INFINI_64_BIT_TYPES DataType::kINT64, DataType::kUINT64, DataType::kFLOAT64
+
+template <DataType... DTypes> struct DataTypeList {};
+
+template <DataType Dtype, typename List> struct IsDataTypeInList;
+
+template <DataType Dtype, DataType... DTypes>
+struct IsDataTypeInList<Dtype, DataTypeList<DTypes...>> : std::disjunction<std::bool_constant<Dtype == DTypes>...> {};
+
+template <DataType Dtype, typename List>
+inline constexpr bool IsDataTypeInList_v = IsDataTypeInList<Dtype, List>::value;
+
+template <typename T, typename... Ts> inline constexpr bool IsTypeInList = (std::is_same_v<T, Ts> || ...);
+
+template <template <DataType> class TypeMap, DataType DType> using MappedType_t = typename TypeMap<DType>::type;
+
+// -----------------------------------------------------------------------------
+// Generic single-dtype dispatch by custom type map
+// -----------------------------------------------------------------------------
+template <template <DataType> class TypeMap, DataType... AllowedDTypes, typename Functor, typename... Args>
+auto DispatchByTypeMap(DataType dtype, Functor &&func, std::string_view context_identifier = "", Args &&...args) {
+    switch (dtype) {
+#define CASE_FOR_TYPE(DType)                                                                                           \
+    case DType: {                                                                                                      \
+        if constexpr (IsTypeInList<MappedType_t<TypeMap, DType>, MappedType_t<TypeMap, AllowedDTypes>...>) {           \
+            return std::forward<Functor>(func).template operator()<MappedType_t<TypeMap, DType>>(                      \
+                std::forward<Args>(args)...);                                                                          \
+        } else {                                                                                                       \
+            break;                                                                                                     \
+        }                                                                                                              \
+    }
+
+        CASE_FOR_TYPE(DataType::kUINT8)
+        CASE_FOR_TYPE(DataType::kINT8)
+        CASE_FOR_TYPE(DataType::kUINT16)
+        CASE_FOR_TYPE(DataType::kINT16)
+        CASE_FOR_TYPE(DataType::kUINT32)
+        CASE_FOR_TYPE(DataType::kINT32)
+        CASE_FOR_TYPE(DataType::kUINT64)
+        CASE_FOR_TYPE(DataType::kINT64)
+        CASE_FOR_TYPE(DataType::kFLOAT32)
+        CASE_FOR_TYPE(DataType::kFLOAT64)
+        CASE_FOR_TYPE(DataType::kBFLOAT16)
+        CASE_FOR_TYPE(DataType::kFLOAT16)
+#undef CASE_FOR_TYPE
+    }
+
+    LOG_UNSUPPORTED_DTYPE(dtype, context_identifier);
+    std::abort();
+}
+
+namespace detail {
+
+template <template <DataType> class TypeMap, size_t Index, typename AllowedListTuple, typename... ResolvedTypes>
+struct TypeMapDispatcher {
+    template <typename Functor, typename... Args>
+    static auto call(const std::vector<DataType> &dtypes, Functor &&func, std::string_view context_identifier,
+                     Args &&...args) {
+        constexpr size_t kNumLists = std::tuple_size_v<AllowedListTuple>;
+
+        if constexpr (Index == kNumLists) {
+            return std::forward<Functor>(func).template operator()<ResolvedTypes...>(std::forward<Args>(args)...);
+        } else {
+            using CurrentList = std::tuple_element_t<Index, AllowedListTuple>;
+            const DataType dtype = dtypes[Index];
+
+            switch (dtype) {
+#define CASE_FOR_TYPE(DType)                                                                                           \
+    case DType:                                                                                                        \
+        if constexpr (IsDataTypeInList_v<DType, CurrentList>) {                                                        \
+            using T = MappedType_t<TypeMap, DType>;                                                                    \
+            return TypeMapDispatcher<TypeMap, Index + 1, AllowedListTuple, ResolvedTypes..., T>::call(                 \
+                dtypes, std::forward<Functor>(func), context_identifier, std::forward<Args>(args)...);                 \
+        } else {                                                                                                       \
+            break;                                                                                                     \
+        }
+
+                CASE_FOR_TYPE(DataType::kUINT8)
+                CASE_FOR_TYPE(DataType::kINT8)
+                CASE_FOR_TYPE(DataType::kUINT16)
+                CASE_FOR_TYPE(DataType::kINT16)
+                CASE_FOR_TYPE(DataType::kUINT32)
+                CASE_FOR_TYPE(DataType::kINT32)
+                CASE_FOR_TYPE(DataType::kUINT64)
+                CASE_FOR_TYPE(DataType::kINT64)
+                CASE_FOR_TYPE(DataType::kFLOAT32)
+                CASE_FOR_TYPE(DataType::kFLOAT64)
+                CASE_FOR_TYPE(DataType::kBFLOAT16)
+                CASE_FOR_TYPE(DataType::kFLOAT16)
+#undef CASE_FOR_TYPE
+            }
+
+            LOG_UNSUPPORTED_DTYPE(dtype, context_identifier);
+            std::abort();
+        }
+    }
+};
+
+} // namespace detail
+
+// -----------------------------------------------------------------------------
+// Generic multi-dtype dispatch by custom type map
+// -----------------------------------------------------------------------------
+template <template <DataType> class TypeMap, typename... AllowedTypeLists, typename Functor, typename... Args>
+auto DispatchByTypeMap(const std::vector<DataType> &dtypes, Functor &&func, std::string_view context_identifier = "",
+                       Args &&...args) {
+    constexpr size_t kNumLists = sizeof...(AllowedTypeLists);
+
+    if (dtypes.size() != kNumLists) {
+        LOG(FATAL) << std::format("DispatchByTypeMap expects {} dtypes, but only got {} in {}", kNumLists,
+                                  dtypes.size(), context_identifier);
+        std::abort();
+    }
+
+    using AllowedListTuple = std::tuple<AllowedTypeLists...>;
+    return detail::TypeMapDispatcher<TypeMap, 0, AllowedListTuple>::call(
+        dtypes, std::forward<Functor>(func), context_identifier, std::forward<Args>(args)...);
+}
+
+// -----------------------------------------------------------------------------
+// Default framework dispatch using TypeMap
+// -----------------------------------------------------------------------------
+template <DataType... AllowedDTypes, typename Functor, typename... Args>
+auto DispatchFunc(DataType dtype, Functor &&func, std::string_view context_identifier = "", Args &&...args) {
+    return DispatchByTypeMap<TypeMap, AllowedDTypes...>(dtype, std::forward<Functor>(func), context_identifier,
+                                                        std::forward<Args>(args)...);
+}
+
+template <typename... AllowedTypeLists, typename Functor, typename... Args>
+auto DispatchFunc(const std::vector<DataType> &dtypes, Functor &&func, std::string_view context_identifier = "",
+                  Args &&...args) {
+    return DispatchByTypeMap<TypeMap, AllowedTypeLists...>(dtypes, std::forward<Functor>(func), context_identifier,
+                                                           std::forward<Args>(args)...);
+}
+
+} // namespace infini_train
diff --git a/infini_train/include/tensor.h b/infini_train/include/tensor.h
index a40d0987..98ea984e 100644
--- a/infini_train/include/tensor.h
+++ b/infini_train/include/tensor.h
@@ -78,8 +78,8 @@ class Tensor : public std::enable_shared_from_this<Tensor> {
     size_t NumElements() const;
     DataType Dtype() const;
 
-    // TODO(dcj): use scalar class later
-    template <typename T> void Fill(T value);
+    // Fill tensor with a scalar value (accepts double, automatically converts to tensor's dtype)
+    void Fill(double value);
 
     Eigen::Map<Eigen::Matrix<float, Eigen::Dynamic, Eigen::Dynamic, Eigen::RowMajor>> EigenMatrix();
     Eigen::Map<Eigen::Matrix<float, 1, Eigen::Dynamic, Eigen::RowMajor>> EigenVector();
diff --git a/infini_train/include/tensor_fill_impl.h b/infini_train/include/tensor_fill_impl.h
new file mode 100644
index 00000000..244115ee
--- /dev/null
+++ b/infini_train/include/tensor_fill_impl.h
@@ -0,0 +1,28 @@
+#pragma once
+
+#include <cstring>
+
+#include "infini_train/include/common/cpu/common_cpu.h"
+#include "infini_train/include/core/device_guard.h"
+#include "infini_train/include/datatype.h"
+#include "infini_train/include/dispatcher.h"
+#include "infini_train/include/dtype_dispatch.h"
+
+namespace infini_train {
+
+inline void Tensor::Fill(double value) {
+    auto device = GetDevice();
+    core::DeviceGuard guard(device);
+
+    uint64_t storage = 0;
+
+    DispatchFunc<INFINI_ALL_TYPES>(Dtype(), [&storage, value]<typename TargetT>() {
+        TargetT casted_value = common::cpu::Cast<TargetT>(static_cast<float>(value));
+        std::memcpy((void *)(&storage), &casted_value, sizeof(TargetT));
+    });
+
+    auto kernel = Dispatcher::Instance().GetKernel({device.type(), "Fill"});
+    kernel.Call<void>(shared_from_this(), static_cast<void *>(&storage));
+}
+
+} // namespace infini_train
diff --git a/infini_train/src/core/cpu/cpu_dispatch.h b/infini_train/src/core/cpu/cpu_dispatch.h
new file mode 100644
index 00000000..65fb204d
--- /dev/null
+++ b/infini_train/src/core/cpu/cpu_dispatch.h
@@ -0,0 +1,24 @@
+#pragma once
+
+#include "infini_train/include/dtype_dispatch.h"
+
+namespace infini_train::core::cpu {
+
+// CPU backend storage-oriented type map.
+// For now, CPU uses the default framework scalar/storage mapping directly.
+template <DataType DType> struct CpuTypeMap : DefaultScalarTypeMap<DType> {};
+
+template <DataType... AllowedDTypes, typename Functor, typename... Args>
+auto DispatchCpuFunc(DataType dtype, Functor &&func, std::string_view context_identifier = "", Args &&...args) {
+    return infini_train::DispatchByTypeMap<CpuTypeMap, AllowedDTypes...>(
+        dtype, std::forward<Functor>(func), context_identifier, std::forward<Args>(args)...);
+}
+
+template <typename... AllowedTypeLists, typename Functor, typename... Args>
+auto DispatchCpuFunc(const std::vector<DataType> &dtypes, Functor &&func, std::string_view context_identifier = "",
+                     Args &&...args) {
+    return infini_train::DispatchByTypeMap<CpuTypeMap, AllowedTypeLists...>(
+        dtypes, std::forward<Functor>(func), context_identifier, std::forward<Args>(args)...);
+}
+
+} // namespace infini_train::core::cpu
diff --git a/infini_train/src/core/cuda/cuda_dispatch.h b/infini_train/src/core/cuda/cuda_dispatch.h
new file mode 100644
index 00000000..19053d29
--- /dev/null
+++ b/infini_train/src/core/cuda/cuda_dispatch.h
@@ -0,0 +1,42 @@
+#pragma once
+
+#include <cuda_bf16.h>
+#include <cuda_fp16.h>
+
+#include <utility>
+#include <vector>
+
+#include "infini_train/include/datatype.h"
+#include "infini_train/include/dtype_dispatch.h"
+
+namespace infini_train::core::cuda {
+
+// CUDA backend type map.
+// Reuse the default framework scalar mapping for all common scalar types,
+// and override only the reduced floating types with CUDA native scalar types.
+template <DataType DType> struct CudaTypeMap : DefaultScalarTypeMap<DType> {};
+
+template <> struct CudaTypeMap<DataType::kFLOAT16> {
+    using type = __half;
+};
+
+template <> struct CudaTypeMap<DataType::kBFLOAT16> {
+    using type = __nv_bfloat16;
+};
+
+template <DataType DType> using CudaTypeMap_t = typename CudaTypeMap<DType>::type;
+
+template <DataType... AllowedDTypes, typename Functor, typename... Args>
+auto DispatchCudaFunc(DataType dtype, Functor &&func, std::string_view context_identifier = "", Args &&...args) {
+    return infini_train::DispatchByTypeMap<CudaTypeMap, AllowedDTypes...>(
+        dtype, std::forward<Functor>(func), context_identifier, std::forward<Args>(args)...);
+}
+
+template <typename... AllowedTypeLists, typename Functor, typename... Args>
+auto DispatchCudaFunc(const std::vector<DataType> &dtypes, Functor &&func, std::string_view context_identifier = "",
+                      Args &&...args) {
+    return infini_train::DispatchByTypeMap<CudaTypeMap, AllowedTypeLists...>(
+        dtypes, std::forward<Functor>(func), context_identifier, std::forward<Args>(args)...);
+}
+
+} // namespace infini_train::core::cuda
diff --git a/infini_train/src/core/cuda/cuda_dtype_bridge.h b/infini_train/src/core/cuda/cuda_dtype_bridge.h
new file mode 100644
index 00000000..b98456ec
--- /dev/null
+++ b/infini_train/src/core/cuda/cuda_dtype_bridge.h
@@ -0,0 +1,20 @@
+#pragma once
+
+#include <cuda_bf16.h>
+#include <cuda_fp16.h>
+
+#include "infini_train/include/core/dtype_bridge.h"
+
+namespace infini_train::core {
+
+// Framework FP16 -> CUDA __half
+template <> struct NativeScalar<Device::DeviceType::kCUDA, infini_train::FP16> {
+    using type = __half;
+};
+
+// Framework BF16 -> CUDA __nv_bfloat16
+template <> struct NativeScalar<Device::DeviceType::kCUDA, infini_train::BF16> {
+    using type = __nv_bfloat16;
+};
+
+} // namespace infini_train::core
diff --git a/infini_train/src/core/cuda/cuda_stream.cc b/infini_train/src/core/cuda/cuda_stream.cc
index 0d97bae9..37645ec6 100644
--- a/infini_train/src/core/cuda/cuda_stream.cc
+++ b/infini_train/src/core/cuda/cuda_stream.cc
@@ -6,12 +6,12 @@
 
 namespace infini_train::core::cuda {
 
-CudaStream::CudaStream() { CUDA_CHECK(cudaStreamCreate(&stream_)); }
+CudaStream::CudaStream() { CUDA_CHECK(cudaStreamCreate(&cuda_stream_)); }
 
 CudaStream::~CudaStream() {
     // Do nothing.
 }
 
-cudaStream_t CudaStream::cuda_stream() const { return stream_; }
+cudaStream_t CudaStream::cuda_stream() const { return cuda_stream_; }
 
 } // namespace infini_train::core::cuda
diff --git a/infini_train/src/core/cuda/cuda_stream.h b/infini_train/src/core/cuda/cuda_stream.h
index b7eb834c..54016bb2 100644
--- a/infini_train/src/core/cuda/cuda_stream.h
+++ b/infini_train/src/core/cuda/cuda_stream.h
@@ -21,7 +21,7 @@ class CudaStream : public Stream {
     cudaStream_t cuda_stream() const;
 
 private:
-    cudaStream_t stream_;
+    cudaStream_t cuda_stream_;
 };
 
 } // namespace infini_train::core::cuda
diff --git a/infini_train/src/kernels/cpu/cast.cc b/infini_train/src/kernels/cpu/cast.cc
index 35f31214..6d8204f2 100644
--- a/infini_train/src/kernels/cpu/cast.cc
+++ b/infini_train/src/kernels/cpu/cast.cc
@@ -4,12 +4,15 @@
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
 
+#include "infini_train/src/core/cpu/cpu_dispatch.h"
+
 namespace infini_train::kernels::cpu {
+
 std::shared_ptr<Tensor> Cast(std::shared_ptr<Tensor> input, DataType dtype) {
     auto device = input->GetDevice();
     auto dst_tensor = std::make_shared<Tensor>(input->Dims(), dtype, device);
 
-    DispatchFunc<DataTypeList<INFINI_ALL_TYPES>, DataTypeList<INFINI_ALL_TYPES>>(
+    core::cpu::DispatchCpuFunc<DataTypeList<INFINI_ALL_TYPES>, DataTypeList<INFINI_ALL_TYPES>>(
         {dtype, input->Dtype()},
         [=]<typename Tdst, typename Tsrc>() {
             auto dst = static_cast<Tdst *>(dst_tensor->DataPtr());
@@ -19,13 +22,6 @@ std::shared_ptr<Tensor> Cast(std::shared_ptr<Tensor> input, DataType dtype) {
         },
         "CPU Cast");
 
-    return {dst_tensor};
+    return dst_tensor;
 }
 } // namespace infini_train::kernels::cpu
-
-#define REGISTER_CPU_CAST_KERNEL(kernel_name)                                                                          \
-    REGISTER_KERNEL(infini_train::Device::DeviceType::kCPU, kernel_name, infini_train::kernels::cpu::kernel_name)
-
-REGISTER_CPU_CAST_KERNEL(Cast)
-
-#undef REGISTER_CPU_CAST_KERNEL
diff --git a/infini_train/src/kernels/cpu/elementwise.cc b/infini_train/src/kernels/cpu/elementwise.cc
index 8d66acd2..71058b51 100644
--- a/infini_train/src/kernels/cpu/elementwise.cc
+++ b/infini_train/src/kernels/cpu/elementwise.cc
@@ -85,8 +85,8 @@ BinaryBackward(const std::shared_ptr<Tensor> &grad_output, const std::shared_ptr
 
     auto grad_a = std::make_shared<Tensor>(a_dims, DataType::kFLOAT32);
     auto grad_b = std::make_shared<Tensor>(b_dims, DataType::kFLOAT32);
-    grad_a->Fill<float>(0.0f);
-    grad_b->Fill<float>(0.0f);
+    grad_a->Fill(0.0);
+    grad_b->Fill(0.0);
 
     int ndim = a_dims.size();
     auto out_strides = ComputeStrides(a_dims);
diff --git a/infini_train/src/kernels/cpu/embedding.cc b/infini_train/src/kernels/cpu/embedding.cc
index 190c77c5..6b3a5aa6 100644
--- a/infini_train/src/kernels/cpu/embedding.cc
+++ b/infini_train/src/kernels/cpu/embedding.cc
@@ -41,7 +41,7 @@ std::shared_ptr<Tensor> EmbeddingBackward(const std::shared_ptr<Tensor> &input,
     CHECK_EQ(*grad_output->Dims().rbegin(), embedding_dim);
 
     auto grad_weight = std::make_shared<Tensor>(weight_dims, DataType::kFLOAT32);
-    grad_weight->Fill<float>(0.0f);
+    grad_weight->Fill(0.0);
 
     for (int i = 0; i < input->NumElements(); ++i) {
         int idx = static_cast<int>(static_cast<const int64_t *>(input->DataPtr())[i]);
diff --git a/infini_train/src/kernels/cpu/gather.cc b/infini_train/src/kernels/cpu/gather.cc
index 9717b795..b59fd45f 100644
--- a/infini_train/src/kernels/cpu/gather.cc
+++ b/infini_train/src/kernels/cpu/gather.cc
@@ -129,7 +129,7 @@ std::shared_ptr<Tensor> IndexGatherBackward(const std::shared_ptr<Tensor> &grad_
     }
 
     auto grad_input = std::make_shared<Tensor>(in_dims, grad_output->Dtype(), grad_output->GetDevice());
-    grad_input->Fill<float>(0.0f);
+    grad_input->Fill(0.0);
 
     std::vector<int64_t> in_strides(in_dims.size());
     int64_t s = 1;
diff --git a/infini_train/src/kernels/cpu/layernorm.cc b/infini_train/src/kernels/cpu/layernorm.cc
index c587f2c5..46a8f094 100644
--- a/infini_train/src/kernels/cpu/layernorm.cc
+++ b/infini_train/src/kernels/cpu/layernorm.cc
@@ -28,8 +28,8 @@ LayerNormForward(const std::shared_ptr<Tensor> &input, const std::shared_ptr<Ten
     auto output = std::make_shared<Tensor>(std::vector<int64_t>{batch_size, max_seqlen, embed_dim}, DataType::kFLOAT32);
     auto mean = std::make_shared<Tensor>(std::vector<int64_t>{batch_size, max_seqlen}, DataType::kFLOAT32);
     auto rstd = std::make_shared<Tensor>(std::vector<int64_t>{batch_size, max_seqlen}, DataType::kFLOAT32);
-    mean->Fill<float>(0.0f);
-    rstd->Fill<float>(0.0f);
+    mean->Fill(0.0);
+    rstd->Fill(0.0);
 
     for (int b = 0; b < batch_size; ++b) {
         for (int t = 0; t < max_seqlen; ++t) {
@@ -84,9 +84,9 @@ LayerNormBackward(const std::shared_ptr<Tensor> &input, const std::shared_ptr<Te
     auto grad_weight = std::make_shared<Tensor>(weight->Dims(), DataType::kFLOAT32);
     auto grad_bias = std::make_shared<Tensor>(bias->Dims(), DataType::kFLOAT32);
 
-    grad_input->Fill<float>(0.0f);
-    grad_weight->Fill<float>(0.0f);
-    grad_bias->Fill<float>(0.0f);
+    grad_input->Fill(0.0);
+    grad_weight->Fill(0.0);
+    grad_bias->Fill(0.0);
 
     for (int b = 0; b < batch_size; ++b) {
         for (int t = 0; t < max_seqlen; ++t) {
diff --git a/infini_train/src/kernels/cpu/linear.cc b/infini_train/src/kernels/cpu/linear.cc
index e7de3fa9..6c3229d5 100644
--- a/infini_train/src/kernels/cpu/linear.cc
+++ b/infini_train/src/kernels/cpu/linear.cc
@@ -81,8 +81,8 @@ MatmulBackward(const std::shared_ptr<Tensor> &input, const std::shared_ptr<Tenso
 
     auto grad_input = std::make_shared<Tensor>(input_dims, DataType::kFLOAT32);
     auto grad_other = std::make_shared<Tensor>(other_dims, DataType::kFLOAT32);
-    grad_input->Fill<float>(0.0f);
-    grad_other->Fill<float>(0.0f);
+    grad_input->Fill(0.0);
+    grad_other->Fill(0.0);
 
     for (int64_t b = 0; b < bs; ++b) {
         for (int64_t i = 0; i < m; ++i) {
diff --git a/infini_train/src/kernels/cpu/outer.cc b/infini_train/src/kernels/cpu/outer.cc
index b61a3ed0..b41c9551 100644
--- a/infini_train/src/kernels/cpu/outer.cc
+++ b/infini_train/src/kernels/cpu/outer.cc
@@ -47,8 +47,8 @@ std::tuple<std::shared_ptr<Tensor>, std::shared_ptr<Tensor>> OuterBackward(const
 
     auto grad_input = std::make_shared<Tensor>(std::vector<int64_t>{m}, DataType::kFLOAT32);
     auto grad_other = std::make_shared<Tensor>(std::vector<int64_t>{n}, DataType::kFLOAT32);
-    grad_input->Fill<float>(0.0f);
-    grad_other->Fill<float>(0.0f);
+    grad_input->Fill(0.0);
+    grad_other->Fill(0.0);
 
     grad_input->EigenVector() = grad_output->EigenMatrix() * other->EigenVector().transpose();
     grad_other->EigenVector() = grad_output->EigenMatrix().transpose() * input->EigenVector().transpose();
diff --git a/infini_train/src/kernels/cpu/slice.cc b/infini_train/src/kernels/cpu/slice.cc
index bef925a7..c3296ce7 100644
--- a/infini_train/src/kernels/cpu/slice.cc
+++ b/infini_train/src/kernels/cpu/slice.cc
@@ -83,7 +83,7 @@ std::shared_ptr<Tensor> SliceBackward(const std::shared_ptr<Tensor> &grad_output
     }
 
     auto new_tensor = std::make_shared<Tensor>(input->Dims(), input->Dtype(), input->GetDevice());
-    new_tensor->Fill<float>(0.0);
+    new_tensor->Fill(0.0);
 
     std::vector<int64_t> src_strides(dims.size());
     int64_t stride = 1;
diff --git a/infini_train/src/kernels/cpu/split.cc b/infini_train/src/kernels/cpu/split.cc
index 209857f0..d8e3ed9e 100644
--- a/infini_train/src/kernels/cpu/split.cc
+++ b/infini_train/src/kernels/cpu/split.cc
@@ -47,7 +47,7 @@ std::shared_ptr<Tensor> SplitBackward(const std::vector<int64_t> &input_dims, in
     CHECK_EQ(grad_outputs.size(), (input_dims[dim] + split_size - 1) / split_size);
 
     auto grad_input = std::make_shared<Tensor>(input_dims, DataType::kFLOAT32);
-    grad_input->Fill<float>(0.0f);
+    grad_input->Fill(0.0);
     for (int64_t start = 0, idx = 0; start < input_dims[dim]; start += split_size, ++idx) {
         auto output_dims = input_dims;
         output_dims[dim] = std::min(split_size, input_dims[dim] - start);
diff --git a/infini_train/src/kernels/cpu/transform.cc b/infini_train/src/kernels/cpu/transform.cc
index 00387917..1a810b44 100644
--- a/infini_train/src/kernels/cpu/transform.cc
+++ b/infini_train/src/kernels/cpu/transform.cc
@@ -196,7 +196,7 @@ std::shared_ptr<Tensor> RepeatInterleaveBackward(const std::shared_ptr<Tensor> &
     CHECK_EQ(grad_output->Dims()[dim], dim_size * repeat);
 
     auto grad_input = std::make_shared<Tensor>(input_dims, grad_output->Dtype(), grad_output->GetDevice());
-    grad_input->Fill<float>(0.0f);
+    grad_input->Fill(0.0);
 
     const float *grad_out_ptr = static_cast<const float *>(grad_output->DataPtr());
     float *grad_in_ptr = static_cast<float *>(grad_input->DataPtr());
diff --git a/infini_train/src/kernels/cuda/accumulate_grad.cu b/infini_train/src/kernels/cuda/accumulate_grad.cu
index 7b64c2a5..f9618d34 100644
--- a/infini_train/src/kernels/cuda/accumulate_grad.cu
+++ b/infini_train/src/kernels/cuda/accumulate_grad.cu
@@ -6,30 +6,32 @@
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
 
+#include "infini_train/src/core/cuda/cuda_dispatch.h"
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
 
 template <typename T>
 __global__ void AccumulateGradKernel(const T *grad_ptr, float rate, T *tensor_ptr, size_t num_elements) {
-    int idx = blockIdx.x * blockDim.x + threadIdx.x;
+    size_t idx = blockIdx.x * blockDim.x + threadIdx.x;
     if (idx < num_elements) {
-        tensor_ptr[idx] += common::cuda::Mul(grad_ptr[idx], common::cuda::Cast<T>(rate));
+        tensor_ptr[idx]
+            = common::cuda::Add(tensor_ptr[idx], common::cuda::Mul(grad_ptr[idx], common::cuda::Cast<T>(rate)));
     }
 }
 
 void AccumulateGrad(const std::shared_ptr<Tensor> &gradient, float rate, const std::shared_ptr<Tensor> &tensor) {
-    size_t num_elements = gradient->NumElements();
+    const size_t num_elements = gradient->NumElements();
 
-    int threads_per_block = 256;
-    int num_blocks = (num_elements + threads_per_block - 1) / threads_per_block;
+    const int threads_per_block = 256;
+    const int num_blocks = (num_elements + threads_per_block - 1) / threads_per_block;
 
     auto device = tensor->GetDevice();
     const auto &cuda_stream = dynamic_cast<infini_train::core::cuda::CudaStream *>(
                                   infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
                                   ->cuda_stream();
 
-    DispatchFunc<INFINI_ALL_FLOATING_TYPES>(
+    infini_train::core::cuda::DispatchCudaFunc<INFINI_ALL_FLOATING_TYPES>(
         gradient->Dtype(),
         [=]<typename T>() {
             AccumulateGradKernel<<<num_blocks, threads_per_block, 0, cuda_stream>>>(
@@ -41,39 +43,46 @@ void AccumulateGrad(const std::shared_ptr<Tensor> &gradient, float rate, const s
 template <typename T>
 __global__ void AdamAccumulateGradKernel(const T *grad_data, T *param_data, size_t num_elements, T *m_data, T *v_data,
                                          float learning_rate, float beta1, float beta2, float eps,
-                                         const float bias_correction_m, const float bias_correction_v) {
+                                         float bias_correction_m, float bias_correction_v) {
     size_t idx = blockIdx.x * blockDim.x + threadIdx.x;
     if (idx < num_elements) {
-        m_data[idx] = common::cuda::Fma(common::cuda::Cast<T>(beta1), m_data[idx],
-                                        common::cuda::Cast<T>(1 - beta1) * grad_data[idx]);
-        v_data[idx] = common::cuda::Fma(common::cuda::Cast<T>(beta2), v_data[idx],
-                                        common::cuda::Cast<T>(1 - beta2) * grad_data[idx] * grad_data[idx]);
+        const T beta1_t = common::cuda::Cast<T>(beta1);
+        const T beta2_t = common::cuda::Cast<T>(beta2);
+        const T one_minus_beta1_t = common::cuda::Cast<T>(1.0f - beta1);
+        const T one_minus_beta2_t = common::cuda::Cast<T>(1.0f - beta2);
+
+        m_data[idx] = common::cuda::Fma(beta1_t, m_data[idx], common::cuda::Mul(one_minus_beta1_t, grad_data[idx]));
+
+        v_data[idx] = common::cuda::Fma(
+            beta2_t, v_data[idx],
+            common::cuda::Mul(one_minus_beta2_t, common::cuda::Mul(grad_data[idx], grad_data[idx])));
 
         const float m_hat = common::cuda::Cast<float>(m_data[idx]) / bias_correction_m;
         const float v_hat = common::cuda::Cast<float>(v_data[idx]) / bias_correction_v;
 
-        param_data[idx] = common::cuda::Sub(
-            param_data[idx], common::cuda::Cast<T>(learning_rate * m_hat * __frcp_rn(__fsqrt_rn(v_hat) + eps)));
+        const float update = learning_rate * m_hat * __frcp_rn(__fsqrt_rn(v_hat) + eps);
+
+        param_data[idx] = common::cuda::Sub(param_data[idx], common::cuda::Cast<T>(update));
     }
 }
 
 void AdamAccumulateGrad(const std::shared_ptr<Tensor> &grad, const std::shared_ptr<Tensor> &param,
                         const std::shared_ptr<Tensor> &m, const std::shared_ptr<Tensor> &v, float learning_rate,
                         float beta1, float beta2, float eps, int64_t t) {
-    size_t num_elements = grad->NumElements();
+    const size_t num_elements = grad->NumElements();
 
     const float bias_correction_m = 1.0f - std::pow(beta1, t);
     const float bias_correction_v = 1.0f - std::pow(beta2, t);
 
-    int threads_per_block = 256;
-    int num_blocks = (num_elements + threads_per_block - 1) / threads_per_block;
+    const int threads_per_block = 256;
+    const int num_blocks = (num_elements + threads_per_block - 1) / threads_per_block;
 
     auto device = grad->GetDevice();
     const auto &cuda_stream = dynamic_cast<infini_train::core::cuda::CudaStream *>(
                                   infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
                                   ->cuda_stream();
 
-    DispatchFunc<INFINI_ALL_FLOATING_TYPES>(
+    infini_train::core::cuda::DispatchCudaFunc<INFINI_ALL_FLOATING_TYPES>(
         grad->Dtype(),
         [=]<typename T>() {
             AdamAccumulateGradKernel<<<num_blocks, threads_per_block, 0, cuda_stream>>>(
@@ -83,6 +92,7 @@ void AdamAccumulateGrad(const std::shared_ptr<Tensor> &grad, const std::shared_p
         },
         "CUDA AdamAccumulateGrad");
 }
+
 } // namespace infini_train::kernels::cuda
 
 #define REGISTER_CUDA_ACCUMULATE_GRAD_KERNEL(kernel_name)                                                              \
diff --git a/infini_train/src/kernels/cuda/cast.cu b/infini_train/src/kernels/cuda/cast.cu
index b048d026..f671bbb9 100644
--- a/infini_train/src/kernels/cuda/cast.cu
+++ b/infini_train/src/kernels/cuda/cast.cu
@@ -3,11 +3,11 @@
 #include "infini_train/include/common/common.h"
 #include "infini_train/include/common/cuda/kernel_helper.cuh"
 #include "infini_train/include/core/device_guard.h"
-#include "infini_train/include/datatype.h"
 #include "infini_train/include/device.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
 
+#include "infini_train/src/core/cuda/cuda_dispatch.h"
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
@@ -15,7 +15,6 @@ namespace infini_train::kernels::cuda {
 template <typename Tdst, typename Tsrc>
 __global__ void CastKernel(Tdst *dst, const Tsrc *src, size_t num_elements, size_t offset) {
     size_t idx = blockIdx.x * blockDim.x + threadIdx.x + offset;
-
     if (idx < num_elements) {
         dst[idx] = common::cuda::Cast<Tdst>(src[idx]);
     }
@@ -23,6 +22,7 @@ __global__ void CastKernel(Tdst *dst, const Tsrc *src, size_t num_elements, size
 
 std::shared_ptr<Tensor> Cast(std::shared_ptr<Tensor> input, DataType dtype) {
     auto dst_tensor = std::make_shared<Tensor>(input->Dims(), dtype, input->GetDevice());
+
     auto device = input->GetDevice();
     const auto &cuda_stream = dynamic_cast<infini_train::core::cuda::CudaStream *>(
                                   infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
@@ -33,19 +33,21 @@ std::shared_ptr<Tensor> Cast(std::shared_ptr<Tensor> input, DataType dtype) {
     dim3 grid_dims(CEIL_DIV(num_elements, block_dims.x));
     const size_t step = grid_dims.x * block_dims.x;
 
-    DispatchFunc<DataTypeList<INFINI_ALL_TYPES>, DataTypeList<INFINI_ALL_TYPES>>(
+    infini_train::core::cuda::DispatchCudaFunc<DataTypeList<INFINI_ALL_TYPES>, DataTypeList<INFINI_ALL_TYPES>>(
         {dtype, input->Dtype()},
         [=]<typename Tdst, typename Tsrc>() {
-            auto dst = static_cast<Tdst *>(dst_tensor->DataPtr());
-            auto src = static_cast<const Tsrc *>(input->DataPtr());
+            auto *dst = static_cast<Tdst *>(dst_tensor->DataPtr());
+            auto *src = static_cast<const Tsrc *>(input->DataPtr());
+
             for (size_t offset = 0; offset < num_elements; offset += step) {
                 CastKernel<<<grid_dims, block_dims, 0, cuda_stream>>>(dst, src, num_elements, offset);
             }
         },
         "CUDA Cast");
 
-    return {dst_tensor};
+    return dst_tensor;
 }
+
 } // namespace infini_train::kernels::cuda
 
 #define REGISTER_CUDA_CAST_KERNEL(kernel_name)                                                                         \
diff --git a/infini_train/src/kernels/cuda/comm.cu b/infini_train/src/kernels/cuda/comm.cu
index c3063e99..6ccad9e4 100644
--- a/infini_train/src/kernels/cuda/comm.cu
+++ b/infini_train/src/kernels/cuda/comm.cu
@@ -29,7 +29,7 @@ std::vector<std::shared_ptr<Tensor>> ReduceAddCoalesced(const std::vector<std::v
     std::vector<std::vector<std::shared_ptr<Tensor>>> to_destination_grads;
     for (int i = 0; i < grads[0].size(); ++i) {
         outputs.emplace_back(std::make_shared<Tensor>(grads[0][i]->Dims(), grads[0][i]->Dtype(), destination));
-        outputs[i]->Fill<float>(0.0);
+        outputs[i]->Fill(0.0);
     }
     for (int i = 0; i < grads.size(); ++i) {
         to_destination_grads.push_back(std::vector<std::shared_ptr<Tensor>>());
diff --git a/infini_train/src/kernels/cuda/concat.cu b/infini_train/src/kernels/cuda/concat.cu
index 1fa8face..69404f2c 100644
--- a/infini_train/src/kernels/cuda/concat.cu
+++ b/infini_train/src/kernels/cuda/concat.cu
@@ -11,14 +11,16 @@
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
 
+#include "infini_train/src/core/cuda/cuda_dispatch.h"
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
+
 __device__ __forceinline__ int64_t UpperBoundI64(const int64_t *offsets, int64_t n_plus_1, int64_t x) {
     // Return the largest s so that offsets[s] <= x
     // offsets[0] = 0, offsets is monotonically increasing
     // len(offsets) = num_inputs + 1
-    int64_t l = 0, r = n_plus_1; // start search in [0, n+1)
+    int64_t l = 0, r = n_plus_1; // search in [0, n+1)
     while (l < r) {
         int64_t m = l + ((r - l) >> 1);
         if (offsets[m] <= x) {
@@ -89,7 +91,6 @@ std::shared_ptr<Tensor> ConcatForward(const std::vector<std::shared_ptr<Tensor>>
     const int64_t num_inputs = static_cast<int64_t>(inputs.size());
     const int64_t K_total = out_dims[dim];
 
-    // offsets records the sum of Ks
     // offsets[i] = sum_{j < i} K_j
     std::vector<int64_t> host_offsets(num_inputs + 1, 0);
     for (int64_t i = 0; i < num_inputs; ++i) { host_offsets[i + 1] = host_offsets[i] + Ks[i]; }
@@ -98,11 +99,11 @@ std::shared_ptr<Tensor> ConcatForward(const std::vector<std::shared_ptr<Tensor>>
                              infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
                              ->cuda_stream();
 
-    int64_t total = N * K_total * D;
-    int threads_per_block = 256;
-    int num_blocks = static_cast<int>((total + threads_per_block - 1) / threads_per_block);
+    const int64_t total = N * K_total * D;
+    const int threads_per_block = 256;
+    const int num_blocks = static_cast<int>((total + threads_per_block - 1) / threads_per_block);
 
-    DispatchFunc<INFINI_ALL_TYPES>(
+    infini_train::core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
         dtype,
         [=, &inputs, &host_offsets]<typename T>() {
             std::vector<const T *> host_input_ptrs;
@@ -185,8 +186,7 @@ std::vector<std::shared_ptr<Tensor>> ConcatBackward(const std::shared_ptr<Tensor
     grads.reserve(input_dims_list.size());
     for (const auto &dvec : input_dims_list) {
         auto t = std::make_shared<Tensor>(dvec, dtype, device);
-        DispatchFunc<INFINI_ALL_TYPES>(
-            dtype, [=]<typename T>() { t->Fill<T>(0); }, "CUDA ConcatBackward");
+        t->Fill(0.0);
         grads.push_back(t);
     }
 
@@ -204,11 +204,11 @@ std::vector<std::shared_ptr<Tensor>> ConcatBackward(const std::shared_ptr<Tensor
                              infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
                              ->cuda_stream();
 
-    int64_t total = N * K_total * D;
-    int threads_per_block = 256;
-    int num_blocks = static_cast<int>((total + threads_per_block - 1) / threads_per_block);
+    const int64_t total = N * K_total * D;
+    const int threads_per_block = 256;
+    const int num_blocks = static_cast<int>((total + threads_per_block - 1) / threads_per_block);
 
-    DispatchFunc<INFINI_ALL_TYPES>(
+    infini_train::core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
         dtype,
         [=, &grads, &host_offsets]<typename T>() {
             std::vector<T *> host_ptrs;
@@ -236,6 +236,7 @@ std::vector<std::shared_ptr<Tensor>> ConcatBackward(const std::shared_ptr<Tensor
 
     return grads;
 }
+
 } // namespace infini_train::kernels::cuda
 
 #define REGISTER_CUDA_CONCAT_KERNEL(kernel_name)                                                                       \
diff --git a/infini_train/src/kernels/cuda/cross_entropy.cu b/infini_train/src/kernels/cuda/cross_entropy.cu
index e21900f5..30943d15 100644
--- a/infini_train/src/kernels/cuda/cross_entropy.cu
+++ b/infini_train/src/kernels/cuda/cross_entropy.cu
@@ -12,6 +12,7 @@
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
 
+#include "infini_train/src/core/cuda/cuda_dispatch.h"
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
@@ -70,7 +71,7 @@ __global__ void CrossEntropyForwardKernel(const InputType *__restrict__ input_pt
         const float target_val
             = common::cuda::Cast<float>(input_ptr[base + common::cuda::Cast<size_t>(shared.target_class)])
             - shared.max_logit;
-        loss_ptr[sample_idx] = logf(shared.sum_exp) - target_val;
+        loss_ptr[sample_idx] = common::cuda::Cast<InputType>(logf(shared.sum_exp) - target_val);
     }
 }
 
@@ -84,35 +85,42 @@ std::shared_ptr<Tensor> CrossEntropyForward(const std::shared_ptr<Tensor> &input
     auto batched_output = std::make_shared<Tensor>(std::vector<int64_t>{bs}, input->Dtype(), input->GetDevice());
 
     constexpr int threads_per_block = 256;
-    int num_blocks = bs;
+    const int num_blocks = bs;
 
     auto device = target->GetDevice();
     const auto &cuda_stream = dynamic_cast<infini_train::core::cuda::CudaStream *>(
                                   infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
                                   ->cuda_stream();
 
-    return DispatchFunc<DataTypeList<DataType::kUINT8, DataType::kINT64>, DataTypeList<INFINI_ALL_FLOATING_TYPES>>(
+    infini_train::core::cuda::DispatchCudaFunc<DataTypeList<DataType::kUINT8, DataType::kINT64>,
+                                               DataTypeList<INFINI_ALL_FLOATING_TYPES>>(
         {target->Dtype(), input->Dtype()},
         [=]<typename Ttarget, typename Tinput>() {
             const Ttarget *target_ptr = static_cast<const Ttarget *>(target->DataPtr());
             const Tinput *input_ptr = static_cast<const Tinput *>(input->DataPtr());
             Tinput *batched_loss_ptr = static_cast<Tinput *>(batched_output->DataPtr());
+
             // FIXME(dcj): do reduce on GPU
             CrossEntropyForwardKernel<threads_per_block, Ttarget, Tinput>
                 <<<num_blocks, threads_per_block, 0, cuda_stream>>>(input_ptr, target_ptr, batched_loss_ptr, bs,
                                                                     num_classes);
-
-            auto loss_cpu = batched_output->To(Device());
-            auto loss = std::make_shared<Tensor>(std::vector<int64_t>{}, input->Dtype(), Device());
-            auto loss_cpu_typed_ptr = static_cast<const Tinput *>(loss_cpu.DataPtr());
-            static_cast<Tinput *>(loss->DataPtr())[0]
-                = std::accumulate(loss_cpu_typed_ptr, loss_cpu_typed_ptr + bs, 0.0f,
-                                  [](float acc, const Tinput &val) { return acc + common::cuda::Cast<float>(val); })
-                / bs;
-
-            return std::make_shared<Tensor>(loss->To(input->GetDevice()));
         },
         "CUDA CrossEntropyForward");
+
+    // Route B note:
+    // Tinput may be __half / __nv_bfloat16, which should not be read directly on CPU.
+    // Cast to fp32 on device first, then move to CPU for host-side reduction.
+    auto batched_output_fp32 = std::make_shared<Tensor>(batched_output->To(DataType::kFLOAT32));
+    auto loss_cpu = batched_output_fp32->To(Device());
+
+    auto loss_cpu_scalar = std::make_shared<Tensor>(std::vector<int64_t>{}, DataType::kFLOAT32, Device());
+    const float *loss_cpu_typed_ptr = static_cast<const float *>(loss_cpu.DataPtr());
+    static_cast<float *>(loss_cpu_scalar->DataPtr())[0]
+        = std::accumulate(loss_cpu_typed_ptr, loss_cpu_typed_ptr + bs, 0.0f) / static_cast<float>(bs);
+
+    // Move back to original device, then cast back to input dtype on CUDA side.
+    auto loss_dev_fp32 = std::make_shared<Tensor>(loss_cpu_scalar->To(input->GetDevice()));
+    return std::make_shared<Tensor>(loss_dev_fp32->To(input->Dtype()));
 }
 
 template <size_t BLOCK_SIZE, typename TargetType, typename InputType>
@@ -191,29 +199,34 @@ std::shared_ptr<Tensor> CrossEntropyBackward(const std::shared_ptr<Tensor> &inpu
     auto grad_input = std::make_shared<Tensor>(input_casted->Dims(), input_casted->Dtype(), grad_output->GetDevice());
 
     constexpr int threads_per_block = 256;
-    int num_blocks = bs;
+    const int num_blocks = bs;
 
     auto device = target->GetDevice();
     const auto &cuda_stream = dynamic_cast<infini_train::core::cuda::CudaStream *>(
                                   infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
                                   ->cuda_stream();
 
-    DispatchFunc<DataTypeList<DataType::kUINT8, DataType::kINT64>, DataTypeList<INFINI_ALL_FLOATING_TYPES>>(
+    // Zero init without depending on Fill<T> supporting CUDA native types.
+    CUDA_CHECK(cudaMemsetAsync(grad_input->DataPtr(), 0, grad_input->SizeInBytes(), cuda_stream));
+
+    infini_train::core::cuda::DispatchCudaFunc<DataTypeList<DataType::kUINT8, DataType::kINT64>,
+                                               DataTypeList<INFINI_ALL_FLOATING_TYPES>>(
         {target->Dtype(), input_casted->Dtype()},
         [=]<typename Ttarget, typename Tinput>() {
-            grad_input->Fill<Tinput>(0);
             const Tinput *output_grad_ptr = static_cast<const Tinput *>(grad_output->DataPtr());
             const Ttarget *target_ptr = static_cast<const Ttarget *>(target->DataPtr());
             const Tinput *input_ptr = static_cast<const Tinput *>(input_casted->DataPtr());
             Tinput *input_grad_ptr = static_cast<Tinput *>(grad_input->DataPtr());
+
             CrossEntropyBackwardKernel<threads_per_block, Ttarget, Tinput>
                 <<<num_blocks, threads_per_block, 0, cuda_stream>>>(input_ptr, input_grad_ptr, target_ptr,
                                                                     output_grad_ptr, bs, num_classes);
         },
         "CUDA CrossEntropyBackward");
 
-    return {grad_input};
+    return grad_input;
 }
+
 } // namespace infini_train::kernels::cuda
 
 #define REGISTER_CUDA_CROSS_ENTROPY_KERNEL(kernel_name)                                                                \
diff --git a/infini_train/src/kernels/cuda/elementwise.cu b/infini_train/src/kernels/cuda/elementwise.cu
index 1b9fe9eb..a77b9c9d 100644
--- a/infini_train/src/kernels/cuda/elementwise.cu
+++ b/infini_train/src/kernels/cuda/elementwise.cu
@@ -650,17 +650,17 @@ std::shared_ptr<Tensor> UnaryBackward(const std::shared_ptr<Tensor> &grad_output
 
     switch (promoted_type) {
         DISPATCH_CASE(WRAP({
-                          output->Fill<float>(0.0f);
+                          output->Fill(0.0);
                           LaunchBackward<256, float>(unary_fn, output, grad_output_promoted, a_promoted);
                       }),
                       DataType::kFLOAT32)
         DISPATCH_CASE(WRAP({
-                          output->Fill<nv_bfloat16>(0);
+                          output->Fill(0.0);
                           LaunchBackward<256, nv_bfloat16>(unary_fn, output, grad_output_promoted, a_promoted);
                       }),
                       DataType::kBFLOAT16)
         DISPATCH_CASE(WRAP({
-                          output->Fill<int64_t>(0);
+                          output->Fill(0.0);
                           LaunchBackward<256, int64_t>(unary_fn, output, grad_output_promoted, a_promoted);
                       }),
                       DataType::kINT64)
@@ -745,23 +745,23 @@ BinaryBackward(const std::shared_ptr<Tensor> &grad_output, const std::shared_ptr
 
     switch (promoted_type) {
         DISPATCH_CASE(WRAP({
-                          grad_a->Fill<float>(0.0f);
-                          grad_b->Fill<float>(0.0f);
+                          grad_a->Fill(0.0);
+                          grad_b->Fill(0.0);
                           LaunchBackward<256, float>(fn_a, fn_b, grad_a, grad_b, a_dims, b_dims, grad_output_promoted,
                                                      a_promoted, b_promoted);
                       }),
                       DataType::kFLOAT32)
         DISPATCH_CASE(WRAP({
-                          grad_a->Fill<nv_bfloat16>(0);
-                          grad_b->Fill<nv_bfloat16>(0);
+                          grad_a->Fill(0.0);
+                          grad_b->Fill(0.0);
                           LaunchBackward<256, nv_bfloat16>(fn_a, fn_b, grad_a, grad_b, a_dims, b_dims,
                                                            grad_output_promoted, a_promoted, b_promoted);
                       }),
                       DataType::kBFLOAT16)
         // FIXME(zbl): AtomicAdd does not support int64_t
         // DISPATCH_CASE(WRAP({
-        //                   grad_a->Fill<int64_t>(0);
-        //                   grad_b->Fill<int64_t>(0);
+        //                   grad_a->Fill(0.0);
+        //                   grad_b->Fill(0.0);
         //                   LaunchBackward<256, int64_t>(fn_a, fn_b, grad_a, grad_b, a_dims, b_dims, grad_output, a,
         //                   b);
         //               }),
diff --git a/infini_train/src/kernels/cuda/embedding.cu b/infini_train/src/kernels/cuda/embedding.cu
index b65699f1..0335f423 100644
--- a/infini_train/src/kernels/cuda/embedding.cu
+++ b/infini_train/src/kernels/cuda/embedding.cu
@@ -5,6 +5,7 @@
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
 
+#include "infini_train/src/core/cuda/cuda_dispatch.h"
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
@@ -50,7 +51,7 @@ std::shared_ptr<Tensor> EmbeddingForward(const std::shared_ptr<Tensor> &input, c
     int threads_per_block = 256;
     int num_blocks = (batch_size * max_seqlen * embed_dim + threads_per_block - 1) / threads_per_block;
 
-    DispatchFunc<INFINI_ALL_FLOATING_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_FLOATING_TYPES>(
         dtype,
         [=]<typename T>() {
             EmbeddingForwardKernel<<<num_blocks, threads_per_block, 0, cuda_stream>>>(
@@ -101,10 +102,10 @@ std::shared_ptr<Tensor> EmbeddingBackward(const std::shared_ptr<Tensor> &input,
     const int threads_per_block = 256;
     const int num_blocks = (num_tokens + threads_per_block - 1) / threads_per_block;
 
-    DispatchFunc<INFINI_ALL_FLOATING_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_FLOATING_TYPES>(
         dtype,
         [=]<typename T>() {
-            grad_weight->Fill<T>(0);
+            grad_weight->Fill(0.0);
             EmbeddingBackwardKernel<<<num_blocks, threads_per_block, 0, cuda_stream>>>(
                 static_cast<const int64_t *>(input->DataPtr()), static_cast<const T *>(grad_output->DataPtr()),
                 static_cast<T *>(grad_weight->DataPtr()), num_tokens, embedding_dim, vocab_size);
diff --git a/infini_train/src/kernels/cuda/fill.cu b/infini_train/src/kernels/cuda/fill.cu
index 8944e61a..e43a48b8 100644
--- a/infini_train/src/kernels/cuda/fill.cu
+++ b/infini_train/src/kernels/cuda/fill.cu
@@ -6,6 +6,7 @@
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
 
+#include "infini_train/src/core/cuda/cuda_dispatch.h"
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
@@ -27,7 +28,7 @@ void Fill(std::shared_ptr<Tensor> tensor, void *value_ptr) {
                                   infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
                                   ->cuda_stream();
 
-    DispatchFunc<INFINI_ALL_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
         tensor->Dtype(),
         [=]<typename T>() {
             FillKernel<T><<<num_blocks, threads_per_block, 0, cuda_stream>>>(
diff --git a/infini_train/src/kernels/cuda/gather.cu b/infini_train/src/kernels/cuda/gather.cu
index d318465c..8c65ee68 100644
--- a/infini_train/src/kernels/cuda/gather.cu
+++ b/infini_train/src/kernels/cuda/gather.cu
@@ -5,6 +5,7 @@
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
 
+#include "infini_train/src/core/cuda/cuda_dispatch.h"
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
@@ -99,7 +100,7 @@ std::shared_ptr<Tensor> IndexGatherForward(const std::shared_ptr<Tensor> &input,
     const int threads = 256;
     const int blocks = (total_elements + threads - 1) / threads;
 
-    DispatchFunc<INFINI_ALL_FLOATING_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_FLOATING_TYPES>(
         dtype,
         [=]<typename T>() {
             IndexGatherForwardKernel<T><<<blocks, threads, 0, stream>>>(
@@ -173,8 +174,7 @@ std::shared_ptr<Tensor> IndexGatherBackward(const std::shared_ptr<Tensor> &grad_
 
     auto dtype = grad_output->Dtype();
     auto grad_input = std::make_shared<Tensor>(in_dims, dtype, grad_output->GetDevice());
-    DispatchFunc<INFINI_ALL_TYPES>(
-        dtype, [=]<typename T>() { grad_input->Fill<T>(0); }, "CUDA IndexGatherBackwardZero");
+    grad_input->Fill(0.0);
 
     auto in_strides = ComputeStrides(in_dims);
     auto out_strides = ComputeStrides(idx_dims);
@@ -207,7 +207,7 @@ std::shared_ptr<Tensor> IndexGatherBackward(const std::shared_ptr<Tensor> &grad_
     const int threads = 256;
     const int blocks = (int)((total_elements + threads - 1) / threads);
 
-    DispatchFunc<INFINI_ALL_FLOATING_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_FLOATING_TYPES>(
         dtype,
         [=]<typename T>() {
             IndexGatherBackwardKernel<T><<<blocks, threads, 0, stream>>>(
diff --git a/infini_train/src/kernels/cuda/layernorm.cu b/infini_train/src/kernels/cuda/layernorm.cu
index c899f8ff..2aba905f 100644
--- a/infini_train/src/kernels/cuda/layernorm.cu
+++ b/infini_train/src/kernels/cuda/layernorm.cu
@@ -7,6 +7,7 @@
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
 
+#include "infini_train/src/core/cuda/cuda_dispatch.h"
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
@@ -85,11 +86,11 @@ LayerNormForward(const std::shared_ptr<Tensor> &input, const std::shared_ptr<Ten
                                   infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
                                   ->cuda_stream();
 
-    DispatchFunc<INFINI_ALL_FLOATING_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_FLOATING_TYPES>(
         dtype,
         [=]<typename T>() {
-            mean->Fill<float>(0);
-            rstd->Fill<float>(0);
+            mean->Fill(0.0);
+            rstd->Fill(0.0);
             LayerNormForwardKernel<BLOCK_SIZE><<<num_blocks, threads_per_block, 0, cuda_stream>>>(
                 static_cast<const T *>(input->DataPtr()), static_cast<const T *>(weight->DataPtr()),
                 static_cast<const T *>(bias->DataPtr()), static_cast<float *>(mean->DataPtr()),
@@ -179,12 +180,12 @@ LayerNormBackward(const std::shared_ptr<Tensor> &input, const std::shared_ptr<Te
     const auto &cuda_stream = dynamic_cast<infini_train::core::cuda::CudaStream *>(
                                   infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
                                   ->cuda_stream();
-    DispatchFunc<INFINI_ALL_FLOATING_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_FLOATING_TYPES>(
         dtype,
         [=]<typename T>() {
-            grad_input->Fill<T>(0);
-            grad_weight->Fill<T>(0);
-            grad_bias->Fill<T>(0);
+            grad_input->Fill(0.0);
+            grad_weight->Fill(0.0);
+            grad_bias->Fill(0.0);
             LayerNormBackwardKernel<BLOCK_SIZE><<<num_blocks, threads_per_block, 0, cuda_stream>>>(
                 static_cast<const T *>(input->DataPtr()), static_cast<const T *>(grad_output->DataPtr()),
                 static_cast<const float *>(mean->DataPtr()), static_cast<const float *>(rstd->DataPtr()),
diff --git a/infini_train/src/kernels/cuda/linear.cu b/infini_train/src/kernels/cuda/linear.cu
index 2f8b93d8..9b49f2bd 100644
--- a/infini_train/src/kernels/cuda/linear.cu
+++ b/infini_train/src/kernels/cuda/linear.cu
@@ -13,6 +13,7 @@
 #include "infini_train/include/tensor.h"
 
 #include "infini_train/src/core/cuda/cuda_blas_handle.h"
+#include "infini_train/src/core/cuda/cuda_dispatch.h"
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
@@ -127,13 +128,8 @@ MatmulBackward(const std::shared_ptr<Tensor> &input, const std::shared_ptr<Tenso
     auto grad_input = std::make_shared<Tensor>(input_dims, promoted_type, grad_output->GetDevice());
     auto grad_other = std::make_shared<Tensor>(other_dims, promoted_type, grad_output->GetDevice());
 
-    DispatchFunc<DataType::kFLOAT32, DataType::kBFLOAT16>(
-        promoted_type,
-        [=]<typename T>() {
-            grad_input->Fill<T>(0);
-            grad_other->Fill<T>(0);
-        },
-        "CUDA MatmulBackward");
+    grad_input->Fill(0.0);
+    grad_other->Fill(0.0);
 
     auto device = input_promoted->GetDevice();
     const float alpha = 1.0f, beta = 0.0f;
@@ -249,7 +245,7 @@ std::shared_ptr<Tensor> LinearForward(const std::shared_ptr<Tensor> &input, cons
         int threads_per_block = 256;
         int num_blocks = (bs * out_features + threads_per_block - 1) / threads_per_block;
 
-        DispatchFunc<DataType::kFLOAT32, DataType::kBFLOAT16>(
+        core::cuda::DispatchCudaFunc<DataType::kFLOAT32, DataType::kBFLOAT16>(
             dtype,
             [=]<typename T>() {
                 BiasCopyKernel<<<num_blocks, threads_per_block, 0, cuda_stream>>>(
@@ -257,8 +253,7 @@ std::shared_ptr<Tensor> LinearForward(const std::shared_ptr<Tensor> &input, cons
             },
             "CUDA LinearForward");
     } else {
-        DispatchFunc<DataType::kFLOAT32, DataType::kBFLOAT16>(
-            input->Dtype(), [=]<typename T>() { output->Fill<T>(0); }, "CUDA LinearForward");
+        output->Fill(0.0);
     }
 
     const float alpha = 1.0f;
@@ -354,17 +349,13 @@ LinearBackward(const std::shared_ptr<Tensor> &input, const std::shared_ptr<Tenso
     auto grad_weight = std::make_shared<Tensor>(weight_dims, promoted_type, grad_output->GetDevice());
     std::shared_ptr<Tensor> grad_bias = nullptr;
 
-    auto initialize_gradients = [&](auto zero_value, DataType dtype) {
-        using T = decltype(zero_value);
-        grad_input->Fill<T>(zero_value);
-        grad_weight->Fill<T>(zero_value);
-        if (bias) {
-            grad_bias = std::make_shared<Tensor>(std::vector<int64_t>{out_features}, dtype, grad_output->GetDevice());
-            grad_bias->Fill<T>(zero_value);
-        }
-    };
-    DispatchFunc<DataType::kFLOAT32, DataType::kBFLOAT16>(
-        promoted_type, [=]<typename T>() { initialize_gradients(T(0), promoted_type); }, "CUDA LinearBackward");
+    grad_input->Fill(0.0);
+    grad_weight->Fill(0.0);
+    if (bias) {
+        grad_bias
+            = std::make_shared<Tensor>(std::vector<int64_t>{out_features}, promoted_type, grad_output->GetDevice());
+        grad_bias->Fill(0.0);
+    }
 
     auto device = input_promoted->GetDevice();
     const auto &cuda_stream = dynamic_cast<infini_train::core::cuda::CudaStream *>(
diff --git a/infini_train/src/kernels/cuda/outer.cu b/infini_train/src/kernels/cuda/outer.cu
index 64303708..53c621f1 100644
--- a/infini_train/src/kernels/cuda/outer.cu
+++ b/infini_train/src/kernels/cuda/outer.cu
@@ -12,6 +12,7 @@
 #include "infini_train/include/tensor.h"
 
 #include "infini_train/src/core/cuda/cuda_blas_handle.h"
+#include "infini_train/src/core/cuda/cuda_dispatch.h"
 
 namespace infini_train::kernels::cuda {
 std::shared_ptr<Tensor> OuterForward(const std::shared_ptr<Tensor> &input, const std::shared_ptr<Tensor> &other) {
@@ -94,11 +95,11 @@ std::tuple<std::shared_ptr<Tensor>, std::shared_ptr<Tensor>> OuterBackward(const
     auto grad_input = std::make_shared<Tensor>(std::vector<int64_t>{M}, promoted_type, grad_output->GetDevice());
     auto grad_other = std::make_shared<Tensor>(std::vector<int64_t>{N}, promoted_type, grad_output->GetDevice());
 
-    DispatchFunc<DataType::kFLOAT32, DataType::kBFLOAT16>(
+    core::cuda::DispatchCudaFunc<DataType::kFLOAT32, DataType::kBFLOAT16>(
         promoted_type,
         [=]<typename T>() {
-            grad_input->Fill<T>(0);
-            grad_other->Fill<T>(0);
+            grad_input->Fill(0.0);
+            grad_other->Fill(0.0);
         },
         "CUDA OuterBackward");
 
diff --git a/infini_train/src/kernels/cuda/reduction.cu b/infini_train/src/kernels/cuda/reduction.cu
index c54704b2..cdbfc0a3 100644
--- a/infini_train/src/kernels/cuda/reduction.cu
+++ b/infini_train/src/kernels/cuda/reduction.cu
@@ -7,6 +7,7 @@
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
 
+#include "infini_train/src/core/cuda/cuda_dispatch.h"
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
@@ -141,7 +142,7 @@ std::shared_ptr<Tensor> ReduceOpForward(const std::shared_ptr<Tensor> &input, co
                                   infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
                                   ->cuda_stream();
 
-    DispatchFunc<INFINI_ALL_FLOATING_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_FLOATING_TYPES>(
         dtype,
         [=]<typename T>() {
             GenericReduceKernel<T, ReduceFunc, FinalizeOp<T>, BLOCK_SIZE>
@@ -177,10 +178,10 @@ std::shared_ptr<Tensor> ReduceOpBackward(const std::shared_ptr<Tensor> &grad_out
                                   infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
                                   ->cuda_stream();
 
-    DispatchFunc<INFINI_ALL_FLOATING_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_FLOATING_TYPES>(
         dtype,
         [=]<typename T>() {
-            grad_input->Fill<T>(0);
+            grad_input->Fill(0.0);
             GenericReduceBackwardKernel<<<num_blocks, threads_per_block, 0, cuda_stream>>>(
                 static_cast<T *>(grad_input->DataPtr()), static_cast<const T *>(grad_output->DataPtr()),
                 input ? static_cast<const T *>(input->DataPtr()) : nullptr,
diff --git a/infini_train/src/kernels/cuda/slice.cu b/infini_train/src/kernels/cuda/slice.cu
index 29a8f1ae..646a3452 100644
--- a/infini_train/src/kernels/cuda/slice.cu
+++ b/infini_train/src/kernels/cuda/slice.cu
@@ -8,6 +8,7 @@
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
 
+#include "infini_train/src/core/cuda/cuda_dispatch.h"
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
@@ -48,8 +49,7 @@ std::shared_ptr<Tensor> SliceForward(const std::shared_ptr<Tensor> &input, const
     auto dtype = input->Dtype();
     auto new_tensor = std::make_shared<Tensor>(new_dims, dtype, input->GetDevice());
     // NOTE(zbl): must initialize with 0
-    DispatchFunc<INFINI_ALL_TYPES>(
-        dtype, [=]<typename T>() { new_tensor->Fill<T>(0); }, "CUDA SliceForward");
+    new_tensor->Fill(0.0);
 
     std::vector<int64_t> src_strides(dims.size(), 0), dst_strides(new_dims.size(), 0);
     int64_t stride = 1;
@@ -92,7 +92,7 @@ std::shared_ptr<Tensor> SliceForward(const std::shared_ptr<Tensor> &input, const
     int threads_per_block = 256;
     int num_blocks = (total_elements + threads_per_block - 1) / threads_per_block;
 
-    DispatchFunc<INFINI_ALL_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
         dtype,
         [=]<typename T>() {
             SliceForwardKernel<<<num_blocks, threads_per_block, 0, stream>>>(
@@ -141,8 +141,7 @@ std::shared_ptr<Tensor> SliceBackward(const std::shared_ptr<Tensor> &grad_output
 
     auto grad_output_dtype = grad_output->Dtype();
     auto grad_input = std::make_shared<Tensor>(input->Dims(), grad_output_dtype, grad_output->GetDevice());
-    DispatchFunc<INFINI_ALL_TYPES>(
-        grad_output_dtype, [=]<typename T>() { grad_input->Fill<T>(0); }, "CUDA SliceBackward");
+    grad_input->Fill(0.0);
 
     std::vector<int64_t> src_strides(dims.size());
     int64_t stride = 1;
@@ -186,7 +185,7 @@ std::shared_ptr<Tensor> SliceBackward(const std::shared_ptr<Tensor> &grad_output
     int threads_per_block = 256;
     int num_blocks = (total_elements + threads_per_block - 1) / threads_per_block;
 
-    DispatchFunc<INFINI_ALL_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
         grad_output_dtype,
         [=]<typename T>() {
             SliceBackwardKernel<<<num_blocks, threads_per_block, 0, stream>>>(
diff --git a/infini_train/src/kernels/cuda/softmax.cu b/infini_train/src/kernels/cuda/softmax.cu
index 943831e1..45e01505 100644
--- a/infini_train/src/kernels/cuda/softmax.cu
+++ b/infini_train/src/kernels/cuda/softmax.cu
@@ -12,6 +12,7 @@
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
 
+#include "infini_train/src/core/cuda/cuda_dispatch.h"
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
@@ -200,8 +201,7 @@ std::shared_ptr<Tensor> SoftmaxBackward(const std::shared_ptr<Tensor> &grad_outp
     CHECK(dim >= 0 && dim < output->Dims().size());
 
     auto grad_input = std::make_shared<Tensor>(output_dims, promoted_type, output->GetDevice());
-    DispatchFunc<INFINI_ALL_TYPES>(
-        promoted_type, [=]<typename T>() { grad_input->Fill<T>(0); }, "CUDA SoftmaxBackward");
+    grad_input->Fill(0.0);
 
     switch (promoted_type) {
         DISPATCH_CASE(WRAP(LaunchBackward<256, float>(grad_input, grad_output_promoted, output_promoted, dim);),
diff --git a/infini_train/src/kernels/cuda/split.cu b/infini_train/src/kernels/cuda/split.cu
index ec258976..52fdd27e 100644
--- a/infini_train/src/kernels/cuda/split.cu
+++ b/infini_train/src/kernels/cuda/split.cu
@@ -7,6 +7,7 @@
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
 
+#include "infini_train/src/core/cuda/cuda_dispatch.h"
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
@@ -58,7 +59,7 @@ std::vector<std::shared_ptr<Tensor>> SplitForward(const std::shared_ptr<Tensor>
                                       infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
                                       ->cuda_stream();
 
-        DispatchFunc<INFINI_ALL_TYPES>(
+        core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
             dtype,
             [=]<typename T>() {
                 SplitForwardKernel<<<num_blocks, threads_per_block, 0, cuda_stream>>>(
@@ -113,7 +114,7 @@ std::shared_ptr<Tensor> LaunchSplitBackward(const std::vector<int64_t> &input_di
     const auto &grad = grad_outputs[0];
     auto dtype = grad->Dtype();
     auto grad_input = std::make_shared<Tensor>(input_dims, dtype, grad->GetDevice());
-    grad_input->Fill<T>(0);
+    grad_input->Fill(0.0);
 
     int64_t N = std::accumulate(input_dims.begin(), input_dims.begin() + dim, 1, std::multiplies<int64_t>());
     int64_t W = std::accumulate(input_dims.begin() + dim + 1, input_dims.end(), 1, std::multiplies<int64_t>());
@@ -165,7 +166,7 @@ std::shared_ptr<Tensor> SplitBackward(const std::vector<int64_t> &input_dims, in
     CHECK_GE(dim, 0) << "Currently we do not support negative dimension";
     CHECK_LT(dim, input_dims.size());
 
-    return DispatchFunc<INFINI_ALL_TYPES>(
+    return core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
         grad_outputs[0]->Dtype(),
         [=]<typename T>() { return LaunchSplitBackward<T>(input_dims, split_size, dim, grad_outputs); },
         "CUDA SplitBackward");
diff --git a/infini_train/src/kernels/cuda/stack.cu b/infini_train/src/kernels/cuda/stack.cu
index 56067cb8..8941da1d 100644
--- a/infini_train/src/kernels/cuda/stack.cu
+++ b/infini_train/src/kernels/cuda/stack.cu
@@ -11,6 +11,7 @@
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
 
+#include "infini_train/src/core/cuda/cuda_dispatch.h"
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
@@ -60,7 +61,7 @@ std::shared_ptr<Tensor> StackForward(const std::vector<std::shared_ptr<Tensor>>
     int threads_per_block = 256;
     int num_blocks = (total + threads_per_block - 1) / threads_per_block;
 
-    DispatchFunc<INFINI_ALL_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
         dtype,
         [=]<typename T>() {
             std::vector<const T *> host_input_ptrs;
@@ -112,8 +113,7 @@ std::vector<std::shared_ptr<Tensor>> StackBackward(const std::vector<int64_t> &i
     std::vector<std::shared_ptr<Tensor>> grads;
     for (int i = 0; i < num_inputs; ++i) {
         auto t = std::make_shared<Tensor>(base_dims, dtype, grad_output->GetDevice());
-        DispatchFunc<INFINI_ALL_TYPES>(
-            dtype, [=]<typename T>() { t->Fill<T>(0); }, "CUDA StackBackward");
+        t->Fill(0.0);
         grads.push_back(t);
     }
 
@@ -129,7 +129,7 @@ std::vector<std::shared_ptr<Tensor>> StackBackward(const std::vector<int64_t> &i
     int threads_per_block = 256;
     int num_blocks = (total + threads_per_block - 1) / threads_per_block;
 
-    DispatchFunc<INFINI_ALL_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
         dtype,
         [=]<typename T>() {
             std::vector<T *> host_ptrs;
diff --git a/infini_train/src/kernels/cuda/transform.cu b/infini_train/src/kernels/cuda/transform.cu
index 62d316b1..10212815 100644
--- a/infini_train/src/kernels/cuda/transform.cu
+++ b/infini_train/src/kernels/cuda/transform.cu
@@ -10,6 +10,7 @@
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
 
+#include "infini_train/src/core/cuda/cuda_dispatch.h"
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
@@ -46,7 +47,7 @@ std::shared_ptr<Tensor> TrilForward(const std::shared_ptr<Tensor> &input, int64_
                                   infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
                                   ->cuda_stream();
 
-    DispatchFunc<INFINI_ALL_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
         input->Dtype(),
         [=]<typename T>() {
             TrilForwardKernel<<<num_blocks, threads_per_block, 0, cuda_stream>>>(
@@ -89,10 +90,10 @@ std::shared_ptr<Tensor> TrilBackward(const std::shared_ptr<Tensor> &grad_output,
                                   infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
                                   ->cuda_stream();
 
-    DispatchFunc<INFINI_ALL_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
         dtype,
         [=]<typename T>() {
-            grad_input->Fill<T>(0);
+            grad_input->Fill(0.0);
             TrilBackwardKernel<<<num_blocks, threads_per_block, 0, cuda_stream>>>(
                 static_cast<const T *>(grad_output->DataPtr()), static_cast<T *>(grad_input->DataPtr()), rows, cols,
                 diagonal);
@@ -134,7 +135,7 @@ std::shared_ptr<Tensor> TriuForward(const std::shared_ptr<Tensor> &input, int64_
                                   infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
                                   ->cuda_stream();
 
-    DispatchFunc<INFINI_ALL_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
         input->Dtype(),
         [=]<typename T>() {
             TriuForwardKernel<<<num_blocks, threads_per_block, 0, cuda_stream>>>(
@@ -176,10 +177,10 @@ std::shared_ptr<Tensor> TriuBackward(const std::shared_ptr<Tensor> &grad_output,
                                   infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
                                   ->cuda_stream();
 
-    DispatchFunc<INFINI_ALL_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
         dtype,
         [=]<typename T>() {
-            grad_input->Fill<T>(0);
+            grad_input->Fill(0.0);
             TriuBackwardKernel<<<num_blocks, threads_per_block, 0, cuda_stream>>>(
                 static_cast<const T *>(grad_output->DataPtr()), static_cast<T *>(grad_input->DataPtr()), rows, cols,
                 diagonal);
@@ -268,10 +269,10 @@ std::shared_ptr<Tensor> TransposeForward(const std::shared_ptr<Tensor> &input, i
     int threads_per_block = 256;
     int num_blocks = (num_elements + threads_per_block - 1) / threads_per_block;
 
-    DispatchFunc<INFINI_ALL_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
         dtype,
         [=]<typename T>() {
-            output->Fill<T>(0);
+            output->Fill(0.0);
             TransposeForwardKernel<<<num_blocks, threads_per_block, 0, stream>>>(
                 static_cast<const T *>(input->DataPtr()), static_cast<T *>(output->DataPtr()), in_dims_dev,
                 in_strides_dev, out_strides_dev, ndim, dim0, dim1, num_elements);
@@ -370,7 +371,7 @@ std::shared_ptr<Tensor> MaskForward(const std::shared_ptr<Tensor> &input, const
         int64_t inner = input->NumElements() / rows;
         int num_blocks = static_cast<int>((input->NumElements() + threads_per_block - 1) / threads_per_block);
 
-        DispatchFunc<INFINI_ALL_TYPES>(
+        core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
             dtype,
             [=]<typename T>() {
                 MaskLeadsForwardKernel<T><<<num_blocks, threads_per_block, 0, cuda_stream>>>(
@@ -383,7 +384,7 @@ std::shared_ptr<Tensor> MaskForward(const std::shared_ptr<Tensor> &input, const
         int64_t batch_size = input->NumElements() / mask_size;
         int num_blocks = static_cast<int>((input->NumElements() + threads_per_block - 1) / threads_per_block);
 
-        DispatchFunc<INFINI_ALL_TYPES>(
+        core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
             dtype,
             [=]<typename T>() {
                 MaskForwardKernel<T><<<num_blocks, threads_per_block, 0, cuda_stream>>>(
@@ -434,10 +435,10 @@ std::shared_ptr<Tensor> MaskBackward(const std::shared_ptr<Tensor> &grad_output,
         int64_t inner = grad_output->NumElements() / rows;
         int num_blocks = static_cast<int>((grad_output->NumElements() + threads_per_block - 1) / threads_per_block);
 
-        DispatchFunc<INFINI_ALL_TYPES>(
+        core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
             dtype,
             [=]<typename T>() {
-                grad_input->Fill<T>(0);
+                grad_input->Fill(0.0);
                 MaskLeadsBackwardKernel<T><<<num_blocks, threads_per_block, 0, cuda_stream>>>(
                     static_cast<const T *>(grad_output->DataPtr()), static_cast<const T *>(mask_casted->DataPtr()),
                     static_cast<T *>(grad_input->DataPtr()), rows, inner);
@@ -448,10 +449,10 @@ std::shared_ptr<Tensor> MaskBackward(const std::shared_ptr<Tensor> &grad_output,
         int64_t batch_size = grad_output->NumElements() / mask_size;
         int num_blocks = static_cast<int>((grad_output->NumElements() + threads_per_block - 1) / threads_per_block);
 
-        DispatchFunc<INFINI_ALL_TYPES>(
+        core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
             dtype,
             [=]<typename T>() {
-                grad_input->Fill<T>(0);
+                grad_input->Fill(0.0);
                 MaskBackwardKernel<T><<<num_blocks, threads_per_block, 0, cuda_stream>>>(
                     static_cast<const T *>(grad_output->DataPtr()), static_cast<const T *>(mask_casted->DataPtr()),
                     static_cast<T *>(grad_input->DataPtr()), static_cast<int>(batch_size), static_cast<int>(mask_size));
@@ -503,7 +504,7 @@ std::shared_ptr<Tensor> RepeatInterleaveForward(const std::shared_ptr<Tensor> &i
                                   infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
                                   ->cuda_stream();
 
-    DispatchFunc<INFINI_ALL_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
         input->Dtype(),
         [=]<typename T>() {
             RepeatInterleaveForwardKernel<<<num_blocks, threads_per_block, 0, cuda_stream>>>(
@@ -561,10 +562,10 @@ std::shared_ptr<Tensor> RepeatInterleaveBackward(const std::shared_ptr<Tensor> &
                                   infini_train::core::GetDeviceGuardImpl(device.type())->GetStream(device))
                                   ->cuda_stream();
 
-    DispatchFunc<INFINI_ALL_TYPES>(
+    core::cuda::DispatchCudaFunc<INFINI_ALL_TYPES>(
         grad_output->Dtype(),
         [=]<typename T>() {
-            grad_input->Fill<T>(0);
+            grad_input->Fill(0.0);
             RepeatInterleaveBackwardKernel<<<num_blocks, threads_per_block, 0, cuda_stream>>>(
                 static_cast<const T *>(grad_output->DataPtr()), static_cast<T *>(grad_input->DataPtr()), outer,
                 dim_size, inner, repeat);
diff --git a/infini_train/src/kernels/cuda/vocab_parallel_cross_entropy.cu b/infini_train/src/kernels/cuda/vocab_parallel_cross_entropy.cu
index a626eb63..e0b7c42b 100644
--- a/infini_train/src/kernels/cuda/vocab_parallel_cross_entropy.cu
+++ b/infini_train/src/kernels/cuda/vocab_parallel_cross_entropy.cu
@@ -8,6 +8,7 @@
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/tensor.h"
 
+#include "infini_train/src/core/cuda/cuda_dispatch.h"
 #include "infini_train/src/core/cuda/cuda_stream.h"
 
 namespace infini_train::kernels::cuda {
@@ -93,7 +94,8 @@ VocabParallelCrossEntropyBackward(const std::shared_ptr<Tensor> &grad_output,
     constexpr int threads_per_block = 256;
     const int num_blocks = static_cast<int>(rows);
 
-    DispatchFunc<DataTypeList<DataType::kUINT8, DataType::kINT64>, DataTypeList<INFINI_ALL_FLOATING_TYPES>>(
+    core::cuda::DispatchCudaFunc<DataTypeList<DataType::kUINT8, DataType::kINT64>,
+                                 DataTypeList<INFINI_ALL_FLOATING_TYPES>>(
         {masked_target->Dtype(), softmax_local->Dtype()},
         [=]<typename Tindex, typename Tinput>() {
             using Tmask = Tinput;
diff --git a/infini_train/src/nn/init.cc b/infini_train/src/nn/init.cc
index 27f473c2..5fab7f99 100644
--- a/infini_train/src/nn/init.cc
+++ b/infini_train/src/nn/init.cc
@@ -7,9 +7,6 @@
 #include <random>
 #include <unordered_set>
 
-#ifdef USE_CUDA
-#include <cuda_runtime_api.h>
-#endif
 #ifdef USE_OMP
 #include <omp.h>
 #endif
@@ -213,12 +210,8 @@ std::shared_ptr<Tensor> Arange(int64_t start, int64_t end, DataType dtype, Devic
         ARANGE_CASE(DataType::kINT32, int32_t)
         ARANGE_CASE(DataType::kUINT64, uint64_t)
         ARANGE_CASE(DataType::kINT64, int64_t)
-
-#ifdef USE_CUDA
-        ARANGE_CASE(DataType::kBFLOAT16, nv_bfloat16)
-        ARANGE_CASE(DataType::kFLOAT16, half)
-#endif
-
+        ARANGE_CASE(DataType::kBFLOAT16, BF16)
+        ARANGE_CASE(DataType::kFLOAT16, FP16)
         ARANGE_CASE(DataType::kFLOAT32, float)
         ARANGE_CASE(DataType::kFLOAT64, double)
 
diff --git a/infini_train/src/nn/parallel/process_group.cc b/infini_train/src/nn/parallel/process_group.cc
index d9508592..232f2bd8 100644
--- a/infini_train/src/nn/parallel/process_group.cc
+++ b/infini_train/src/nn/parallel/process_group.cc
@@ -449,7 +449,7 @@ ProcessGroupNCCL::ReduceAddCoalesced(const std::vector<std::vector<std::shared_p
 
     for (size_t i = 0; i < grads[0].size(); ++i) {
         outputs.push_back(std::make_shared<Tensor>(grads[0][i]->Dims(), grads[0][i]->Dtype(), destination));
-        outputs[i]->Fill<float>(0.0f);
+        outputs[i]->Fill(0.0);
     }
     for (size_t i = 0; i < grads.size(); ++i) {
         devices.push_back(grads[i][0]->GetDevice());
diff --git a/infini_train/src/optimizer.cc b/infini_train/src/optimizer.cc
index 8eacafa3..85a602fe 100644
--- a/infini_train/src/optimizer.cc
+++ b/infini_train/src/optimizer.cc
@@ -38,13 +38,8 @@ Adam::Adam(const std::vector<std::shared_ptr<Tensor>> &params, float learning_ra
     for (const auto &param : params_) {
         m_.emplace_back(std::make_shared<Tensor>(param->Dims(), param->Dtype(), param->GetDevice()));
         v_.emplace_back(std::make_shared<Tensor>(param->Dims(), param->Dtype(), param->GetDevice()));
-        DispatchFunc<INFINI_ALL_TYPES>(
-            param->Dtype(),
-            [this]<typename T>() {
-                m_.back()->Fill<T>(0);
-                v_.back()->Fill<T>(0);
-            },
-            "CUDA Adam");
+        m_.back()->Fill(0.0);
+        v_.back()->Fill(0.0);
     }
 }
 
diff --git a/infini_train/src/tensor.cc b/infini_train/src/tensor.cc
index 774e36ad..4db8d7f4 100644
--- a/infini_train/src/tensor.cc
+++ b/infini_train/src/tensor.cc
@@ -23,6 +23,7 @@
 #include "infini_train/include/device.h"
 #include "infini_train/include/dispatcher.h"
 #include "infini_train/include/nn/init.h"
+#include "infini_train/include/tensor_fill_impl.h"
 
 namespace infini_train {
 TensorBuffer::TensorBuffer(Device device, size_t size) : device_(device), size_(size) {
@@ -102,38 +103,6 @@ size_t Tensor::NumElements() const { return num_elements_; }
 
 DataType Tensor::Dtype() const { return dtype_; }
 
-template <typename T> void Tensor::Fill(T value) {
-    auto device = GetDevice();
-    core::DeviceGuard guard(device);
-
-    DataType dtype = Dtype();
-
-    uint64_t storage = 0;
-
-    DispatchFunc<INFINI_ALL_TYPES>(Dtype(), [&storage, value]<typename TargetT>() {
-        TargetT casted_value = static_cast<TargetT>(value);
-        std::memcpy((void *)(&storage), &casted_value, sizeof(TargetT));
-    });
-
-    auto kernel = Dispatcher::Instance().GetKernel({device.type(), "Fill"});
-    kernel.Call<void>(shared_from_this(), static_cast<void *>(&storage));
-}
-
-template void Tensor::Fill<uint8_t>(uint8_t);
-template void Tensor::Fill<int8_t>(int8_t);
-template void Tensor::Fill<uint16_t>(uint16_t);
-template void Tensor::Fill<int16_t>(int16_t);
-template void Tensor::Fill<uint32_t>(uint32_t);
-template void Tensor::Fill<int32_t>(int32_t);
-template void Tensor::Fill<uint64_t>(uint64_t);
-template void Tensor::Fill<int64_t>(int64_t);
-template void Tensor::Fill<float>(float);
-template void Tensor::Fill<double>(double);
-#ifdef USE_CUDA
-template void Tensor::Fill<nv_bfloat16>(nv_bfloat16);
-template void Tensor::Fill<half>(half);
-#endif
-
 Eigen::Map<Eigen::Matrix<float, Eigen::Dynamic, Eigen::Dynamic, Eigen::RowMajor>> Tensor::EigenMatrix() {
     const int64_t bs = std::accumulate(dims_.rbegin() + 1, dims_.rend(), 1, std::multiplies<int64_t>());
     return Eigen::Map<Eigen::Matrix<float, Eigen::Dynamic, Eigen::Dynamic, Eigen::RowMajor>>(
@@ -526,7 +495,7 @@ void Tensor::ZeroGrad(bool set_to_none) {
         if (set_to_none) {
             grad_.reset();
         } else {
-            grad_->Fill<float>(0.0f);
+            grad_->Fill(0.0);
         }
     }
 }
@@ -545,7 +514,7 @@ void Tensor::Backward(std::shared_ptr<Tensor> gradient, bool retain_graph, bool
         if (!gradient) {
             CHECK_EQ(dims_.size(), 0);
             gradient = std::make_shared<Tensor>(std::vector<int64_t>{}, dtype_, GetDevice());
-            gradient->Fill<float>(1.0f);
+            gradient->Fill(1.0);
         } else {
             CHECK_EQ(static_cast<int>(GetDevice().type()), static_cast<int>(gradient->GetDevice().type()));
             CHECK_EQ(static_cast<int>(dtype_), static_cast<int>(gradient->Dtype()));
diff --git a/test/hook/test_precision_check.cc b/test/hook/test_precision_check.cc
index 65c8258c..eae3aaf3 100644
--- a/test/hook/test_precision_check.cc
+++ b/test/hook/test_precision_check.cc
@@ -40,7 +40,7 @@ class SimpleModel : public nn::Module {
 
 void RunModelForwardBackward(const std::shared_ptr<nn::Module> &model) {
     auto x = std::make_shared<Tensor>(std::vector<int64_t>{2, 3}, DataType::kFLOAT32);
-    x->Fill<float>(2.0f);
+    x->Fill(2.0f);
     x->RequiresGrad();
 
     std::vector<std::shared_ptr<Tensor>> inputs = {x};
@@ -55,11 +55,11 @@ void TestFunctionLevel(const std::string &config_str) {
     std::cout << "========================================" << std::endl;
 
     auto x = std::make_shared<Tensor>(std::vector<int64_t>{2, 3}, DataType::kFLOAT32);
-    x->Fill<float>(2.0f);
+    x->Fill(2.0f);
     x->RequiresGrad();
 
     auto y = std::make_shared<Tensor>(std::vector<int64_t>{2, 3}, DataType::kFLOAT32);
-    y->Fill<float>(3.0f);
+    y->Fill(3.0f);
     y->RequiresGrad();
 
     auto z = x->Mul(y);
@@ -87,7 +87,7 @@ void TestSimpleFormat() {
     std::cout << "========================================" << std::endl;
 
     auto x = std::make_shared<Tensor>(std::vector<int64_t>{2, 3}, DataType::kFLOAT32);
-    x->Fill<float>(2.0f);
+    x->Fill(2.0f);
     x->RequiresGrad();
 
     auto y = x->Mul(x);
@@ -104,7 +104,7 @@ void TestMd5Format() {
     std::cout << "========================================" << std::endl;
 
     auto x = std::make_shared<Tensor>(std::vector<int64_t>{2, 3}, DataType::kFLOAT32);
-    x->Fill<float>(2.0f);
+    x->Fill(2.0f);
     x->RequiresGrad();
 
     auto y = x->Mul(x);