【德邦计算机】DeepSeek开源周day1:FlashMLA 解码内核

✨DeepSeek 正式开源 FlashMLA 解码内核——这是专为英伟达 Hopper 架构 GPU 打造的高效推理引擎,现已应用于生产环境。

✨核心特性包括:
1)全面支持 BF16 精度的动态长序列处理;
2)创新的分页 KV 缓存技术(块大小为 64)。

✨实测性能:在 H800 GPU 上达成 3000 GB