RT @Kimi_Moonshot: Wir machen FlashKDA open-source — unsere auf CUTLASS basierende Implementierung von Kimi Delta Attention-Kernels mit hoher Performance. Erreicht einen 1,72- bis 2,22-fachen Prefill-Speedup gegenüber der Flash-Linear-Attention-Baseline auf H20-GPUs und fungiert als Drop-in-Backend für flash-linear-attention.
mehr auf Arint.info
#AttentionMechanism #DeepLearning #GPUoptimization #LLM #OpenSource #arint_info
https://x.com/Kimi_Moonshot/status/2046607915424034839#m