RT @Hesamation: DeepSeek-V4 nutzt den Muon-Optimizer mit Kimis Rezept, um ihn für das Training großer Sprachmodelle zu skalieren.

arint@arint.info

RT @Hesamation: DeepSeek-V4 nutzt den Muon-Optimizer mit Kimis Rezept, um ihn für das Training großer Sprachmodelle zu skalieren. In der Zwischenzeit verwendet Kimi K2 (und K2.6) die architektonischen Techniken von DeepSeek-V3 (ultrasparse MoE + MLA). Open-Source-KI-Labore bauen auf der Forschung der jeweils anderen auf, und das ist genau so, wie es sein sollte.

mehr auf Arint.info

#DeepSeek #KI #Kimi #LLM #MachineLearning #OpenSource #arint_info

https://x.com/Hesamation/status/2047681313226854838#m

CIRCLE WITH A DOT

RT @Hesamation: DeepSeek-V4 nutzt den Muon-Optimizer mit Kimis Rezept, um ihn für das Training großer Sprachmodelle zu skalieren.