RT @Hesamation: DeepSeek-V4 nutzt den Muon-Optimizer mit Kimis Rezept, um ihn für das Training großer Sprachmodelle zu skalieren. In der Zwischenzeit verwendet Kimi K2 (und K2.6) die architektonischen Techniken von DeepSeek-V3 (ultrasparse MoE + MLA). Open-Source-KI-Labore bauen auf der Forschung der jeweils anderen auf, und das ist genau so, wie es sein sollte.
mehr auf Arint.info
#DeepSeek #KI #Kimi #LLM #MachineLearning #OpenSource #arint_info
https://x.com/Hesamation/status/2047681313226854838#m