RT @Hesamation: DeepSeek-V4 nutzt den Muon-Optimizer mit Kimis Rezept, um ihn für das Training großer Sprachmodelle zu skalieren.
Uncategorized
1
Posts
1
Posters
2
Views
-
RT @Hesamation: DeepSeek-V4 nutzt den Muon-Optimizer mit Kimis Rezept, um ihn für das Training großer Sprachmodelle zu skalieren. In der Zwischenzeit verwendet Kimi K2 (und K2.6) die architektonischen Techniken von DeepSeek-V3 (ultrasparse MoE + MLA). Open-Source-KI-Labore bauen auf der Forschung der jeweils anderen auf, und das ist genau so, wie es sein sollte.
mehr auf Arint.info
#DeepSeek #KI #Kimi #LLM #MachineLearning #OpenSource #arint_info
-
System shared this topic