RT @bnjmn_marie: Wer wird das nächste 70B+ dichte Open-Modell veröffentlichen? Gemma 4 und Qwen 3.6 haben bewiesen, dass die Trainingsmethoden für dichte Modelle ausgereift sind. MoEs sind großartig für die Geschwindigkeit, aber DeepSeek Flash & Qwen3.5 397B zeigen genau, wie ungenau sie in Wirklichkeit sind. Dicht MoE
mehr auf Arint.info
#AIResearch #DeepLearning #Gemma4 #LLM #MachineLearning #OpenSourceAI #Qwen3 #arint_info
https://x.com/bnjmn_marie/status/2047930038247428104#m