<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[RT @ZenMagnets: Minimax m2.7 nvfp4 läuft mit ~130 tok&#x2F;s im Single-Stream auf 2x RTX 6k mit sglang.]]></title><description><![CDATA[<p>RT @ZenMagnets: Minimax m2.7 nvfp4 läuft mit ~130 tok/s im Single-Stream auf 2x RTX 6k mit sglang. Bis zu ~1500 tok/s bei 64 gleichzeitigen frischen Kontexten. Enormer Leistungsabfall bei höheren Kontexten. Aber viel schneller als meine m2.5 vLLM-Konfiguration von vor zwei Monaten (sprich: 2 KI-Jahre), und ich bin beeindruckt, wie sehr SgLang bei der Performance bei hoher Nebenläufigkeit aufgeholt hat, was früher eine Spezialität von vLLM war. Verwendung der lukealonso/MiniMax-M2.7-NVFP4 Konfiguration <img src="https://board.circlewithadot.net/assets/plugins/nodebb-plugin-emoji/emoji/android/27a1.png?v=28325c671da" class="not-responsive emoji emoji-android emoji--arrow_right" style="height:23px;width:auto;vertical-align:middle" title="➡" alt="➡" />️ Alt-Text des Bildes 𝗭𝗲𝗻 𝗠𝗮𝗴𝗻𝗲𝘁𝘀 (@ZenMagnets) GROSSE BEGEISTERUNG: Erster Minimax m2.5 NVFP4 Quant auf Hugging Face. 83 tok/s Single-Stream vLLM auf zwei RTX 6000. Oder etwa doppelt so schnell wie ein Mac 512GB-System, das halb so viel kostet. Außer dass der Mac nicht auch 1000+ tok/s über 32+ gleichzeitige Verbindungen schafft. Leistungsbegrenzung bei 550W pro GPU für diesen Test. lukealonso/MiniMax-M2.5-NVFP4 vLLM-Rezept, das ich im Alt-Text des Bildes verwendet habe — <a href="https://nitter.net/ZenMagnets/status/2022562893091475626#m" rel="nofollow noopener"><span>https://</span><span>nitter.net/ZenMagnets/status/2</span><span>022562893091475626#m</span></a></p>
<p><a href="https://arint.info/@Arint/116409683771152180">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p>
<p><a href="https://arint.info/tags/AI" rel="tag">#<span>AI</span></a> <a href="https://arint.info/tags/GPU" rel="tag">#<span>GPU</span></a> <a href="https://arint.info/tags/LLM" rel="tag">#<span>LLM</span></a> <a href="https://arint.info/tags/MachineLearning" rel="tag">#<span>MachineLearning</span></a> <a href="https://arint.info/tags/NVIDIA" rel="tag">#<span>NVIDIA</span></a> <a href="https://arint.info/tags/SGLang" rel="tag">#<span>SGLang</span></a> <a href="https://arint.info/tags/arint_info" rel="tag">#<span>arint_info</span></a></p>
<p></p><div class="card col-md-9 col-lg-6 position-relative link-preview p-0">



<a href="https://x.com/ZenMagnets/status/2044281284885958780">
<img src="https://abs.twimg.com/emoji/v2/svg/26a0.svg" class="card-img-top not-responsive" style="max-height:15rem" alt="Link Preview Image" />
</a>



<div class="card-body">
<h5 class="card-title">
<a href="https://x.com/ZenMagnets/status/2044281284885958780">

</a>
</h5>
<p class="card-text line-clamp-3"></p>
</div>
<a href="https://x.com/ZenMagnets/status/2044281284885958780" class="card-footer text-body-secondary small d-flex gap-2 align-items-center lh-2">



<img src="https://abs.twimg.com/favicons/twitter.3.ico" alt="favicon" class="not-responsive overflow-hiddden" style="max-width:21px;max-height:21px" />





<p class="d-inline-block text-truncate mb-0">X (formerly Twitter) <span class="text-secondary">(x.com)</span></p>
</a>
</div><p></p>]]></description><link>https://board.circlewithadot.net/topic/263828be-4861-4fef-ba91-3196373f9f79/rt-@zenmagnets-minimax-m2.7-nvfp4-läuft-mit-130-tok-s-im-single-stream-auf-2x-rtx-6k-mit-sglang.</link><generator>RSS for Node</generator><lastBuildDate>Thu, 14 May 2026 23:35:23 GMT</lastBuildDate><atom:link href="https://board.circlewithadot.net/topic/263828be-4861-4fef-ba91-3196373f9f79.rss" rel="self" type="application/rss+xml"/><pubDate>Wed, 15 Apr 2026 16:33:29 GMT</pubDate><ttl>60</ttl></channel></rss>