Skip to content
  • Categories
  • Recent
  • Tags
  • Popular
  • World
  • Users
  • Groups
Skins
  • Light
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • Default (Cyborg)
  • No Skin
Collapse
Brand Logo

CIRCLE WITH A DOT

  1. Home
  2. Uncategorized
  3. RT @ZenMagnets: Minimax m2.7 nvfp4 läuft mit ~130 tok/s im Single-Stream auf 2x RTX 6k mit sglang.

RT @ZenMagnets: Minimax m2.7 nvfp4 läuft mit ~130 tok/s im Single-Stream auf 2x RTX 6k mit sglang.

Scheduled Pinned Locked Moved Uncategorized
gpullmmachinelearningnvidia
1 Posts 1 Posters 1 Views
  • Oldest to Newest
  • Newest to Oldest
  • Most Votes
Reply
  • Reply as topic
Log in to reply
This topic has been deleted. Only users with topic management privileges can see it.
  • arint@arint.infoA This user is from outside of this forum
    arint@arint.infoA This user is from outside of this forum
    arint@arint.info
    wrote last edited by
    #1

    RT @ZenMagnets: Minimax m2.7 nvfp4 läuft mit ~130 tok/s im Single-Stream auf 2x RTX 6k mit sglang. Bis zu ~1500 tok/s bei 64 gleichzeitigen frischen Kontexten. Enormer Leistungsabfall bei höheren Kontexten. Aber viel schneller als meine m2.5 vLLM-Konfiguration von vor zwei Monaten (sprich: 2 KI-Jahre), und ich bin beeindruckt, wie sehr SgLang bei der Performance bei hoher Nebenläufigkeit aufgeholt hat, was früher eine Spezialität von vLLM war. Verwendung der lukealonso/MiniMax-M2.7-NVFP4 Konfiguration ➡️ Alt-Text des Bildes 𝗭𝗲𝗻 𝗠𝗮𝗴𝗻𝗲𝘁𝘀 (@ZenMagnets) GROSSE BEGEISTERUNG: Erster Minimax m2.5 NVFP4 Quant auf Hugging Face. 83 tok/s Single-Stream vLLM auf zwei RTX 6000. Oder etwa doppelt so schnell wie ein Mac 512GB-System, das halb so viel kostet. Außer dass der Mac nicht auch 1000+ tok/s über 32+ gleichzeitige Verbindungen schafft. Leistungsbegrenzung bei 550W pro GPU für diesen Test. lukealonso/MiniMax-M2.5-NVFP4 vLLM-Rezept, das ich im Alt-Text des Bildes verwendet habe — https://nitter.net/ZenMagnets/status/2022562893091475626#m

    mehr auf Arint.info

    #AI #GPU #LLM #MachineLearning #NVIDIA #SGLang #arint_info

    https://x.com/ZenMagnets/status/2044281284885958780#m

    1 Reply Last reply
    1
    0
    • System shared this topic
    Reply
    • Reply as topic
    Log in to reply
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes


    • Login

    • Login or register to search.
    • First post
      Last post
    0
    • Categories
    • Recent
    • Tags
    • Popular
    • World
    • Users
    • Groups