<![CDATA[🛠️ Ollama: Native MLX Backend for Apple Silicon]]>

️ Ollama: Native MLX Backend for Apple Silicon

Ollama now runs on Apple MLX natively. On M5 Max + Qwen3.5-35B-A3B: 1851 tok/s prefill, 134 tok/s decode. Also adds NVFP4 quantization for production parity with NVIDIA inference and improved KV cache reuse for agentic workloads.

solomonneas.dev/intel

#Ollama #LLM #AppleSilicon #DevTools

]]>https://board.circlewithadot.net/topic/d7799564-ef93-4066-b0cd-fa6f2c1c4f0e/ollama-native-mlx-backend-for-apple-siliconRSS for NodeMon, 06 Apr 2026 09:23:15 GMTWed, 01 Apr 2026 16:03:46 GMT60