🛠️ Ollama: Native MLX Backend for Apple Silicon

solomonneas@infosec.exchange

️ Ollama: Native MLX Backend for Apple Silicon

Ollama now runs on Apple MLX natively. On M5 Max + Qwen3.5-35B-A3B: 1851 tok/s prefill, 134 tok/s decode. Also adds NVFP4 quantization for production parity with NVIDIA inference and improved KV cache reuse for agentic workloads.

solomonneas.dev/intel

#Ollama #LLM #AppleSilicon #DevTools

CIRCLE WITH A DOT

🛠️ Ollama: Native MLX Backend for Apple Silicon