ローカル LLM 実行ツール Ollama が 0.19 プレビュー版をリリースした。注目すべきは、Apple の MLX 機械学習フレームワークをベースにした根本的な再構築により、Apple Silicon デバイスの性能が大幅に向上している点だ。

中核アップグレード:MLX 統合メモリアーキテクチャ

これまで Ollama は llama.cpp/GGML をバックエンドとして使用していたが、MLX への移行により Apple Silicon の統合メモリアーキテクチャを完全に活用できるようになった。M5、M5 Pro、M5 Max チップでは、新しい GPU Neural Accelerator を活用して初回トークン生成時間(TTFT)と生成速度の両方を加速する。

公式ベンチマーク(Qwen3.5-35B-A3B モデル、NVFP4 量子化使用):

  • Prefill 性能: 1851 tokens/s
  • Decode 性能: 134 tokens/s

ローカル環境で 350 億パラメータモデルを実行するには非常に優れた速度だ。

NVFP4 量子化のサポート

0.19 版では NVIDIA の NVFP4 フォーマットがサポートされた。この 4-bit 浮動小数点量子化フォーマットは、モデル精度を維持しながらメモリ帯域とストレージ要件を大幅に削減できる。開発者にとってのメリットは:

  1. より大きなパラメータ数のモデルをローカルで実行可能
  2. 本番環境とローカル環境の出力結果の一貫性向上
  3. 将来的に NVIDIA Model Optimizer で最適化されたモデルを直接使用可能

これらの最適化モデルを実行するには、32GB 以上の統合メモリを搭載した Mac が推奨されている。

キャッシュシステムの再設計

基盤フレームワークの切り替えに加え、Ollama のキャッシュメカニズムも全面的に見直された:

  • セッション間での再利用: 共有システムプロンプトが複数セッション間でキャッシュを再利用し、メモリ使用量を削減
  • スマートチェックポイント: プロンプトの適切な位置に自動的にキャッシュスナップショットを作成し、再計算を削減
  • より賢い削除戦略: 古いブランチが削除されても、共有プレフィックスはより長く保持される

これらの改善は、Claude Code や OpenCode といったコーディングアシスタントを使用するユーザーにとって特に意味がある。頻繁なツール呼び出しとコンテキスト切り替えがよりスムーズになる。

現在サポートされているモデル

プレビュー版は現在、Qwen3.5-35B-A3B モデルに特化して最適化されており、以下のコマンドで体験できる:

# 直接実行
ollama run qwen3.5:35b-a3b-coding-nvfp4

# Claude Code のバックエンドとして使用
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4

公式はサポートモデルの拡大に積極的に取り組んでおり、カスタムモデルのより簡便なインポート方法も計画している。

一つの信号

Ollama が MLX を採用したことは、ローカル AI ランタイムが「動けばいい」から「ネイティブ最適化」へ移行していることを示している。Mac ユーザーにとってこれは良いニュースだ。Apple Silicon のニューラルエンジンがようやく汎用 GPU としてではなく、本来の性能を発揮できるようになった。

ローカルモデルに依存した開発作業を行うユーザーにとって、このアップデートは注目に値する。性能向上は待ち時間の短縮、よりスムーズなコーディング体験を意味する。