llama.cpp
llama.cpp サーバーを直接使用して AI エージェントを実行します。これはローカル推論のための最も軽量なオプションであり、追加のソフトウェアレイヤーはなく、llama.cpp HTTP サーバーのみを使用します。
セットアップ
- llama.cpp をビルドするか、GitHub からリリースをダウンロードします。
- GGUF モデルファイルをダウンロードします。
- サーバーを起動します。
./llama-server -m ./models/your-model.gguf --port 8090
(Sinaptic® DROID+ のデフォルトポート 8080 との衝突を避けるため、ポート 8090 または別のポートを使用してください)
droid.yamlで設定します。
llama_cpp:
base_url: "http://localhost:8090/v1"
API キーは必要ありません。
エージェント設定
name: "llama-agent"
model:
provider: "llama_cpp"
name: "local-model"
max_tokens: 2048
temperature: 0.7
備考
- llama.cpp サーバーは OpenAI 互換の API エンドポイントを提供します。
- これはローカル推論において最もオーバーヘッドが少ないオプションであり、組み込みやエッジ環境へのデプロイに最適です。
- ツール使用(関数呼び出し)のサポートは、モデルおよび llama.cpp のバージョンに依存します。
- ほとんどのユーザーにとっては、同じ推論エンジンを使用しつつ、よりシンプルな体験を提供する Ollama や LM Studio の方が適しています。
- Sinaptic® DROID+ を Docker で実行している場合、ホスト上の llama.cpp に接続するには
host.docker.internalを使用してください。