メインコンテンツまでスキップ

llama.cpp

llama.cpp サーバーを直接使用して AI エージェントを実行します。これはローカル推論のための最も軽量なオプションであり、追加のソフトウェアレイヤーはなく、llama.cpp HTTP サーバーのみを使用します。

セットアップ

llama.cpp をビルドするか、GitHub からリリースをダウンロードします。
GGUF モデルファイルをダウンロードします。
サーバーを起動します。

./llama-server -m ./models/your-model.gguf --port 8090

（Sinaptic® DROID+ のデフォルトポート 8080 との衝突を避けるため、ポート 8090 または別のポートを使用してください）

droid.yaml で設定します。

llama_cpp:
  base_url: "http://localhost:8090/v1"

API キーは必要ありません。

エージェント設定

name: "llama-agent"
model:
  provider: "llama_cpp"
  name: "local-model"
  max_tokens: 2048
  temperature: 0.7

備考

llama.cpp サーバーは OpenAI 互換の API エンドポイントを提供します。
これはローカル推論において最もオーバーヘッドが少ないオプションであり、組み込みやエッジ環境へのデプロイに最適です。
ツール使用（関数呼び出し）のサポートは、モデルおよび llama.cpp のバージョンに依存します。
ほとんどのユーザーにとっては、同じ推論エンジンを使用しつつ、よりシンプルな体験を提供する Ollama や LM Studio の方が適しています。
Sinaptic® DROID+ を Docker で実行している場合、ホスト上の llama.cpp に接続するには host.docker.internal を使用してください。

セットアップ
エージェント設定
備考