メインコンテンツまでスキップ

llama.cpp

llama.cpp サーバーを直接使用して AI エージェントを実行します。これはローカル推論のための最も軽量なオプションであり、追加のソフトウェアレイヤーはなく、llama.cpp HTTP サーバーのみを使用します。

セットアップ

  1. llama.cpp をビルドするか、GitHub からリリースをダウンロードします。
  2. GGUF モデルファイルをダウンロードします。
  3. サーバーを起動します。
./llama-server -m ./models/your-model.gguf --port 8090

(Sinaptic® DROID+ のデフォルトポート 8080 との衝突を避けるため、ポート 8090 または別のポートを使用してください)

  1. droid.yaml で設定します。
llama_cpp:
base_url: "http://localhost:8090/v1"

API キーは必要ありません。

エージェント設定

name: "llama-agent"
model:
provider: "llama_cpp"
name: "local-model"
max_tokens: 2048
temperature: 0.7

備考

  • llama.cpp サーバーは OpenAI 互換の API エンドポイントを提供します。
  • これはローカル推論において最もオーバーヘッドが少ないオプションであり、組み込みやエッジ環境へのデプロイに最適です。
  • ツール使用(関数呼び出し)のサポートは、モデルおよび llama.cpp のバージョンに依存します。
  • ほとんどのユーザーにとっては、同じ推論エンジンを使用しつつ、よりシンプルな体験を提供する OllamaLM Studio の方が適しています。
  • Sinaptic® DROID+ を Docker で実行している場合、ホスト上の llama.cpp に接続するには host.docker.internal を使用してください。