Ga naar hoofdinhoud

llama.cpp

Voer AI-agents rechtstreeks uit met de llama.cpp-server. Dit is de meest lichtgewicht optie voor lokale inferentie — geen extra softwarelaag, alleen de llama.cpp HTTP-server.

Configuratie

  1. Build llama.cpp of download een release van GitHub.
  2. Download een GGUF-modelbestand.
  3. Start de server:
./llama-server -m ./models/uw-model.gguf --port 8090

(Gebruik poort 8090 of een andere poort om conflicten met de standaardpoort 8080 van Sinaptic® DROID+ te voorkomen)

  1. Configureer in droid.yaml:
llama_cpp:
base_url: "http://localhost:8090/v1"

Geen API-sleutel vereist.

Agent-configuratie

name: "llama-agent"
model:
provider: "llama_cpp"
name: "local-model"
max_tokens: 2048
temperature: 0.7

Opmerkingen

  • De llama.cpp-server biedt een OpenAI-compatibel API-eindpunt.
  • Dit is de optie met de laagste overhead voor lokale inferentie — ideaal voor embedded of edge implementaties.
  • Ondersteuning voor toolgebruik (function calling) hangt af van het model en de llama.cpp-versie.
  • Voor de meeste gebruikers bieden Ollama of LM Studio een eenvoudigere ervaring met dezelfde onderliggende inferentie-engine.
  • Als u Sinaptic® DROID+ in Docker draait, gebruik dan host.docker.internal om verbinding te maken met llama.cpp op de host.