llama.cpp

Voer AI-agents rechtstreeks uit met de llama.cpp-server. Dit is de meest lichtgewicht optie voor lokale inferentie — geen extra softwarelaag, alleen de llama.cpp HTTP-server.

Configuratie

Build llama.cpp of download een release van GitHub.
Download een GGUF-modelbestand.
Start de server:

./llama-server -m ./models/uw-model.gguf --port 8090

(Gebruik poort 8090 of een andere poort om conflicten met de standaardpoort 8080 van Sinaptic® DROID+ te voorkomen)

Configureer in droid.yaml:

llama_cpp:
  base_url: "http://localhost:8090/v1"

Geen API-sleutel vereist.

Agent-configuratie

name: "llama-agent"
model:
  provider: "llama_cpp"
  name: "local-model"
  max_tokens: 2048
  temperature: 0.7

Opmerkingen

De llama.cpp-server biedt een OpenAI-compatibel API-eindpunt.
Dit is de optie met de laagste overhead voor lokale inferentie — ideaal voor embedded of edge implementaties.
Ondersteuning voor toolgebruik (function calling) hangt af van het model en de llama.cpp-versie.
Voor de meeste gebruikers bieden Ollama of LM Studio een eenvoudigere ervaring met dezelfde onderliggende inferentie-engine.
Als u Sinaptic® DROID+ in Docker draait, gebruik dan host.docker.internal om verbinding te maken met llama.cpp op de host.

Configuratie​

Agent-configuratie​

Opmerkingen​

Configuratie

Agent-configuratie

Opmerkingen