llama.cpp
Voer AI-agents rechtstreeks uit met de llama.cpp-server. Dit is de meest lichtgewicht optie voor lokale inferentie — geen extra softwarelaag, alleen de llama.cpp HTTP-server.
Configuratie
- Build llama.cpp of download een release van GitHub.
- Download een GGUF-modelbestand.
- Start de server:
./llama-server -m ./models/uw-model.gguf --port 8090
(Gebruik poort 8090 of een andere poort om conflicten met de standaardpoort 8080 van Sinaptic® DROID+ te voorkomen)
- Configureer in
droid.yaml:
llama_cpp:
base_url: "http://localhost:8090/v1"
Geen API-sleutel vereist.
Agent-configuratie
name: "llama-agent"
model:
provider: "llama_cpp"
name: "local-model"
max_tokens: 2048
temperature: 0.7
Opmerkingen
- De llama.cpp-server biedt een OpenAI-compatibel API-eindpunt.
- Dit is de optie met de laagste overhead voor lokale inferentie — ideaal voor embedded of edge implementaties.
- Ondersteuning voor toolgebruik (function calling) hangt af van het model en de llama.cpp-versie.
- Voor de meeste gebruikers bieden Ollama of LM Studio een eenvoudigere ervaring met dezelfde onderliggende inferentie-engine.
- Als u Sinaptic® DROID+ in Docker draait, gebruik dan
host.docker.internalom verbinding te maken met llama.cpp op de host.