llama.cpp
Führen Sie KI-Agenten direkt über den llama.cpp-Server aus. Dies ist die leichtgewichtigste Option für lokale Inferenz — keine zusätzliche Softwareschicht, nur der llama.cpp-HTTP-Server.
Einrichtung
- Builden Sie llama.cpp oder laden Sie ein Release von GitHub herunter.
- Laden Sie eine GGUF-Modelldatei herunter.
- Starten Sie den Server:
./llama-server -m ./models/dein-modell.gguf --port 8090
(Verwenden Sie Port 8090 oder einen anderen Port, um Konflikte mit dem Standardport 8080 von Sinaptic® DROID+ zu vermeiden.)
- Konfigurieren Sie die
droid.yaml:
llama_cpp:
base_url: "http://localhost:8090/v1"
Es wird kein API-Key benötigt.
Agenten-Konfiguration
name: "llama-agent"
model:
provider: "llama_cpp"
name: "local-model"
max_tokens: 2048
temperature: 0.7
Hinweise
- Der llama.cpp-Server bietet einen OpenAI-kompatiblen API-Endpunkt.
- Dies ist die Option mit dem geringsten Overhead für lokale Inferenz — ideal für Embedded- oder Edge-Deployments.
- Die Unterstützung von Tools (Function Calling) hängt vom Modell und der llama.cpp-Version ab.
- Für die meisten Benutzer bieten Ollama oder LM Studio eine einfachere Benutzererfahrung mit derselben zugrunde liegenden Inferenz-Engine.
- Wenn Sinaptic® DROID+ in Docker läuft, verwenden Sie
host.docker.internal, um eine Verbindung zu llama.cpp auf dem Host herzustellen.