llama.cpp

Führen Sie KI-Agenten direkt über den llama.cpp-Server aus. Dies ist die leichtgewichtigste Option für lokale Inferenz — keine zusätzliche Softwareschicht, nur der llama.cpp-HTTP-Server.

Einrichtung

Builden Sie llama.cpp oder laden Sie ein Release von GitHub herunter.
Laden Sie eine GGUF-Modelldatei herunter.
Starten Sie den Server:

./llama-server -m ./models/dein-modell.gguf --port 8090

(Verwenden Sie Port 8090 oder einen anderen Port, um Konflikte mit dem Standardport 8080 von Sinaptic® DROID+ zu vermeiden.)

Konfigurieren Sie die droid.yaml:

llama_cpp:
  base_url: "http://localhost:8090/v1"

Es wird kein API-Key benötigt.

Agenten-Konfiguration

name: "llama-agent"
model:
  provider: "llama_cpp"
  name: "local-model"
  max_tokens: 2048
  temperature: 0.7

Hinweise

Der llama.cpp-Server bietet einen OpenAI-kompatiblen API-Endpunkt.
Dies ist die Option mit dem geringsten Overhead für lokale Inferenz — ideal für Embedded- oder Edge-Deployments.
Die Unterstützung von Tools (Function Calling) hängt vom Modell und der llama.cpp-Version ab.
Für die meisten Benutzer bieten Ollama oder LM Studio eine einfachere Benutzererfahrung mit derselben zugrunde liegenden Inferenz-Engine.
Wenn Sinaptic® DROID+ in Docker läuft, verwenden Sie host.docker.internal, um eine Verbindung zu llama.cpp auf dem Host herzustellen.

Einrichtung​

Agenten-Konfiguration​

Hinweise​

Einrichtung

Agenten-Konfiguration

Hinweise