llama.cpp

Uruchamiaj agentów AI bezpośrednio korzystając z serwera llama.cpp. Jest to najbardziej lekka opcja dla lokalnej inferencji — bez dodatkowych warstw oprogramowania, tylko serwer HTTP llama.cpp.

Konfiguracja

Zbuduj llama.cpp lub pobierz wersję binarną z GitHub
Pobierz plik modelu w formacie GGUF
Uruchom serwer:

./llama-server -m ./models/your-model.gguf --port 8090

(Użyj portu 8090 lub innego, aby uniknąć konfliktów z domyślnym portem 8080 używanym przez Sinaptic® DROID+)

Skonfiguruj w droid.yaml:

llama_cpp:
  base_url: "http://localhost:8090/v1"

Klucz API nie jest wymagany.

Konfiguracja agenta

name: "llama-agent"
model:
  provider: "llama_cpp"
  name: "local-model"
  max_tokens: 2048
  temperature: 0.7

Uwagi

Serwer llama.cpp udostępnia punkt końcowy API kompatybilny z OpenAI.
Jest to opcja o najniższym narzucie dla lokalnej inferencji — idealna do wdrożeń wbudowanych (embedded) lub brzegowych (edge).
Wsparcie dla narzędzi (wywoływanie funkcji) zależy od modelu oraz wersji llama.cpp.
Dla większości użytkowników Ollama lub LM Studio zapewniają prostszą obsługę przy użyciu tego samego bazowego silnika inferencji.
Jeśli Sinaptic® DROID+ działa w Dockerze, użyj host.docker.internal, aby połączyć się z llama.cpp na hoście.

Konfiguracja​

Konfiguracja agenta​

Uwagi​

Konfiguracja

Konfiguracja agenta

Uwagi