Przejdź do głównej zawartości

llama.cpp

Uruchamiaj agentów AI bezpośrednio korzystając z serwera llama.cpp. Jest to najbardziej lekka opcja dla lokalnej inferencji — bez dodatkowych warstw oprogramowania, tylko serwer HTTP llama.cpp.

Konfiguracja

  1. Zbuduj llama.cpp lub pobierz wersję binarną z GitHub
  2. Pobierz plik modelu w formacie GGUF
  3. Uruchom serwer:
./llama-server -m ./models/your-model.gguf --port 8090

(Użyj portu 8090 lub innego, aby uniknąć konfliktów z domyślnym portem 8080 używanym przez Sinaptic® DROID+)

  1. Skonfiguruj w droid.yaml:
llama_cpp:
base_url: "http://localhost:8090/v1"

Klucz API nie jest wymagany.

Konfiguracja agenta

name: "llama-agent"
model:
provider: "llama_cpp"
name: "local-model"
max_tokens: 2048
temperature: 0.7

Uwagi

  • Serwer llama.cpp udostępnia punkt końcowy API kompatybilny z OpenAI.
  • Jest to opcja o najniższym narzucie dla lokalnej inferencji — idealna do wdrożeń wbudowanych (embedded) lub brzegowych (edge).
  • Wsparcie dla narzędzi (wywoływanie funkcji) zależy od modelu oraz wersji llama.cpp.
  • Dla większości użytkowników Ollama lub LM Studio zapewniają prostszą obsługę przy użyciu tego samego bazowego silnika inferencji.
  • Jeśli Sinaptic® DROID+ działa w Dockerze, użyj host.docker.internal, aby połączyć się z llama.cpp na hoście.