llama.cpp
Uruchamiaj agentów AI bezpośrednio korzystając z serwera llama.cpp. Jest to najbardziej lekka opcja dla lokalnej inferencji — bez dodatkowych warstw oprogramowania, tylko serwer HTTP llama.cpp.
Konfiguracja
- Zbuduj llama.cpp lub pobierz wersję binarną z GitHub
- Pobierz plik modelu w formacie GGUF
- Uruchom serwer:
./llama-server -m ./models/your-model.gguf --port 8090
(Użyj portu 8090 lub innego, aby uniknąć konfliktów z domyślnym portem 8080 używanym przez Sinaptic® DROID+)
- Skonfiguruj w
droid.yaml:
llama_cpp:
base_url: "http://localhost:8090/v1"
Klucz API nie jest wymagany.
Konfiguracja agenta
name: "llama-agent"
model:
provider: "llama_cpp"
name: "local-model"
max_tokens: 2048
temperature: 0.7
Uwagi
- Serwer llama.cpp udostępnia punkt końcowy API kompatybilny z OpenAI.
- Jest to opcja o najniższym narzucie dla lokalnej inferencji — idealna do wdrożeń wbudowanych (embedded) lub brzegowych (edge).
- Wsparcie dla narzędzi (wywoływanie funkcji) zależy od modelu oraz wersji llama.cpp.
- Dla większości użytkowników Ollama lub LM Studio zapewniają prostszą obsługę przy użyciu tego samego bazowego silnika inferencji.
- Jeśli Sinaptic® DROID+ działa w Dockerze, użyj
host.docker.internal, aby połączyć się z llama.cpp na hoście.