Перейти до основного вмісту

llama.cpp

Запускайте AI-агентів безпосередньо через сервер llama.cpp. Це найбільш легковажний варіант для локального запуску — без додаткових програмних рівнів, лише HTTP-сервер llama.cpp.

Налаштування

  1. Зберіть llama.cpp або завантажте реліз із GitHub
  2. Завантажте файл моделі у форматі GGUF
  3. Запустіть сервер:
./llama-server -m ./models/your-model.gguf --port 8090

(Використовуйте порт 8090 або інший, щоб уникнути конфліктів із портом 8080, який Sinaptic® DROID+ використовує за замовчуванням)

  1. Налаштуйте в droid.yaml:
llama_cpp:
base_url: "http://localhost:8090/v1"

Ключ API не потрібен.

Конфігурація агента

name: "llama-agent"
model:
provider: "llama_cpp"
name: "local-model"
max_tokens: 2048
temperature: 0.7

Примітки

  • Сервер llama.cpp надає кінцеву точку API, сумісну з OpenAI.
  • Це варіант із найменшими накладними витратами для локального інференсу — ідеально підходить для вбудованих або периферійних (edge) розгортань.
  • Підтримка використання інструментів (виклик функцій) залежить від моделі та версії llama.cpp.
  • Для більшості користувачів Ollama або LM Studio пропонують простіший досвід використання з тим самим базовим рушієм інференсу.
  • Якщо Sinaptic® DROID+ працює в Docker, використовуйте host.docker.internal для підключення до llama.cpp на хост-машині.