llama.cpp

Запускайте AI-агентів безпосередньо через сервер llama.cpp. Це найбільш легковажний варіант для локального запуску — без додаткових програмних рівнів, лише HTTP-сервер llama.cpp.

Налаштування

Зберіть llama.cpp або завантажте реліз із GitHub
Завантажте файл моделі у форматі GGUF
Запустіть сервер:

./llama-server -m ./models/your-model.gguf --port 8090

(Використовуйте порт 8090 або інший, щоб уникнути конфліктів із портом 8080, який Sinaptic® DROID+ використовує за замовчуванням)

Налаштуйте в droid.yaml:

llama_cpp:
  base_url: "http://localhost:8090/v1"

Ключ API не потрібен.

Конфігурація агента

name: "llama-agent"
model:
  provider: "llama_cpp"
  name: "local-model"
  max_tokens: 2048
  temperature: 0.7

Примітки

Сервер llama.cpp надає кінцеву точку API, сумісну з OpenAI.
Це варіант із найменшими накладними витратами для локального інференсу — ідеально підходить для вбудованих або периферійних (edge) розгортань.
Підтримка використання інструментів (виклик функцій) залежить від моделі та версії llama.cpp.
Для більшості користувачів Ollama або LM Studio пропонують простіший досвід використання з тим самим базовим рушієм інференсу.
Якщо Sinaptic® DROID+ працює в Docker, використовуйте host.docker.internal для підключення до llama.cpp на хост-машині.

Налаштування​

Конфігурація агента​

Примітки​

Налаштування

Конфігурація агента

Примітки