llama.cpp
Запускайте AI-агентів безпосередньо через сервер llama.cpp. Це найбільш легковажний варіант для локального запуску — без додаткових програмних рівнів, лише HTTP-сервер llama.cpp.
Налаштування
- Зберіть llama.cpp або завантажте реліз із GitHub
- Завантажте файл моделі у форматі GGUF
- Запустіть сервер:
./llama-server -m ./models/your-model.gguf --port 8090
(Використовуйте порт 8090 або інший, щоб уникнути конфліктів із портом 8080, який Sinaptic® DROID+ використовує за замовчуванням)
- Налаштуйте в
droid.yaml:
llama_cpp:
base_url: "http://localhost:8090/v1"
Ключ API не потрібен.
Конфігурація агента
name: "llama-agent"
model:
provider: "llama_cpp"
name: "local-model"
max_tokens: 2048
temperature: 0.7
Примітки
- Сервер llama.cpp надає кінцеву точку API, сумісну з OpenAI.
- Це варіант із найменшими накладними витратами для локального інференсу — ідеально підходить для вбудованих або периферійних (edge) розгортань.
- Підтримка використання інструментів (виклик функцій) залежить від моделі та версії llama.cpp.
- Для більшості користувачів Ollama або LM Studio пропонують простіший досвід використання з тим самим базовим рушієм інференсу.
- Якщо Sinaptic® DROID+ працює в Docker, використовуйте
host.docker.internalдля підключення до llama.cpp на хост-машині.