llama.cpp
Ejecute agentes de IA directamente con el servidor de llama.cpp. Esta es la opción más ligera para la inferencia local: sin capas de software adicionales, solo el servidor HTTP de llama.cpp.
Configuración
- Compile llama.cpp o descargue una versión desde GitHub
- Descargue un archivo de modelo GGUF.
- Inicie el servidor:
./llama-server -m ./models/tu-modelo.gguf --port 8090
(Utilice el puerto 8090 u otro puerto para evitar conflictos con el puerto 8080 predeterminado de Sinaptic® DROID+)
- Configure en
droid.yaml:
llama_cpp:
base_url: "http://localhost:8090/v1"
No se requiere clave API.
Configuración del agente
name: "llama-agent"
model:
provider: "llama_cpp"
name: "local-model"
max_tokens: 2048
temperature: 0.7
Notas
- El servidor llama.cpp proporciona un endpoint de API compatible con OpenAI.
- Esta es la opción con menor sobrecarga para la inferencia local, ideal para despliegues integrados o en el borde (edge).
- El soporte para el uso de herramientas (llamada a funciones) depende del modelo y de la versión de llama.cpp.
- Para la mayoría de los usuarios, Ollama o LM Studio ofrecen una experiencia más sencilla con el mismo motor de inferencia subyacente.
- Si ejecuta Sinaptic® DROID+ en Docker, utilice
host.docker.internalpara conectarse a llama.cpp en el host.