Saltar al contenido principal

llama.cpp

Ejecute agentes de IA directamente con el servidor de llama.cpp. Esta es la opción más ligera para la inferencia local: sin capas de software adicionales, solo el servidor HTTP de llama.cpp.

Configuración

  1. Compile llama.cpp o descargue una versión desde GitHub
  2. Descargue un archivo de modelo GGUF.
  3. Inicie el servidor:
./llama-server -m ./models/tu-modelo.gguf --port 8090

(Utilice el puerto 8090 u otro puerto para evitar conflictos con el puerto 8080 predeterminado de Sinaptic® DROID+)

  1. Configure en droid.yaml:
llama_cpp:
base_url: "http://localhost:8090/v1"

No se requiere clave API.

Configuración del agente

name: "llama-agent"
model:
provider: "llama_cpp"
name: "local-model"
max_tokens: 2048
temperature: 0.7

Notas

  • El servidor llama.cpp proporciona un endpoint de API compatible con OpenAI.
  • Esta es la opción con menor sobrecarga para la inferencia local, ideal para despliegues integrados o en el borde (edge).
  • El soporte para el uso de herramientas (llamada a funciones) depende del modelo y de la versión de llama.cpp.
  • Para la mayoría de los usuarios, Ollama o LM Studio ofrecen una experiencia más sencilla con el mismo motor de inferencia subyacente.
  • Si ejecuta Sinaptic® DROID+ en Docker, utilice host.docker.internal para conectarse a llama.cpp en el host.