llama.cpp

Ejecute agentes de IA directamente con el servidor de llama.cpp. Esta es la opción más ligera para la inferencia local: sin capas de software adicionales, solo el servidor HTTP de llama.cpp.

Configuración

Compile llama.cpp o descargue una versión desde GitHub
Descargue un archivo de modelo GGUF.
Inicie el servidor:

./llama-server -m ./models/tu-modelo.gguf --port 8090

(Utilice el puerto 8090 u otro puerto para evitar conflictos con el puerto 8080 predeterminado de Sinaptic® DROID+)

Configure en droid.yaml:

llama_cpp:
  base_url: "http://localhost:8090/v1"

No se requiere clave API.

Configuración del agente

name: "llama-agent"
model:
  provider: "llama_cpp"
  name: "local-model"
  max_tokens: 2048
  temperature: 0.7

Notas

El servidor llama.cpp proporciona un endpoint de API compatible con OpenAI.
Esta es la opción con menor sobrecarga para la inferencia local, ideal para despliegues integrados o en el borde (edge).
El soporte para el uso de herramientas (llamada a funciones) depende del modelo y de la versión de llama.cpp.
Para la mayoría de los usuarios, Ollama o LM Studio ofrecen una experiencia más sencilla con el mismo motor de inferencia subyacente.
Si ejecuta Sinaptic® DROID+ en Docker, utilice host.docker.internal para conectarse a llama.cpp en el host.

Configuración​

Configuración del agente​

Notas​

Configuración

Configuración del agente

Notas