llama.cpp

Exécutez des agents IA directement avec le serveur llama.cpp. C'est l'option la plus légère pour l'inférence locale — aucune couche logicielle supplémentaire, seulement le serveur HTTP llama.cpp.

Configuration

Compilez llama.cpp ou téléchargez une version depuis GitHub.
Téléchargez un fichier de modèle GGUF.
Démarrez le serveur :

./llama-server -m ./models/votre-modele.gguf --port 8090

(Utilisez le port 8090 ou un autre port pour éviter les conflits avec le port 8080 par défaut de Sinaptic® DROID+)

Configurez dans droid.yaml :

llama_cpp:
  base_url: "http://localhost:8090/v1"

Aucune clé API n'est requise.

Configuration de l'agent

name: "llama-agent"
model:
  provider: "llama_cpp"
  name: "local-model"
  max_tokens: 2048
  temperature: 0.7

Remarques

Le serveur llama.cpp fournit un point de terminaison API compatible OpenAI.
C'est l'option la plus légère pour l'inférence locale — idéale pour les déploiements embarqués ou en périphérie (edge).
La prise en charge de l'utilisation d'outils (appel de fonctions) dépend du modèle et de la version de llama.cpp.
Pour la plupart des utilisateurs, Ollama ou LM Studio offrent une expérience plus simple avec le même moteur d'inférence sous-jacent.
Si vous exécutez Sinaptic® DROID+ dans Docker, utilisez host.docker.internal pour vous connecter à llama.cpp sur l'hôte.

Configuration​

Configuration de l'agent​

Remarques​

Configuration

Configuration de l'agent

Remarques