Aller au contenu principal

llama.cpp

Exécutez des agents IA directement avec le serveur llama.cpp. C'est l'option la plus légère pour l'inférence locale — aucune couche logicielle supplémentaire, seulement le serveur HTTP llama.cpp.

Configuration

  1. Compilez llama.cpp ou téléchargez une version depuis GitHub.
  2. Téléchargez un fichier de modèle GGUF.
  3. Démarrez le serveur :
./llama-server -m ./models/votre-modele.gguf --port 8090

(Utilisez le port 8090 ou un autre port pour éviter les conflits avec le port 8080 par défaut de Sinaptic® DROID+)

  1. Configurez dans droid.yaml :
llama_cpp:
base_url: "http://localhost:8090/v1"

Aucune clé API n'est requise.

Configuration de l'agent

name: "llama-agent"
model:
provider: "llama_cpp"
name: "local-model"
max_tokens: 2048
temperature: 0.7

Remarques

  • Le serveur llama.cpp fournit un point de terminaison API compatible OpenAI.
  • C'est l'option la plus légère pour l'inférence locale — idéale pour les déploiements embarqués ou en périphérie (edge).
  • La prise en charge de l'utilisation d'outils (appel de fonctions) dépend du modèle et de la version de llama.cpp.
  • Pour la plupart des utilisateurs, Ollama ou LM Studio offrent une expérience plus simple avec le même moteur d'inférence sous-jacent.
  • Si vous exécutez Sinaptic® DROID+ dans Docker, utilisez host.docker.internal pour vous connecter à llama.cpp sur l'hôte.