llama.cpp
Exécutez des agents IA directement avec le serveur llama.cpp. C'est l'option la plus légère pour l'inférence locale — aucune couche logicielle supplémentaire, seulement le serveur HTTP llama.cpp.
Configuration
- Compilez llama.cpp ou téléchargez une version depuis GitHub.
- Téléchargez un fichier de modèle GGUF.
- Démarrez le serveur :
./llama-server -m ./models/votre-modele.gguf --port 8090
(Utilisez le port 8090 ou un autre port pour éviter les conflits avec le port 8080 par défaut de Sinaptic® DROID+)
- Configurez dans
droid.yaml:
llama_cpp:
base_url: "http://localhost:8090/v1"
Aucune clé API n'est requise.
Configuration de l'agent
name: "llama-agent"
model:
provider: "llama_cpp"
name: "local-model"
max_tokens: 2048
temperature: 0.7
Remarques
- Le serveur llama.cpp fournit un point de terminaison API compatible OpenAI.
- C'est l'option la plus légère pour l'inférence locale — idéale pour les déploiements embarqués ou en périphérie (edge).
- La prise en charge de l'utilisation d'outils (appel de fonctions) dépend du modèle et de la version de llama.cpp.
- Pour la plupart des utilisateurs, Ollama ou LM Studio offrent une expérience plus simple avec le même moteur d'inférence sous-jacent.
- Si vous exécutez Sinaptic® DROID+ dans Docker, utilisez
host.docker.internalpour vous connecter à llama.cpp sur l'hôte.