llama.cpp
llama.cpp 서버를 직접 사용하여 AI 에이전트를 실행하세요. 이는 로컬 인퍼런스(추론)를 위한 가장 가벼운 옵션으로, 추가적인 소프트웨어 계층 없이 llama.cpp HTTP 서버만 사용합니다.
설정
- llama.cpp를 빌드하거나 GitHub에서 릴리스 버전을 다운로드합니다.
- GGUF 모델 파일을 다운로드합니다.
- 서버를 시작합니다.
./llama-server -m ./models/your-model.gguf --port 8090
(Sinaptic® DROID+의 기본 포트인 8080과의 충돌을 피하기 위해 8090 또는 다른 포트를 사용하세요.)
droid.yaml에서 설정합니다.
llama_cpp:
base_url: "http://localhost:8090/v1"
API 키는 필요하지 않습니다.
에이전트 설정
name: "llama-agent"
model:
provider: "llama_cpp"
name: "local-model"
max_tokens: 2048
temperature: 0.7
참고 사항
- llama.cpp 서버는 OpenAI와 호환되는 API 엔드포인트를 제공합니다.
- 이는 로컬 인퍼런스를 위한 가장 오버헤드가 적은 옵션으로, 임베디드 또는 에지(edge) 배포에 이상적입니다.
- 도구 사용(함수 호출) 지원 여부는 모델 및 llama.cpp 버전에 따라 다릅니다.
- 대부분의 사용자에게는 동일한 인퍼런스 엔진을 사용하면서도 더 간편한 경험을 제공하는 Ollama 또는 LM Studio를 권장합니다.
- Sinaptic® DROID+를 Docker에서 실행하는 경우, 호스트의 llama.cpp에 연결하려면
host.docker.internal을 사용하세요.