본문으로 건너뛰기

llama.cpp

llama.cpp 서버를 직접 사용하여 AI 에이전트를 실행하세요. 이는 로컬 인퍼런스(추론)를 위한 가장 가벼운 옵션으로, 추가적인 소프트웨어 계층 없이 llama.cpp HTTP 서버만 사용합니다.

설정

  1. llama.cpp를 빌드하거나 GitHub에서 릴리스 버전을 다운로드합니다.
  2. GGUF 모델 파일을 다운로드합니다.
  3. 서버를 시작합니다.
./llama-server -m ./models/your-model.gguf --port 8090

(Sinaptic® DROID+의 기본 포트인 8080과의 충돌을 피하기 위해 8090 또는 다른 포트를 사용하세요.)

  1. droid.yaml에서 설정합니다.
llama_cpp:
base_url: "http://localhost:8090/v1"

API 키는 필요하지 않습니다.

에이전트 설정

name: "llama-agent"
model:
provider: "llama_cpp"
name: "local-model"
max_tokens: 2048
temperature: 0.7

참고 사항

  • llama.cpp 서버는 OpenAI와 호환되는 API 엔드포인트를 제공합니다.
  • 이는 로컬 인퍼런스를 위한 가장 오버헤드가 적은 옵션으로, 임베디드 또는 에지(edge) 배포에 이상적입니다.
  • 도구 사용(함수 호출) 지원 여부는 모델 및 llama.cpp 버전에 따라 다릅니다.
  • 대부분의 사용자에게는 동일한 인퍼런스 엔진을 사용하면서도 더 간편한 경험을 제공하는 Ollama 또는 LM Studio를 권장합니다.
  • Sinaptic® DROID+를 Docker에서 실행하는 경우, 호스트의 llama.cpp에 연결하려면 host.docker.internal을 사용하세요.