AI/LLM

Meta Llama Stack 실전 가이드 — OpenAI 호환 API로 Llama 4 로컬·프로덕션 배포

Meta의 Llama Stack은 Llama 4 모델을 로컬(Ollama)부터 프로덕션(vLLM, Together AI, NVIDIA NIM)까지 동일한 OpenAI 호환 API로 배포하는 표준화 프레임워크다. Provider 교환 가능 아키텍처, 내장 RAG, 에이전트 오케스트레이션, MCP 통합, Llama 4 Scout·Maverick 모델 선택 기준까지 실무 중심으로 정리한다.

2026-04-14

Meta Llama Stack은 Llama 4 모델을 로컬 노트북부터 프로덕션 클라우드까지 동일한 OpenAI 호환 API로 배포할 수 있는 표준화 프레임워크다. 로컬 개발 단계에서는 Ollama, 스테이징에서는 Together AI, 프로덕션에서는 vLLM으로 바꿔도 애플리케이션 코드 변경이 없다.

이 글이 필요한 사람: Llama 4 모델을 API 서버로 배포하려는 백엔드 개발자, OpenAI API를 오픈소스 모델로 교체 검토 중인 팀, 로컬 AI 에이전트 프레임워크를 구축하려는 엔지니어, self-hosted LLM 인프라를 표준화하고 싶은 DevOps.

※ 2026년 4월 기준. 공식 GitHub: github.com/meta-llama/llama-stack

Llama Stack이란 무엇인가

Meta가 공개한 Llama Stack은 LLM 애플리케이션 개발의 모든 레이어를 표준화하는 프레임워크다. 추론(inference), 안전성(safety), 메모리 관리(memory), 에이전트 기능(agents)을 단일 API로 제공한다.

핵심 가치는 provider 교환 가능성이다. 로컬 개발에서는 Ollama, 스테이징은 Together AI, 프로덕션에서는 vLLM으로 교체해도 애플리케이션 코드는 그대로다. OpenAI SDK를 그대로 쓰면서 Llama 모델로 전환할 수도 있다.

2026년 4월 기준 GitHub 스타 6,400+, Llama 4 Scout(17B)·Maverick(17B) 모델이 Llama Stack을 통해 배포되면서 커뮤니티 관심이 급증하고 있다.

Meta Llama Stack 레이어 구조 — Inference·Safety·Memory·Agents — Llama Stack의 4개 레이어. provider는 교체 가능하고 API는 동일하다. 출처: Meta Llama Stack GitHub

설치 및 로컬 서버 시작 — Ollama provider

로컬 개발 환경에서 가장 빠르게 시작하는 방법은 Ollama provider를 사용하는 것이다. Ollama가 먼저 설치되어 있어야 한다.

Llama Stack 설치
# Python 3.10+ 필요
pip install llama-stack

# Ollama로 Llama 4 Scout 모델 다운로드
ollama pull llama4:scout

로컬 Llama Stack 서버 시작
# Ollama provider로 서버 시작
llama stack build --template ollama --image-type conda

# 서버 실행 (기본 포트 5001)
llama stack run ollama

# 서버 상태 확인
curl http://localhost:5001/v1/health

OpenAI 호환 API — 기존 코드 그대로 전환

Llama Stack은 OpenAI API 형식과 호환되는 엔드포인트를 제공한다. base_url만 바꾸면 OpenAI SDK를 그대로 쓸 수 있다. 기존 OpenAI 기반 코드를 Llama 모델로 마이그레이션할 때 코드 변경이 거의 없다.

OpenAI SDK로 Llama Stack 서버 사용
from openai import OpenAI

# base_url만 Llama Stack 서버로 교체
client = OpenAI(
    base_url="http://localhost:5001/v1",
    api_key="llama-stack"  # 로컬에서는 임의 값 가능
)

response = client.chat.completions.create(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    messages=[
        {"role": "system", "content": "당신은 코드 리뷰 전문가입니다."},
        {"role": "user", "content": "이 함수의 문제점을 찾아줘: def div(a, b): return a/b"}
    ]
)

print(response.choices[0].message.content)

Llama Stack OpenAI 호환 API — base_url만 교체하면 기존 코드 재사용 — OpenAI SDK에서 base_url만 바꾸면 Llama 4 모델로 전환된다. 기존 코드 수정 없이 오픈소스 모델 전환 가능.

내장 에이전트 — 도구 호출과 RAG

Llama Stack에는 도구 실행과 RAG를 지원하는 에이전트 런타임이 내장되어 있다. 별도 에이전트 프레임워크 없이도 검색·계산·코드 실행 도구를 정의하고 모델이 자율적으로 호출하도록 할 수 있다.

Llama Stack 에이전트 with 도구 호출
from llama_stack_client import LlamaStackClient
from llama_stack_client.types import Attachment
from llama_stack_client.lib.agents.agent import Agent
from llama_stack_client.lib.agents.event_logger import EventLogger

client = LlamaStackClient(base_url="http://localhost:5001")

# 에이전트 생성
agent = Agent(
    client,
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    instructions="당신은 웹 검색과 코드 실행이 가능한 어시스턴트입니다.",
    tools=["builtin::websearch", "builtin::code_interpreter"],
)

# 세션 시작 및 실행
session_id = agent.create_session("my-session")
response = agent.create_turn(
    messages=[{"role": "user", "content": "Python 최신 버전을 확인하고 Hello World를 실행해줘"}],
    session_id=session_id,
)

for log in EventLogger().log(response):
    log.print()

MCP 서버 통합 — 외부 도구 연결

Llama Stack은 MCP(Model Context Protocol) 서버 통합을 지원한다. Anthropic이 만든 MCP 표준을 통해 파일 시스템, 데이터베이스, 외부 API 등 다양한 도구를 에이전트에 연결할 수 있다.

MCP 서버를 run.yaml에 등록하면 Llama Stack 에이전트가 해당 도구를 자동으로 사용할 수 있다.

run.yaml — MCP 서버 등록
# ~/.llama/run.yaml
tools:
  tool_groups:
    - toolgroup_id: mcp::filesystem
      mcp_endpoint:
        uri: http://localhost:8000/sse
    - toolgroup_id: mcp::github
      mcp_endpoint:
        uri: http://localhost:8001/sse

프로덕션 배포 — vLLM provider로 전환

로컬 개발에서 Ollama를 썼다면, 프로덕션에서는 처리량이 높은 vLLM provider로 전환한다. Llama Stack의 핵심 장점인 provider 교환 가능성 덕분에 애플리케이션 코드는 변경 없이 run.yaml의 provider 설정만 바꾸면 된다.

vLLM provider로 프로덕션 배포
# vLLM 서버 시작 (GPU 서버에서 실행)
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-4-Scout-17B-16E-Instruct \
  --port 8080 \
  --tensor-parallel-size 2

# Llama Stack을 vLLM provider로 실행
VLLM_URL=http://gpu-server:8080 llama stack run vllm

Llama Stack vLLM 프로덕션 배포 구조 — vLLM 서버 위에 Llama Stack을 올리는 프로덕션 구조. GPU 서버에서 vLLM, 앱 서버에서 Llama Stack이 동작한다.

Ollama 직접 사용 vs Llama Stack — 언제 무엇을 쓰나

Ollama 직접 사용이 나은 경우

단일 모델, 단순한 chat completion만 필요할 때
빠른 로컬 테스트나 개인 프로젝트
에이전트나 RAG 기능이 필요 없을 때

Llama Stack이 나은 경우

로컬 개발→스테이징→프로덕션으로 provider를 교체해야 할 때
에이전트, RAG, 안전성 레이어를 함께 써야 할 때
MCP 서버를 통한 외부 도구 연결이 필요할 때
팀 전체가 동일한 API 인터페이스를 공유해야 할 때

주의: 2026년 4월 기준 Llama Stack은 활발하게 개발 중인 프로젝트다. API가 아직 안정화 단계가 아니므로 프로덕션 적용 전에 특정 버전을 고정(pip install llama-stack==0.1.x)하고 마이너 버전 업데이트 시 breaking change를 반드시 확인해야 한다.

Llama StackMeta Llama 4오픈소스 LLMOllamavLLMOpenAI 호환 APIRAGAI 에이전트셀프호스팅 LLMMCP