Security

OpenAI·Anthropic·Google, Frontier Model Forum으로 중국 AI 모델 복제에 공동 대응 — 적대적 증류 공격의 실체

2026년 4월 6일 OpenAI, Anthropic, Google이 Frontier Model Forum을 통해 처음으로 보안 협력을 시작했다. DeepSeek, Moonshot AI, MiniMax가 24,000개 사기 계정으로 Claude API를 통해 1,600만 건의 대화를 수집한 적대적 증류 공격의 메커니즘과 개발자 영향을 분석한다.

2026-04-22

OpenAI·Anthropic·Google이 처음으로 손을 잡았다. 2026년 4월 6~7일, 세 회사는 Frontier Model Forum을 통해 중국 AI 기업들의 '적대적 증류(adversarial distillation)' 공격에 공동 대응하기로 했다. DeepSeek, Moonshot AI, MiniMax가 수만 개의 사기 계정으로 Claude를 포함한 미국 AI 모델의 출력을 수집해 자체 모델 훈련에 활용했다는 사실이 공개됐다. 이 글은 사건의 경위, 기술적 메커니즘, 그리고 개발자가 준비해야 할 보안 변화를 정리한다.

이 글이 필요한 사람: AI API를 사용하는 개발자, LLM 서비스를 운영하는 엔지니어, AI 보안 정책에 관심 있는 실무자.

무슨 일이 일어났나 — 적대적 증류 공격의 실체

2026년 4월 6일, Bloomberg가 입수한 내부 자료에 따르면 Anthropic은 DeepSeek, Moonshot AI, MiniMax 세 중국 AI 기업이 Claude API를 통해 약 1,600만 건의 대화를 수집했다고 밝혔다. 이들은 약 24,000개의 사기 계정을 만들어 이용약관을 우회했다.

기술 방법은 '적대적 증류(adversarial distillation)'다. 기존의 모델 증류는 합법적인 방식으로 더 작은 모델이 큰 모델을 모방하도록 훈련하는 기법이다. 그러나 이번 사건은 이용약관상 금지된 방식으로, API 응답을 대규모로 수집해 자체 모델 훈련 데이터로 사용하는 것이다. Anthropic 이용약관 제8조는 출력 데이터를 경쟁 모델 훈련에 사용하는 것을 명시적으로 금지하고 있다.

Frontier Model Forum 로고와 OpenAI Anthropic Google Microsoft 로고 — Frontier Model Forum은 2023년 OpenAI, Anthropic, Google, Microsoft가 공동 설립한 AI 안전 비영리 단체다.

Frontier Model Forum — 안전 선언 기구에서 실전 정보전으로

Frontier Model Forum(FMF)은 2023년 OpenAI, Anthropic, Google, Microsoft가 공동 설립한 AI 안전 비영리 단체다. 지금까지는 정부 대상 안전 공약과 연구 협력이 주된 역할이었다. 이번 발표는 FMF가 실제 위협 정보를 공유하는 보안 협력 채널로 전환한 첫 사례다.

세 회사는 다음 세 가지를 공유하기로 합의했다:

위협 시그니처: 대규모 증류 공격의 패턴(요청 빈도, 계정 행동, IP 대역)
사기 계정 식별 지표: 의심 계정의 공통 특성
대응 기술: API 키 속도 제한, 의심 응답 워터마킹, 행동 분석 등

미국 당국 추산: 적대적 증류 공격으로 미국 AI 기업들이 연간 수십억 달러의 지식재산 손실을 입고 있다. FMF는 이를 단순 이용약관 위반이 아닌 국가 차원의 지식재산 침해로 규정하고 있다.

증류 공격의 기술적 메커니즘 — 어떻게 모델이 복제되나

증류(distillation)는 원래 합법적인 ML 기법이다. 큰 '교사(teacher)' 모델의 출력 분포를 학습해 작은 '학생(student)' 모델을 훈련하는 방식이다. 이 과정에서 학생 모델은 교사의 원시 데이터 없이도 유사한 능력을 얻을 수 있다.

합법적 증류 vs 적대적 증류 비교
# 합법적 증류
# - 자신이 소유하거나 라이선스한 모델 사용
# - 이용약관 내에서 API 호출
# - 소량 데이터로 특정 태스크 최적화

# 적대적 증류 (이용약관 위반)
# - 경쟁사 API를 대규모 수집 목적으로 사용
# - 수십만~수백만 건 쿼리로 능력 추출
# - 결과물을 자체 모델 훈련 데이터로 활용
# → Claude, GPT-4 이용약관 8조 위반

Anthropic이 밝힌 24,000개 사기 계정은 단순한 스크래핑이 아니다. 다양한 태스크(수학, 코딩, 추론, 창작)에 걸쳐 체계적으로 설계된 쿼리를 보내 모델의 능력 분포를 포괄적으로 수집했다. 이렇게 수집된 1,600만 건의 대화는 고품질 지도학습(SFT) 데이터셋에 해당한다.

AI 모델 증류 메커니즘 다이어그램 — 적대적 증류: 사기 계정 → 대규모 API 쿼리 → 응답 수집 → 자체 모델 훈련 데이터로 활용

지목된 세 기업 — DeepSeek, Moonshot AI, MiniMax

이번 보고서에서 명시적으로 지목된 세 기업의 프로필:

세 기업 모두 미국 시장에서 API를 공개하고 있으며, 이들의 모델 성능이 빠르게 향상된 것이 적대적 증류와 관련 있다고 Anthropic은 주장한다. 단, 이 주장에 대해 해당 기업들은 공식 부인 성명을 내지 않았다.

개발자에게 미치는 영향 — API 사용 패턴과 보안 변화

이번 발표 이후 세 회사의 API 정책 변화가 예상된다. 개발자가 준비해야 할 사항:

예상 정책 변화:
① API 키 발급 시 신원 확인 강화 (전화번호·결제수단 필수화)
② 단기간 대량 요청 시 자동 속도 제한 강화
③ 상업적 재훈련 용도 감지를 위한 워터마킹 기술 도입
④ 특정 지역 IP 대역 접근 제한 가능성

합법적인 AI 개발자라면 영향이 거의 없다. 그러나 배치 처리·파인튜닝 데이터 수집·벤치마크 자동화 등 대량 API 호출이 필요한 워크플로우는 정책 변화를 모니터링해야 한다. 특히 Anthropic의 이용약관 섹션 8(출력 데이터 사용 제한)을 재확인할 것을 권한다.

Anthropic 이용약관 핵심 제한 (2026.04 기준)
# 허용
- 자체 앱/서비스에 Claude API 출력 사용
- 사용자에게 Claude 응답 직접 표시
- 응답을 비경쟁 목적 데이터베이스에 저장

# 금지
- 경쟁 AI 모델 훈련에 출력 사용
- 대규모 자동화로 출력 수집
- Anthropic 모델 리버스 엔지니어링 시도
# → 위반 시 즉시 계정 정지 및 법적 조치

더 큰 맥락 — AI 냉전과 기술 보호주의

이번 사건은 단순한 이용약관 분쟁이 아니다. AI 개발 비용은 최첨단 모델 한 개 훈련에 수억~수십억 달러가 소요된다. 이 비용을 들이지 않고 경쟁력 있는 모델을 얻는 가장 빠른 방법이 증류다. FMF 협력은 그 방법을 봉쇄하려는 시도다.

동시에 이 발표는 AI 규제 논의에도 영향을 준다. 미국 의회에서 논의 중인 AI 지식재산 보호법의 구체적 근거로 사용될 가능성이 높다. EU는 이미 AI Act 시행 세칙에서 모델 증류 관련 투명성 조항을 논의 중이다. 개발자 관점에서는 앞으로 AI API 이용 시 '어디서 실행되는지'뿐 아니라 '출력을 어떻게 사용하는지'가 점점 더 중요해진다.

AI 기업 경쟁 지도 미국 vs 중국 — 미국 프런티어 랩 3사 vs 중국 AI 스타트업 3사: AI 능력 격차를 둘러싼 지식재산 전쟁이 본격화됐다.

앞으로 주목할 포인트

이번 사건 이후 개발자가 모니터링해야 할 3가지:

Frontier Model ForumOpenAIAnthropicGoogleDeepSeek증류AI 보안지식재산API 정책중국 AI