The real reasons Claude got dumber

앤트로픽 Claude 성능 저하 관련 투명성 보고서 분석 요약

본 요약은 최근 Claude 모델의 성능 저하를 초래한 세 가지 주요 인프라 버그에 대한 앤트로픽(Anthropic)의 공식 사후 분석 보고서(Post-mortem)를 전문가가 분석한 내용을 담고 있습니다. 분석가는 앤트로픽이 이례적인 수준의 투명성을 보인 점을 높이 평가하면서도, 버그 발생 기간 동안의 대처 및 고객 보상 문제에 대해 비판적인 시각을 제시합니다.

주요 내용 및 배경 (Main Points and Background)

앤트로픽은 지난 몇 주간 Claude 모델의 성능이 저하되었다는 사용자들의 보고가 있은 후, 마침내 이를 공식 인정하고 해당 문제에 대한 기술 보고서를 발표했습니다 [0:00-0:33]. 분석가는 앤트로픽이 인프라 문제의 세부 사항과 엔지니어링 작업 실패 원인을 이처럼 깊이 있게 공개한 것은 전례 없는 수준의 투명성이라고 강조했습니다 [0:31-1:03].

성능 저하 기간: 2024년 8월 초부터 9월 초 사이에 발생했습니다 [3:40].
현재 상태: Claude 모델은 현재 정상적인 성능으로 복구된 것으로 보입니다 [1:02].
핵심 비판: 앤트로픽은 문제가 몇 주 동안 지속되었음에도 불구하고 모든 세부 정보를 숨겼으며 [0:33], 피해를 입은 사용자들에게 환불은 제공되지 않았습니다 [1:02, 24:53].

문제 발생 및 감지 실패

앤트로픽은 8월 초에 사용자들로부터 성능 저하 보고를 받기 시작했으나, 이를 정상적인 사용자 피드백의 변동으로 치부하고 무시했습니다 [3:40-4:12]. 8월 말에야 보고 빈도가 높아지면서 심층 조사를 시작했습니다.

내부 벤치마크 부재: 앤트로픽은 LLM의 비결정성(non-deterministic)을 감안하더라도, 성능 저하를 확인할 수 있는 충분한 내부 평가 툴이나 벤치마크를 상시 운영하지 않았던 것으로 보입니다. 이로 인해 문제가 거의 한 달 동안 지속되었습니다 [4:10-4:43].
GPU 확보 경쟁: 분석가는 앤트로픽이 API 요청당 컴퓨팅을 줄여 연구팀을 위한 GPU 자원을 확보하려는 목표를 가지고 있었으며 [15:34-16:08], 이러한 목표 때문에 인프라 변경이 서둘러 진행되어 버그가 발생했을 가능성이 높다고 지적합니다 [16:35].

Claude 성능 저하를 유발한 세 가지 버그 (The Three Interacting Bugs)

세 가지 버그가 서로 겹치면서 진단이 매우 어려웠으며, 특히 8월 29일의 로드 밸런싱 변경이 영향을 받는 트래픽을 급증시켰습니다 [9:51].

1. 컨텍스트 윈도우 라우팅 오류 (Context Window Routing Error)

발생: 8월 5일 시작 [8:17].
내용: 일부 Sonnet 4 요청이 100만 토큰 컨텍스트 윈도우용으로 구성된 서버로 잘못 라우팅되었습니다. 일반적으로 토큰 양이 증가하면 모델 성능이 저하되는데 (Needle in the Haystack 문제), 짧은 컨텍스트 요청이 성능이 저하된 서버로 보내진 것입니다 [8:50].
영향: 8월 31일 최악의 순간에는 Sonnet 요청의 16%가 영향을 받았으며, Cloud Code 사용자 중 약 30%가 한 번 이상 잘못된 서버로 라우팅되어 성능 저하를 경험했습니다 [10:22-10:56].
해결: 라우팅 로직 수정 후 9월 4일 배포 완료 (AWS Bedrock은 9월 18일 완료) [11:58].

2. 출력 손상 오류 (Output Corruption Error)

발생: 8월 25일 [9:21].
내용: Claude API TPU 서버에 잘못된 구성이 배포되어 토큰 생성 중 오류가 발생했습니다. 이는 런타임 성능 최적화(runtime performance optimization)로 인해 드물게 생성되어야 할 토큰(예: 영어 프롬프트에 대한 응답으로 태국어 또는 중국어 문자)에 높은 확률이 할당된 것이 원인이었습니다 [11:56-12:32].
영향: Opus 4.1 및 Sonnet 4 요청에 영향을 미쳤습니다.
중요 사항: 타사 플랫폼(AWS, Google Cloud)은 이 문제로 영향을 받지 않았습니다 [15:02-15:35].

3. Approximate Top K XLAT TPU 컴파일 오류 (Miscompilation)

발생: 8월 26일 [9:21, 17:06].
내용: 텍스트 생성 중 토큰 선택 방법을 개선하기 위해 배포된 코드가 XLAT TPU 컴파일러의 잠재된 버그를 유발했습니다. 이는 혼합 정밀도 산술(mixed precision arithmetic, BF16 대 FP32) 불일치로 인해 가장 높은 확률의 토큰이 고려 대상에서 제외되는 현상을 초래했습니다 [20:13-20:46]. 이 버그는 특정 배치 크기에서만 발생하여 디버깅이 매우 어려웠습니다 [21:45].
원인: GPU 자원을 확보하기 위한 성능 최적화 과정에서 발생한 급하게 배포된 변경 사항이었습니다 [16:35].
해결: 성능 효율성 저하를 감수하고 근사치(Approximate) Top K 대신 정확한(Exact) Top K 방식을 사용하도록 전환하고 정밀도를 FP32로 표준화했습니다 [22:18].

앤트로픽의 개선 사항 및 핵심 시사점

개선 조치 (Planned Changes)

앤트로픽은 향후 유사한 사건을 방지하기 위해 다음과 같은 세 가지 주요 변경 사항을 발표했습니다 [23:49-24:53].

더 민감한 평가: 작동하는 구현과 고장 난 구현을 더 안정적으로 구별할 수 있는 평가 툴 개발.
지속적인 품질 평가: 프로덕션 시스템에서 정기적인 평가를 지속적으로 실행하여 문제 감지.
더 빠른 디버깅 도구: 사용자 개인 정보를 침해하지 않으면서 커뮤니티 피드백을 더 잘 디버깅할 수 있는 인프라 및 도구 개발.

핵심 시사점 (Key Takeaways)

이례적인 투명성: 앤트로픽이 인프라와 엔지니어링 실패에 대해 이토록 상세한 보고서를 발표한 것은 LLM 업계에서 중요한 선례가 될 수 있습니다 [26:24].
연구 vs. 프로덕션: 앤트로픽은 여전히 연구 중심 회사처럼 운영되는 경향이 있으며, 이로 인해 API 사용자들은 안정적이지 않은 인프라로 인한 피해를 겪었습니다 [26:22].
환불 부재에 대한 비판: Cloud Code 사용자 중 30% 이상이 영향을 받았음에도 불구하고, 앤트로픽이 환불이나 서비스 기간 연장과 같은 보상 조치를 전혀 언급하지 않은 것은 큰 아쉬움으로 남습니다 [24:53, 25:54]. 분석가는 앤트로픽이 실제적인 조치 대신 "옵틱스(Optics, 대외 이미지)"를 선택했다고 비판합니다 [25:52].
사용자 피드백의 중요성: 앤트로픽은 사용자들에게 /bug 명령어 또는 ‘엄지손가락 아래’ 버튼을 통해 지속적으로 피드백을 제공해 줄 것을 요청했습니다. 내부 평가만으로는 감지가 어려웠기 때문입니다 [24:51-25:22].