LING1T

https://www.youtube.com/watch?v=AVmKFN8tA3o## 요약 개요 AN 그룹이 발표한 **Ling1T**(1조 파라미터) 모델은 **고품질 추론 데이터를 대량 활용**하고, **희소화(Mixture‑of‑Experts) 설계**와 **새로운 사후 학습 방식(LPO)** 융합으로 **추론 비용·속도·메모리 효율**을 크게 끌어올린 최신 LLM이다.---## Main Points • **[00:00–00:32]** 새 모델 소개 - 1조 파라미터 규모의 Ling1T, 기존 추론 모델과 달리 “비‑추론” 구조지만 고품질 추론 데이터(전체 20조 토큰 중 40% 이상)로 학습. • **[00:30–01:34]** 추론 데이터 활용 방식 - 추론 트레이스를 대량 포함해 모델이 **자연스럽게 추론**하도록 유도, “고품질 추론을 적은 토큰으로 수행” 목표. • **[02:03–03:09]** Ling Scaling Law와 희소화 설계 - 1조 파라미터를 **256개의 전문가(experts)** 로 분할, 토큰당 **8개(1/32)만 활성화** → 실제 추론 시 51 B 파라미터만 사용. - 256 전문가 초과 시 **수익 감소(diminishing returns)** 발생을 입증. • **[03:38–04:41]** 실제 추론 효율 시연 - 전자상거래 사이트 생성 프롬프트에 **1초 내 저지연**, 19 입력·6.93 출력 토큰 처리. - 복합 재무 계산(FIFO/LIFO) 질문도 **비‑추론 모델임에도 추론 단계**를 성공적으로 수행. • **[05:42–07:17]** 새로운 사후 학습(LPO) 소개 - 기존 **PO → GRPO → GSPO** 순서의 진화와 달리, **문장 단위 보상**을 적용해 **정합성·의미**를 강화. - 토큰 수준 과다 세분화와 전체 시퀀스 수준의 과도한 추상화 사이에 **중간 지점** 제공. • **[07:45–08:35]** 비교 차트와 산업 파급 - GRPO(토큰), GSPO(시퀀스), LPO(문장) 세 방식의 **장·단점** 도식화. - DeepSeek‑R1, Qwen‑3 등은 이전 방식 사용; Ling1T는 **새로운 표준** 제시. • **[08:35–끝]** 접근 방법 안내 - 모델 체험은 **Zenmax** 플랫폼에서 가능. ---## Key Takeaways - **고품질 추론 데이터**를 대량 포함해 비‑추론 구조에도 뛰어난 논리적 추론 능력 확보. - **Ling Scaling Law**는 전문가 수 256개가 최적임을 제시, 희소화로 **연산·메모리 비용을 20배 이상 절감**. - **LPO 사후 학습**은 문장 단위 강화학습으로 **학습 안정성·속도**를 향상, 기존 방법 대비 의미 일관성 개선. - 실제 적용 사례(사이트 생성, 복합 회계 계산)에서 **초저지연·낮은 비용**을 입증, 상용 서비스에 적합. 이러한 혁신은 LLM 효율성 및 정렬(alignment) 분야에서 **새로운 벤치마크**를 제시하며, 차세대 대규모 언어 모델 개발에 중요한 이정표가 될 전망이다.