← Back to blog

Snippy Blog

LING1T

Published October 12, 2025 22:05

https://www.youtube.com/watch?v=AVmKFN8tA3o## 요약 개요  AN 그룹이 발표한 **Ling1T**(1조 파라미터) 모델은 **고품질 추론 데이터를 대량 활용**하고, **희소화(Mixture‑of‑Experts) 설계**와 **새로운 사후 학습 방식(LPO)** 융합으로 **추론 비용·속도·메모리 효율**을 크게 끌어올린 최신 LLM이다.---## Main Points  • **[00:00–00:32]** 새 모델 소개    - 1조 파라미터 규모의 Ling1T, 기존 추론 모델과 달리 “비‑추론” 구조지만 고품질 추론 데이터(전체 20조 토큰 중 40% 이상)로 학습.  • **[00:30–01:34]** 추론 데이터 활용 방식    - 추론 트레이스를 대량 포함해 모델이 **자연스럽게 추론**하도록 유도, “고품질 추론을 적은 토큰으로 수행” 목표.  • **[02:03–03:09]** Ling Scaling Law와 희소화 설계    - 1조 파라미터를 **256개의 전문가(experts)** 로 분할, 토큰당 **8개(1/32)만 활성화** → 실제 추론 시 51 B 파라미터만 사용.    - 256 전문가 초과 시 **수익 감소(diminishing returns)** 발생을 입증.  • **[03:38–04:41]** 실제 추론 효율 시연    - 전자상거래 사이트 생성 프롬프트에 **1초 내 저지연**, 19 입력·6.93 출력 토큰 처리.    - 복합 재무 계산(FIFO/LIFO) 질문도 **비‑추론 모델임에도 추론 단계**를 성공적으로 수행.  • **[05:42–07:17]** 새로운 사후 학습(LPO) 소개    - 기존 **PO → GRPO → GSPO** 순서의 진화와 달리, **문장 단위 보상**을 적용해 **정합성·의미**를 강화.    - 토큰 수준 과다 세분화와 전체 시퀀스 수준의 과도한 추상화 사이에 **중간 지점** 제공.  • **[07:45–08:35]** 비교 차트와 산업 파급    - GRPO(토큰), GSPO(시퀀스), LPO(문장) 세 방식의 **장·단점** 도식화.    - DeepSeek‑R1, Qwen‑3 등은 이전 방식 사용; Ling1T는 **새로운 표준** 제시.  • **[08:35–끝]** 접근 방법 안내    - 모델 체험은 **Zenmax** 플랫폼에서 가능.  ---## Key Takeaways  - **고품질 추론 데이터**를 대량 포함해 비‑추론 구조에도 뛰어난 논리적 추론 능력 확보.  - **Ling Scaling Law**는 전문가 수 256개가 최적임을 제시, 희소화로 **연산·메모리 비용을 20배 이상 절감**.  - **LPO 사후 학습**은 문장 단위 강화학습으로 **학습 안정성·속도**를 향상, 기존 방법 대비 의미 일관성 개선.  - 실제 적용 사례(사이트 생성, 복합 회계 계산)에서 **초저지연·낮은 비용**을 입증, 상용 서비스에 적합.  이러한 혁신은 LLM 효율성 및 정렬(alignment) 분야에서 **새로운 벤치마크**를 제시하며, 차세대 대규모 언어 모델 개발에 중요한 이정표가 될 전망이다.