SMALL
“얼마나 많이 집어넣을 수 있나?”를 정확·간단·재밌게!
안녕하세요! 😊 LLM을 쓸 때 가장 헷갈리는 게 바로 **컨텍스트 윈도우(= 토큰 한도)**죠.
이 글은 주요 모델별 최대 토큰 수와, 그걸 단어·페이지·코드 라인 등 “체감 단위”로 바꿔 보는 실전 가이드입니다.
빠른 요약
- 토큰 = 모델이 한 번에 ‘기억하며’ 처리하는 용량 단위 (입력·대화내역·시스템 프롬프트 포함)
- 출력 한도는 따로 있는 경우가 많음 (예: o3/o4-mini: max output 100k, GPT-5: 128k)
- 대략 환산: 1토큰 ≈ 0.75 영어 단어 → 페이지수는 300~500 wpp 가정으로 범위 제공
✅ 1. 메이저 LLM 컨텍스트 한눈표 (2025-08-13 기준)
모델최대 컨텍스트(토큰)대략 단어수(영문)대략 A4 페이지수*메모
| Gemini 2.5 Pro | 1,000,000 | ~750,000 | 1,500–2,500p | 네이티브 멀티모달, 1M 공식 ⓖ |
| Gemini 2.5 Flash-Lite | 1,048,576 | ~786,000 | 1,570–2,620p | Vertex 문서에 입력 1,048,576/출력 65,536 명시 |
| Claude Sonnet 4 | 200,000 (β: 1,000,000) | ~150,000 | 300–500p (β시 1,500–2,500p) | 1M은 베타/일부 티어 |
| Grok-4 | 256,000 | ~192,000 | 384–640p | xAI 문서에 256k 명시 |
| GPT-5 | 400,000 | ~300,000 | 600–1,000p | OpenAI 문서(개발자) 표기 |
| o3 | 200,000 | ~150,000 | 300–500p | 공식 문서 |
| o4-mini | 200,000 | ~150,000 | 300–500p | 공식 문서 |
| GPT-4o (레거시) | 128,000 | ~96,000 | 192–320p | 일반적 컨텍스트 |
| Llama 4 Scout | 최대 10,000,000 | ~7,500,000 | 15,000–25,000p | 오픈웨이트/엔터프라이즈 특수 케이스, 공급자 캡 존재 |
* 페이지 환산은 A4, 300–500 words/page 가정. 실제 PDF/한글 문서/코드·표 혼합에 따라 크게 달라집니다.
근거/출처 스냅샷:
- Gemini 2.5 Pro 1M 공식: 구글 딥마인드 블로그/모델 페이지
- Gemini Flash-Lite 입력 1,048,576 / 출력 65,536: Vertex 공식 문서
- Claude Sonnet 4 200k(기본), 1M(베타 한정): Anthropic 문서/프라이싱·컨텍스트 가이드
- Grok-4 256k: xAI 공식 모델 문서
- GPT-5 400k(맥스): OpenAI 모델/소개 문서
- o3/o4-mini 200k(맥스)·max output 100k: OpenAI 문서
- GPT-4o 128k(일반적): 위키/공식 생태 자료(출력 상향 사례는 Azure 업데이트 참고)
- Llama 4 Scout 10M 및 공급자 캡: Meta/TechCrunch/서드파티 해설
🧮 2. “내 자료, 이만큼 들어가나?” 간단 환산법
- 단어수 대략: 단어 ≈ 토큰 × 0.75
- 페이지수(범위): 페이지 ≈ 단어 ÷ (300 ~ 500)
- 코드 라인 느낌치: 1M 토큰은 ~75k–110k LOC 수준(언어/스타일에 따라 변동).
예시
- 1M 토큰 ≈ 75만 단어 ≈ 1,500–2,500 페이지 ≈ 논문(3,000w) 250편 내외
- 256k 토큰 ≈ 19.2만 단어 ≈ 384–640 페이지
- 200k 토큰 ≈ 15만 단어 ≈ 300–500 페이지
🧠 3. 컨텍스트 창, 이 5가지만 알면 끝!
- 입력+대화내역+시스템이 합산되어 창을 채웁니다.
- 출력 한도는 별개인 경우 다수(예: o3/o4-mini: 100k, GPT-5: 128k, Gemini 2.5 Flash-Lite: 65,536)
- 장문 안정성: 길게 넣을수록 모델별 검색/색인 방식·포지셔널 인코딩 차이로 품질 차가 납니다. (10M 지원이라도 실제 품질·노출 한도는 제공자 캡과 인터페이스에 좌우)
- 생각 토큰(Extended Thinking): Claude는 생각 예산이 출력 토큰으로 잡히며, 컨텍스트 한도 안에서 관리됩니다.
- 서비스마다 상이: 같은 모델이라도 Chat UI vs API vs 클라우드 제공사에 따라 제한이 다릅니다(예: Azure의 출력 토큰 증액).
🧰 4. 실전 팁 — “덜 잘리고, 더 정확하게”
- 덩어리화: 문서는 섹션별로 나눠 순차 투입(Part 1→2→3).
- 핵심 먼저: 요약·목차·질문리스트를 프롤로그로 먼저 적재(나머지는 참조용).
- 중복 제거: 동일 텍스트 반복은 토큰 낭비 → 참조 키만 남기기.
- 출력 예산 지정: “최대 1,000자/최대 N 토큰” 등으로 폭주 방지.
- 장문 검수 루프: “결과 뒤에 근거 요약 3줄+불확실성 3개 붙여” (품질 추적 쉬움).
- 코드베이스: README/아키텍처 맵을 먼저 적재 → “파일 단위 Q&A” 워크플로.
🧪 5. 모델별 ‘현실 사용’ 가이드 (짧막 코멘트)
- Gemini 2.5 Pro / Flash-Lite (1M급): 리포트·코드베이스·멀티모달 대용량. 대화형 UX는 Flash-Lite, 장문·정밀은 Pro.
- Claude Sonnet 4 (200k / 1M β): 기획·심층추론·생각 예산 제어. β 1M는 고티어 한정
- Grok-4 (256k): 실시간 검색/툴 네이티브 + 중장문 밸런스.
- GPT-5 (최대 400k, 출력 128k): 에이전트·코딩·장문 혼합. 롱컨텍스트 벤치 공개.
- o3 / o4-mini (200k, 출력 100k): 수학·코딩·가성비. 대량 호출·파이프라인 베이스.
- GPT-4o (128k): 멀티모달 스테디셀러, 보이스/비전 UX 데모에 좋음.
- Llama 4 Scout (최대 10M): 연구/엔터프라이즈 특수 시나리오. 제공자 캡 확인 필수.
LIST
'AI > AI 관련 팁' 카테고리의 다른 글
| OpenClaw: 내 디지털 생활을 관리하는 AI 비서 (0) | 2026.02.05 |
|---|---|
| 한 번에 통하는 프롬프트: 컨텍스트 패키징 10가지 비법 🎁⚡ (3) | 2025.08.14 |
| AI가 가끔 그럴싸하게 틀리는 이유 😲 (3) | 2025.08.14 |
| Suno AI로 0→1 노래 제작하기 🎶 (6) | 2025.08.14 |
| 2025년, 일 잘하는 사람들의 AI 활용 실전 팁 대방출 🚀 (6) | 2025.08.13 |