SMALL
🧩 왜 이게 ‘미친 난이도’였나?
- 🗺️ 거대한 상태공간: 시야 제한(안개), 오브젝트 수백 개, 실시간 변수 폭발. 체스/바둑처럼 완전정보 게임이 아님.
- 🧠 장기 계획 + 순간 판단: 라인전/한타/로샨/오브젝티브 등 수분~수십분짜리 전략과 프레임 단위 미세 컨트롤이 동시에 필요.
- 👥 협업 의존도: 5명이 역할 분담과 시그널 공유를 못 하면 바로 패배. 개별 실력만으론 못 비빔.
- 🎭 메타 변동: 패치 한 번이면 영웅·아이템 밸런스가 뒤집혀 학습 내성이 필요.
🧠 학습 핵심: “자가 대전 + 대규모 분산 RL”
- 🔁 Self-Play 루프: 스스로 팀을 이뤄 끝없이 붙어보며 승리 전략을 증류. 사람의 수작업 전략 주입 최소화.
- 🧮 정책 기반 RL(PPO 계열): 거대한 연속·불연속 행동공간에서 안정적 업데이트를 노림.
- 🧱 분산 학습 인프라: 병렬 환경을 수천~수만으로 뻥튀기. 하루에 ‘수년치 경기’ 를 굴렸다 보면 됨.
- 🧩 LSTM 등 메모리 구조: 시야 제한 속에서 숨은 상태를 추정하고 팀원이 ‘무엇을 보고 있을지’를 간접 학습.
- 🔊 암묵적 커뮤니케이션: 채팅·보이스가 아니라 정책이 만든 행동 패턴 자체가 신호가 됨. (예: 미니맵 이동, 스킬 각 잡기 → “지금 싸워”)
- 🧯 커리큘럼 설계: 초창기엔 영웅·아이템 제약으로 안정 학습 → 점차 확장해 인간 프로와의 규칙 차를 좁힘.
🏟️ 하이라이트 매치: “OG vs OpenAI Five”
- 🏆 상대는 세계 챔피언: 더 인터내셔널 우승팀인 OG가 실험 상대로 등판.
- ⚔️ 결과는 2:0: 초중반 운영과 한타 각 보는 속도가 숨 막히게 빠르고 정확. 오브젝티브(타워/로샨) 의사결정도 거침없음.
- 🔁 집요한 반복: 같은 전술만 우려먹은 게 아니라, 상황별 대안 루트가 계속 나옴. (교전 피하기 → 사이드 압박 → 타이밍 바꾸기 등)
- 🧊 감정 기복 無: 역전 허용 구간에도 동요 없는 복구 루틴. 휴먼 팀의 심리 흔들림이 상대적 약점으로 드러났다는 평가.
🧪 내부 기술 디테일 (컨셉 위주, 어렵지 않게)
- 🎛️ 행동공간 압축: 키보드/마우스 수준으로 직접 배우게 하면 난이도 폭발. 의미 있는 고수준 액션으로 디스크리타이즈(discretize)하여 탐색 효율↑.
- 🧮 리워드 설계: 승패만 주면 학습 신호가 희박해. 타워 피해, CS/XP, 오브젝티브 기여 같은 형상화된 보상을 섞어 중간 피드백 제공.
- 🧷 안정화 트릭: 그레이디언트 클리핑, KL 페널티, 액션 마스킹, 도메인 랜덤화. 학습 폭주/편향 막는 다층 안전장치.
- 🧪 메타 적응: 패치/밸런스 변화에 맞춰 리트레이닝/파인튜닝. Self-Play가 ‘시뮬레이터’도 같이 바꿔주는 셈.
🎯 우리에게 남긴 7가지 교훈
- 🧭 목표는 승리, 수단은 단순화: 행동·관측을 문제 중심으로 축소하면 불가능이 가능으로.
- 🧪 Self-Play는 최고의 스파링 파트너: 강한 적이 필요할 땐 나 자신이 제일 빠르게 강해진다.
- 🧱 인프라는 곧 알고리즘: 대규모 병렬화가 없으면 RL의 잠재력은 반쪽. 엔지니어링=성능.
- 🧩 암묵적 신호 설계: 팀 환경에선 말보다 행동 패턴이 언어다. (로봇군집·시뮬 대전에도 그대로 적용)
- 🧯 안정화가 혁신이다: ‘더 큰 모델’보다 학습 안정성이 성능을 지배.
- 🧠 휴먼-에이전트 차이 이해: 인간의 강점(창의적 빌드, 심리전)과 약점(피로·동요)을 데이터로 환원해 제품 전략에 반영.
- ♻️ 리그 운영 마인드: 패치/규칙 변화에 지속 적응하는 조직 루틴이 곧 장기 경쟁력.
🛠️ 실무 적용 아이디어 (게임·로보틱스·추천·운영)
- 🎮 게임 AI: 적응형 난이도(AI가 플레이어 스타일에 맞춤 학습), 코업 봇(인간 팀과 협력하는 에이전트) 테스트 벤치.
- 🤖 로보틱스: 다수 로봇의 작업 분담/경로 동선을 Self-Play로 최적화. (창고 피킹, 드론 편대)
- 🧑💼 운영 최적화: 콜센터 라우팅/재고 보충/배차에서 팀 기반 정책을 학습해 전체 KPI 극대화.
- 🎯 추천/광고: 개별 CTR 최적화 대신 세션·캠페인 단위 팀 목표(장기 유지/구매 전환)를 리워드로 설계.
⚠️ 한계와 현실 체크
- 🏷️ 규칙 차이: 대회/실서버 룰, 영웅 풀 제한 등 학습 환경과 실전의 간극이 성능 해석을 꼬이게 함.
- 💸 비용: 분산 학습/시뮬 인프라 비용은 만만치 않음. 샘플 효율이 핵심 경쟁력.
- 🎭 해석 가능성: ‘왜 그 콜을 했나?’ 설명이 어려움. 정책 시각화·행동 클러스터링 등 해석 툴이 필수.
- 🧪 도메인 전이: 게임 밖으로 나가면 환경 노이즈↑. 시뮬레이터-현실 격차(Sim2Real)를 메우는 기법이 필요.
🧠 재밌는 썰 & 비하인드
- 🧩 1v1에서 5v5까지: 초창기엔 미드 1대1 같은 축소판으로 시작해 협업·오브젝티브가 핵심인 풀 게임으로 스케일업.
- 💬 ‘콜’ 없는 팀플: 대화 없이도 움직임의 문법만으로 전술이 공유되는 모습이 “AI식 팀플레이의 본질”을 보여줬다는 평.
- 🔁 리벤지 매치의 상징성: 초기엔 프로에게 패한 적도 많았지만, 자기 자신과의 싸움으로 계속 상한선을 뚫어 올림.
❓미니 FAQ
- Q. 사람이 만든 전략을 주입했어?
A. 코어는 자가 대전. 인간 지식은 환경·보상 설계 수준에서 간접 제공. - Q. 새 패치 나오면 무용지물?
A. 리트레이닝/파인튜닝으로 빠르게 적응. 메타가 바뀔수록 Self-Play의 가치가 커짐. - Q. 다른 팀게임에도 가능?
A. 가능하지만 관측/행동/보상 설계가 전부야. “게임의 물리·경제·룰”을 학습 친화적으로 재편해야 함.
LIST
'AI > AI 관련 재밌는 이야기' 카테고리의 다른 글
| 😱 AI가 사람 목소리를 훔쳤다? voice cloning 사기 사건 (0) | 2026.02.08 |
|---|---|
| 🤖 AI 챗봇이 점점 똑똑해지는 과정: 인간처럼 대화하는 날이 올까? (0) | 2026.02.08 |
| 🧪 AI가 새 항생제 ‘할리신(Halicin)’을 찾아낸 날: 알고리즘이 실험실 문을 두드리다 (6) | 2025.08.14 |
| 🧬 알파폴드(AlphaFold): 단백질 접힘 50년 난제를 푼 AI의 하루 (6) | 2025.08.14 |
| ☎️ 구글 듀플렉스: 미용실에 “직접 전화하던” AI의 탄생, 논란, 그리고 유산 (6) | 2025.08.14 |