캐글 그랜드마스터는 어떻게 자신을 자동화했을까? : ledmaster/ml-mania-2026이 보여준 '자율 주행 ML 리서치'의 충격
캐글 그랜드마스터는 어떻게 자신을 자동화했을까? : ledmaster/ml-mania-2026이 보여준 '자율 주행 ML 리서치'의 충격
1. 시작하며: 현타와 호기심 사이에서
현업에서 데이터 사이언티스트나 ML 엔지니어로 구르다 보면 가끔 깊은 현타가 찾아오곤 하죠. “이 컬럼에 로그 씌우고, 저 컬럼이랑 묶어서 이동평균 내보면 스코어가 0.001이라도 오르려나?” 밤새 노트북 팬을 비행기 이륙 소리처럼 울려가며 파이썬 스크립트를 돌려놓고, 다음 날 아침 제발 OOF(Out-of-Fold) 스코어가 올랐기를 기도하는 일상. 우리는 지능적인 연구를 하는 걸까요, 아니면 단순한 하이퍼파라미터 탐색 머신으로 전락한 걸까요?
캐글(Kaggle) 글로벌 랭킹 12위 출신이자 과거 Upwork의 리드 데이터 사이언티스트로 800만 프리랜서 랭킹 시스템을 만들었던 찐 그랜드마스터 Mario Filho(ledmaster) 역시 비슷한 회의감을 느꼈던 모양입니다. 2026년 3월에 열린 Kaggle의 NCAA 대학 농구 예측 대회인 ‘March Machine Learning Mania 2026’에서 그는 평범한 문제 풀이 방식을 거부했습니다. 수동으로 피처를 깎는 대신, 자신의 다년간 축적된 ML 경험을 통째로 자율 주행 연구 루프(Autonomous Research Loop)로 만들어버리는 실험을 진행합니다. 오늘 우리가 커피 한 잔을 마시며 진지하게 뜯어볼 ledmaster/ml-mania-2026 리포지토리는 바로 그 치열한 자동화의 기록입니다.
### 2. TL;DR (The Core)
ledmaster/ml-mania-2026은 단순한 모델 아키텍처 자랑이 아닙니다. LLM 기반 코딩 에이전트(Codex 등)에게 마크다운 문서를 통한 프롬프트 기반의 통제권을 쥐여주고, 스스로 수백 개의 피처를 설계, 테스트, 검증하며 결과를 기록하게 만든 ‘Agentic AI 기반의 자동화 ML 리서치 루프’ 실전 성공 사례입니다.
### 3. Deep Dive: Under the Hood (핵심 아키텍처 분석)
가장 흥미로운 점은 이 프로젝트가 기존에 우리가 알던 흔한 AutoML 툴이 아니라는 것입니다. 기존의 AutoML은 제한된 탐색 공간 안에서 파라미터 조합을 브루트포스(Brute-force)로 찔러보는 수준에 불과하지만, 이 프로젝트는 도메인 지식을 바탕으로 AI가 직접 파이썬 코드를 짜고 피처 패밀리를 창조하는 영역으로 진입했습니다. 어떻게 이게 가능했을까요?
A. 프롬프트는 새로운 컨트롤 플레인(Control Plane)이다
이 시스템을 움직이는 핵심은 복잡한 백엔드 코드가 아니라, 놀랍게도 몇 장의 마크다운 문서(checklist-prompt.md, AGENTS.md)입니다. 프롬프트를 살펴보면 마치 깐깐한 시니어 개발자가 주니어에게 업무를 지시하는 듯한 날 선 가이드라인이 적혀 있습니다.
> “각 피처 군(Family)에 대해 철저하게 작업해라. 한 번에 하나씩 완료하고, 최소 10개의 새로운 피처를 테스트해라. 부분적인 진행 상황을 결코 종료로 간주하지 마라.”
저자는 에이전트가 엉뚱한 방향으로 폭주하거나 일을 대충 마무리하려고 할 때마다, 코드를 고치는 대신 “어떤 프롬프트 지시어 때문에 네가 이런 행동을 했는지 설명해”라고 되물으며 프롬프트 자체를 진화(Evolve)시켰다고 회고합니다. 코드를 리팩토링하는 시대에서, 프롬프트를 리팩토링하여 AI의 행동 패턴을 교정하는 시대로 넘어왔음을 보여주는 상징적인 대목입니다.
B. 소시오패스 에이전트를 막기 위한 인간의 퀄리티 게이트 (Validation Splits)
머신러닝 실험 자동화에서 가장 뼈아픈 함정은 바로 과적합(Overfitting)입니다. AI 에이전트는 도메인의 맥락을 짚어내기보다는 오직 지시받은 ‘목표 지표(Score)’를 최대화하려는 소시오패스적 성향을 띠기 때문에, 데이터 누수(Leakage)를 귀신같이 파고들어 성능을 부풀리곤 합니다. 특히 매 시즌마다 플레이 스타일과 팀 퀄리티가 변하는 농구 데이터의 특성상, 단일 검증 스코어만 믿는 것은 자살 행위나 다름없었죠.
이를 방지하기 위해 인간(ledmaster)은 완벽한 검증 구조의 뼈대를 짰습니다. 단순히 과거 데이터로 테스트하는 것을 넘어, 2021~2025년 과거 모델의 예측 확률과 순수 시드(Seed) 기반 베이스라인 간의 피어슨 상관계수(Pearson Correlation)를 지속적으로 추적했습니다. 공식 검증 폴드에서 이 상관계수 평균은 0.9500으로 매우 안정적이었는데, 에이전트가 단독으로 깎아낸 2026년 최종 제출 모델 역시 0.9575(남성부 0.9519, 여성부 0.9653)를 기록했습니다. 이는 에이전트가 꼼수를 부린 게 아니라, 과거의 성공적인 모델링 로직을 구조적으로 온전히 재현했다는 증명이었습니다.
C. 우아한 외부 신호 결합: Polymarket 블렌딩 오버레이 (POLY-ODDS-BLEND.md)
아키텍처를 분석하다가 진심으로 무릎을 쳤던 부분입니다. 보통 순수 ML 예측값에 외부 베팅 시장의 배당률을 섞을 때, 어설프게 가중 평균을 내다가 모델을 망치는 경우가 허다합니다. 하지만 저자는 2026년 Polymarket의 우승 배당률(title-futures)을 동적 계획법(Dynamic Programming)을 통해 적정 확률로 정규화한 뒤, 모델 예측값과의 격차를 Logit 공간(Logit-space)으로 변환했습니다.
가장 중요한 설계 철학은 “Polymarket 확률로 모델을 하드 오버라이드(0.0 또는 1.0)하지 마라” 였습니다. 팀별 보정치는 최대 ±0.10, 게임당 이동폭은 ±0.03으로 엄격한 캡(Cap)을 씌워, 시장의 지혜가 모델을 통째로 집어삼키는 게 아니라 방향성만 살짝 넛지(Nudge) 하도록 통제했습니다. 인간의 정교한 제한과 시스템의 자율성이 완벽하게 조화를 이룬 엔지니어링의 백미입니다.
### 4. Hands-on / Pragmatic Use Cases (당장 내 프로젝트에 어떻게 쓰는데?)
그렇다면 이 ‘자율 리서치 루프’ 패턴을 현업에 어떻게 써먹을 수 있을까요?
첫째, 사내 정형 데이터(Tabular Data)를 위한 ‘자동화 피처 팩토리’ 구축입니다. 이커머스의 CTR 예측이나 금융권의 신용평가 모델을 다룰 때, 우리는 늘 “최근 3일 이동평균, 14일 누적 거래액…” 같은 뻔하고 지루한 파생 변수를 만듭니다. checklist-prompt.md 기반의 에이전트 시스템을 GitHub Actions 등에 올려보세요. 금요일 퇴근 전 “주말 동안 사용자 행동 로그 테이블을 바탕으로 트리 모델 기반 파생 피처 100개를 테스트하고, OOF 스코어가 1% 이상 오르는 것만 PR로 올려”라고 지시해두는 겁니다. 월요일 아침, 에이전트가 남겨둔 JOURNAL.md를 읽으며 커피를 마시는 우아한 일상이 가능해집니다.
둘째, 동적 앙상블 조합(Dynamic Ensemble Routing)의 자동화입니다. 이 프로젝트에서는 두 가지 모델(Iteration 69, Iteration 71)의 확률 격차에 따라 가중치를 동적으로 조절하는 라우터를 사용했습니다(예: 격차가 0.040 이하면 69모델을 56% 사용). 이런 임계값(Threshold)을 인간이 일일이 하드코딩하는 대신, 에이전트에게 검증 폴드의 결과를 바탕으로 최적의 앙상블 라우팅 룰을 지속적으로 탐색하게 시키는 CI/CD 파이프라인을 구축할 수 있습니다.
### 5. Honest Review (진짜 장단점과 트레이드오프)
아무리 그랜드마스터의 아키텍처라도 단점은 존재합니다. 이 시스템 도입을 고민하는 현업 개발자라면 다음의 치명적인 트레이드오프를 반드시 고려해야 합니다.
프록시 지표의 함정 (The Validation Trap):
가장 무서운 점은 검증 로직에 단 0.001%의 틈이라도 있다면 시스템 전체가 붕괴한다는 것입니다. 에이전트는 비즈니스 임팩트에는 관심이 없고 오직 수치적 타겟에만 반응합니다. 만약 시계열 분할(Time-series split) 과정에서 미래의 정보가 미세하게 새어나가는 피처를 에이전트가 발견한다면, 그것이 버그인지도 모른 채 스코어를 폭발적으로 올리기 위해 해당 피처에 모델의 모든 가중치를 몰빵할 것입니다. 인간의 역할은 코딩에서 결함 없는 완벽한 평가 지표(Metric)를 설계하는 것으로 훨씬 무거워졌습니다.
점진적 망각과 끔찍한 API 비용:
에이전트가 수십 개의 피처를 테스트하며 긴 컨텍스트(Context)를 이어가다 보면, 초기 프롬프트에 명시된 치명적인 제약 조건을 잊어버리는 ‘점진적 망각’ 현상이 발생합니다. 저자가 “부분적인 진행을 종료로 간주하지 마라”라고 거듭 강조해야 했던 이유도 이 때문입니다. 에이전트는 생각보다 쉽게 지루해하고 타협하려 듭니다. 게다가 이 루프가 한 번 폭주하기 시작하면, 백그라운드에서 돌아가는 무거운 XGBoost 훈련 비용과 LLM API 호출 비용이 겹쳐 다음 달 AWS 청구서에 재앙이 닥칠 수도 있습니다.
### 6. Closing Thoughts (우리의 역할은 어떻게 변하는가)
ledmaster/ml-mania-2026은 단순히 캐글 대회의 해답을 넘어서, 앞으로 ML 엔지니어라는 직업이 어떻게 변해야 하는지를 묻는 묵직한 프리뷰입니다. 과거의 우리가 탄광에서 직접 석탄을 캐고 데이터를 버무리는 육체노동자였다면, 이제 우리는 자율화된 공장의 파이프라인을 설계하고 품질을 검수하는 아키텍트이자 오케스트라의 지휘자(Conductor)로 진화해야 합니다.
에이전트가 며칠 밤낮을 새워 수백 개의 피처를 대신 깎아주는 시대. 역설적이게도 지금 가장 빛을 발하는 역량은, 화려한 코딩 스킬이 아니라 ‘비즈니스 도메인의 본질을 꿰뚫는 통찰’과 ‘절대 타협하지 않는 깐깐한 검증 로직’을 벼려내는 인간 고유의 집요함입니다. 이번 주말, 여러분의 사이드 프로젝트에도 이 거대한 자율 루프의 철학을 슬쩍 도입해 보는 건 어떨까요?
References
- https://github.com/ledmaster/ml-mania-2026
- https://www.kaggle.com/competitions/march-machine-learning-mania-2026
This post is licensed under CC BY 4.0 by the author.
