논문 : https://arxiv.org/pdf/2501.04519
제목 : rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
발행일자 : 8 Jan 2025
저자: Xinyu Guan∗ Li Lyna Zhang∗ Yifei Liu Ning Shang Youran Sun Yi Zhu Fan Yang Mao Yang
논문 내용 :
1. 연구 목표 & 배경
- **Small Language Models (SLMs)**도 대형 모델(OpenAI o1 등) 수준의 수학 추론을 달성할 수 있는가?
- 단순 CoT(System 1) 방식은 오류 많음 → 테스트 시점에서 더 깊은 추론(System 2: Monte Carlo Tree Search, MCTS) 활용.
- 주요 과제:
- ① 고품질 수학 데이터 부족(특히 중간 단계 정확도 보장 데이터).
- ② 중간 과정 평가(과정 보상 모델, PRM) 학습이 어려움(정확한 스텝별 보상 생성 불가).
- ③ GPT-4 등 대형 교사 모델에 의존한 distillation은 교사 모델을 넘기 힘듦.
2. 핵심 아이디어: Self-Evolved Deep Thinking
- MCTS 기반 “deep thinking”:
- 문제를 단계별(stepwise)로 풀되, 각 단계 코드를 실행해 중간 스텝의 타당성 검증 → 연쇄적 탐색과 Q-value로 좋은 경로를 확률 높게 탐색.
- **Policy Model(수학 추론 SLM) + Process Reward Model(PPM)**를 self-evolution 방식으로 동시 향상:
- (A) MCTS로 다수 경로(trajectory) 생성 → Q-value 부여.
- (B) 양질의 경로만 골라 Policy 모델 SFT 재학습.
- (C) PPM(과정 보상 모델)은 Q-value를 이용하되, 절대 점수 대신 “양/음 스텝”을 pairwise preference로 학습.
- (D) 라운드를 4차례 반복 → 더 어려운 문제도 풀고 데이터 품질↑, 모델·PPM도 점진적 향상.
3. 세 가지 혁신
- Code-augmented CoT Data Synthesis
- 각 스텝(CoT)마다 파이썬 코드를 생성·실행 → 성공(정상 동작) 스텝만 남김.
- MCTS 롤아웃을 광범위하게 수행, 중간 스텝 품질 향상 + Q-value로 “정답 기여도” 반영.
- Process Preference Model (PPM)
- 기존 PRM은 “스텝별 점수”가 노이즈 크다 → Q-value로 상·하위 스텝만 구분해 pairwise 랭킹 학습.
- 세밀한 등급 대신 “이 스텝이 나은가, 저 스텝이 나은가” 구조로 노이즈 문제 해결.
- Self-Evolution 레시피
- (Round 1) 대략적인 부트스트랩 모델 준비 → (Round 2~4) 새 모델·PPM으로 MCTS, 고품질 데이터 계속 축적 → 한층 강한 모델·PPM 탄생.
- 최종 4라운드 후, 올림피아드 수준 문제도 상당수 해결.
4. 결과 요약
- MATH 벤치마크:
- 예) Qwen2.5-Math-7B 모델을 58.8% → 90.0%로 향상(오픈AI o1-preview보다 높음, o1-mini(90%)와 대등).
- AIME 2024: 평균 15문항 중 8문항 해결(53.3%), 상위 20% 고교생 수준.
- 다른 벤치마크(AMC 2023, College Math, Gaokao, etc.)도 SoTA 갱신 또는 동등.
- 자기반성(Self-reflection) 관찰:
- 모델이 MCTS 도중 “초반 스텝이 잘못됨”을 깨닫고, 다른 경로로 전환해 정답 도달.
- PPM이 결정적 역할:
- Policy 모델이 어느 정도 수준에 오르면, PPM이 최종 성능 상한을 결정.
- 정리(lemma) 적용 스텝 등 핵심 중간 단계를 높은 점수로 인식.
5. 결론 & 시사점
- 소규모 모델(≤7B)도 대형 모델(AI수준)에 근접 or 초과하는 고난이도 수학 추론 달성 가능 → MCTS + PPM 기반 System 2 추론 덕분.
- Distillation 없이도 스스로 고품질 중간 데이터 생성 가능 → “한계는 교사 모델 성능”이라는 기존 인식 뛰어넘음.
- 확장성: 다른 도메인(코드, 일반 추론 등)에도 적용 가능하나, 중간 스텝 정확도 평가(feedback) 기제 필요(테스트 케이스, 휴먼 라벨, etc.).
한 줄로 요약:
rStar-Math는 소규모 LLM이 MCTS “deep thinking”과 **자체 보상 모델(PPM)**로 대형 모델급 수학 추론을 달성하는 혁신적 접근이며, 중간 스텝 검증(코드 실행) + self-evolution + preference 보상 방식을 통해 성능을 단계적으로 끌어올린 사례다.