AI 언어모델의 사고력과 계산 능력을 비교 평가할 수 있는 좋은 기준이 되는 시험 문제가 있다. 바로 2025학년도 대학수학능력시험 수학 공통 22번 문항이다. 이 문제는 복잡한 이론이 필요한 문제는 아니지만, 조건 분기와 반복 계산이 많은 수열 문제로, AI가 얼마나 깊게 사고를 유지할 수 있는지를 확인하기에 적합한 테스트 케이스로 평가받는다.
문제 자체는 '노가다' 방식으로도 해결이 가능하지만, 계산 지속력, 조건 처리의 정밀함, 메모리 사용 효율이 중요한 관건이 된다.
과거 테스트 결과 (약 2개월 전 기준)
모델명 | 소요 시간 | 결과 | 특이사항 |
Claude 3.7 Sonnet | — | ❌ 오답 | 조건 분기 이해 부족 |
GPT o1 | — | ❌ 오답 | 사고 흐름은 좋았지만 조건 누락 |
GPT o3-mini | 1분 14초 | ❌ 오답 | 반복 계산 중 실수 |
GPT o3-mini-high | 2분 40초 | ✅ 정답 | 안정적인 사고 흐름과 정확한 분기 처리 |
Grok 3 (Think 모드) | 3분 33초 | ❌ 오답 | 사고는 완성도 있으나 중간 오류 발생 |
당시 테스트에서는 GPT o3 계열 중 고급형 모델(o3-mini-high)만이 문제를 정확히 해결했다. 반면, Claude 3.7 Sonnet과 Grok 3 Think 모드는 문제의 복잡한 조건을 모두 소화하지 못하고 계산 흐름을 유지하는 데 실패했다. GPT o1 역시 사고는 훌륭했지만 조건 하나를 간과해 오답을 냈다.
최근 테스트 결과 (2024년 4월 기준)
모델명 | 소요 시간 | 결과 | 특이사항 |
GPT o3 (full) | 4분 20초 | ✅ 정답 | 느리지만 모든 조건을 정확히 처리하며 자세한 해설 제공 |
GPT o4-mini | 39초 | ✅ 정답 | 빠르고 안정적인 계산, 코드 활용 포함 |
GPT o4-mini-high | 1분 50초 | ✅ 정답 | 사고 과정에서 Python 코드로 스스로의 로직을 검증 |
Grok 3 (Think 모드) | 242초 | ❌ 오답 | 사고는 길어졌으나 여전히 중간 계산 오류 |
Gemini 2.5 Pro | — | ✅ 정답 | 시간은 측정 불가, 빠르게 정확히 해결 |
이번에는 최신 모델들을 대상으로 동일 문제를 다시 테스트해본 결과, GPT-o4 계열(o4-mini, o4-mini-high)은 모두 정확한 해답을 빠른 시간 안에 도출해냈다.
- o4-mini는 39초 만에 문제를 해결했고, 코드 활용까지 진행하며 사고 흐름과 계산이 모두 안정적이었다.
- o4-mini-high는 더 긴 시간을 들였지만, Python 코드를 활용해 자신의 논리를 검증하는 특징을 보였다.
특이할 점은, 이번에도 Grok 3 Think 모드는 242초 동안 사고를 지속했음에도 불구하고 중간 계산 오류로 오답을 냈다는 점이다. 오랜 사고 시간에도 불구하고 조건 처리 정밀도에서는 한계가 드러났다.
또한 최근 호평받고 있는 Google의 Gemini 2.5 Pro 모델도 테스트에 포함되었는데, 구체적인 처리 시간은 제공되지 않았지만, 빠르고 정확하게 문제를 해결하는 모습을 보였다. 복잡한 조건 분기와 반복 수열 처리에서 딜레이 없이 안정적인 흐름을 보였다는 점에서 주목할 만하다.
종합 평가
이번 테스트들을 통해 확인된 점은 다음과 같다:
- 최신 GPT-o4 계열은 속도와 정확성, 사고 과정의 안정성 모두에서 뚜렷한 우위를 보이고 있다.
- 특히 o4-mini와 o4-mini-high는 코드를 활용한 자기 검증, 빠른 계산, 조건 분기 처리 등에서 매우 안정적인 퍼포먼스를 기록했다.
- 반면 Claude 3.7 Sonnet과 Grok 3는 수학적 사고력이 필요한 조건 분기 수열 문제에서 아직까지는 한계가 존재함을 보여준다.
- Gemini 2.5 Pro는 빠르고 정확한 응답을 바탕으로 실전 활용성이 높은 모델로 평가된다.
수열 문제와 같은 반복 계산 문제 하나로도 AI 모델의 사고 지속성, 조건 분기 정확도, 자기 점검 능력의 차이를 명확히 파악할 수 있다. 앞으로 AI 모델의 진화는 단순한 정보 제공을 넘어, 정확한 추론과 자기 검증 능력의 고도화에 달려 있음을 다시금 확인하게 되는 사례라 할 수 있다.
아래는 Chat GPT 대화 링크이다. 모두 수능 문제 PDF 파일 캡쳐 파일을 그대로 보여주는 식으로 질문 방식을 통일했다.
o4-mini 문제 풀이 결과
https://chatgpt.com/share/67fff680-c438-800a-94eb-dc24e0481a25
ChatGPT - 수학 문제 풀이
Shared via ChatGPT
chatgpt.com
o4-mini-high 문제 풀이 결과
https://chatgpt.com/share/67fff69a-d1c4-800a-9f7c-5f8d3c13af9a
ChatGPT - 재귀 함수 문제 풀이
Shared via ChatGPT
chatgpt.com
o3 문제 풀이 결과
https://chatgpt.com/share/67fff847-6f38-800a-9404-f946d445d451
ChatGPT - 수열 문제 풀이
Shared via ChatGPT
chatgpt.com
'IT' 카테고리의 다른 글
OpenAI 기업 구조 전환: AI의 미래를 둘러싼 뜨거운 논쟁 (0) | 2025.05.02 |
---|---|
애플 앱스토어 정책 변경: 에픽게임즈 승소로 결제 시스템 혁명 (0) | 2025.05.02 |
트럼프 관세 정책, AI 인프라 구축에 빨간불... 빅테크 투자 계획 차질 우려 (1) | 2025.04.05 |
OpenAI의 오픈 가중치 언어 모델 출시 계획과 AI 생태계의 변화 (0) | 2025.04.02 |
2025년 AI 기반 드림보드: 전통적 시각화와 첨단 AI의 만남 (0) | 2025.03.28 |