AI 벤치마크 대시보드

최신 인공지능 모델들의 성능을 다양한 벤치마크로 비교해보세요

Aider Polyglot
Fiction.LiveBench
VPCT
GPQA Diamond
Frontier Math
Math Level 5
OTIS Mock AIME
SWE Bench Verified
WeirdML
Balrog
Factorio
GeoBench
SimpleBench

그래프 설정

뷰 타입
그래프
테이블
그룹 별 색깔 지정
그룹 기준
국가
기관

Aider Polyglot

Aider Polyglot 벤치마크는 LLM과 AI 코딩 에이전트의 실제 코딩 능력을 평가하기 위해 고안된 종합적이고 까다로운 벤치마크입니다.

C++, Go, Java, JavaScript, Python, Rust등 6개의 주요 프로그래밍 언어의 문제를 포함하며, Exercism 플랫폼에서 가장 어려운 225개의 코딩 문제를 선별하여, 단순 코드 생성이 아니라 실제 개발 환경에서 필요한 문제 해결력과 코드 통합 능력을 평가합니다.

공식 결과는 Aider Polyglot에서 확인할 수 있습니다.

데이터 출처 및 라이센스

Citation: Epoch AI, 'AI Benchmarking Hub'. Published online at epoch.ai. Retrieved from https://epoch.ai/data/ai-benchmarking-dashboard [online resource]. Accessed 24 Jun 2025.

라이센스: 이 데이터는 CC BY 라이센스 하에 제공됩니다.