샘 알트먼이 OpenAI 이사회에 의해 갑작스럽게 CEO에서 해임되었다가, 협상 끝에 극적으로 복귀했습니다. 이사회는 알트먼이 '진실되지 못했다'고 주장했으나, 상세한 설명을 거부하자 직원들은 이사회 사임을 요구하는 청원을 시작했고, 그렇지 않을 경우 마이크로소프트로 떠나겠다고 밝혔습니다.
로이터 보도에 따르면, 샘 알트먼의 해임은 Q*라는 내부 연구 돌파구 직전에 이루어졌습니다. Q*는 트리 검색을 통해 수학 벤치마크에서 언어 모델 성능을 향상시켰습니다. 이후 몇 달간 이 소문은 연구 커뮤니티를 뜨겁게 달궜고, Q*는 결국 o1(코드명 Strawberry)으로 발전했습니다.
'12 Days of OpenAI' 행사의 12일째 되는 날, OpenAI가 o3 모델의 벤치마크 결과를 발표하며 전 세계를 놀라게 했습니다. 이 모델은 ARC-AGI 벤치마크에서 87.5%라는 획기적인 점수를 기록하며, AGI가 많은 회의론자들이 생각했던 것보다 가까이 있을 가능성을 시사했습니다.
Anthropic이 확장된 사고 능력과 수학 및 코드 벤치마크에서 향상된 성능을 자랑하는 최초의 모델 Claude 3.7 Sonnet을 출시했습니다. 포켓몬 비디오 게임을 진행할 수 있는 비분포적 능력도 선보였습니다. 또한 강력한 에이전트 코딩 도구 Claude Code도 함께 공개했습니다.