디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

오픈AI 신모델 o3-mini

초존도초갤로그로 이동합니다. 2025.02.01 23:30:02
조회 31144 추천 72 댓글 120



2025년 1월 31일


OpenAI o3-mini

비용 효율적인 추론의 한계를 넓히다.


OpenAI는 오늘 ChatGPT와 API에서 모두 사용 가능한 추론 시리즈의 최신 모델이자 가장 비용 효율적인 모델인 OpenAI o3-mini를 출시합니다. 2024년 12월에 미리 공개되었던 이 강력하고 빠른 모델은 소형 모델이 달성할 수 있는 범위를 확장하여, OpenAI o1-mini의 저렴한 비용과 낮은 지연 시간을 유지하면서도 탁월한 STEM(과학, 기술, 공학, 수학) 역량을 제공합니다. 특히 과학, 수학, 코딩 분야에서 뛰어난 강점을 보입니다.


OpenAI o3-mini는 함수 호출, 구조화된 출력, 개발자 메시지와 같이 개발자들이 가장 많이 요청했던 기능들을 최초로 지원하는 소형 추론 모델로, 출시와 동시에 바로 프로덕션 환경에 투입할 수 있습니다. OpenAI o1-mini 및 OpenAI o1-preview와 마찬가지로 o3-mini는 스트리밍을 지원합니다. 또한 개발자는 사용 사례에 맞춰 최적화할 수 있도록 낮음, 중간, 높음의 세 가지 추론 노력 옵션 중에서 선택할 수 있습니다. 이러한 유연성을 통해 o3-mini는 복잡한 문제에 도전할 때는 "더욱 심층적인 사고"를 할 수 있고, 지연 시간이 중요한 경우에는 속도를 우선시할 수 있습니다. o3-mini는 시각 기능을 지원하지 않으므로, 시각적 추론 작업에는 OpenAI o1을 계속 사용해야 합니다. o3-mini는 오늘부터 Chat Completions API, Assistants API, Batch API를 통해 API 사용량 티어 3-5에 해당하는 일부 개발자들에게 순차적으로 제공됩니다.


ChatGPT Plus, Team, Pro 사용자들은 오늘부터 OpenAI o3-mini를 이용할 수 있으며, Enterprise 액세스는 1주일 후에 제공될 예정입니다. o3-mini는 모델 선택기에서 OpenAI o1-mini를 대체하여 더 높은 속도 제한과 더 낮은 지연 시간을 제공하므로, 코딩, STEM, 논리적 문제 해결 작업에 매력적인 선택이 될 것입니다. 이번 업그레이드의 일환으로 Plus 및 Team 사용자의 속도 제한을 o1-mini 사용 시 하루 50 메시지에서 o3-mini 사용 시 하루 150 메시지로 세 배 늘립니다. 또한 o3-mini는 이제 검색 기능을 통해 관련 웹 소스 링크와 함께 최신 답변을 찾을 수 있습니다. 이는 모든 추론 모델에 검색 기능을 통합하기 위한 초기 프로토타입입니다.


오늘부터 무료 플랜 사용자도 메시지 작성기에서 '추론'을 선택하거나 응답을 다시 생성하여 OpenAI o3-mini를 사용해 볼 수 있습니다. 이는 ChatGPT 무료 사용자에게 추론 모델이 제공되는 최초의 사례입니다.


OpenAI o1이 여전히 더 폭넓은 일반 지식 추론 모델로 남아 있는 반면, OpenAI o3-mini는 정밀성과 속도를 요구하는 기술 분야를 위한 특화된 대안을 제공합니다. ChatGPT에서 o3-mini는 중간 수준의 추론 노력을 사용하여 속도와 정확성 사이의 균형 잡힌 절충점을 제공합니다. 모든 유료 사용자는 모델 선택기에서 o3-mini-high를 선택하여 응답 생성에 시간이 조금 더 걸리지만 더 높은 지능을 가진 버전을 사용할 수도 있습니다. Pro 사용자는 o3-mini와 o3-mini-high 모두 무제한으로 액세스할 수 있습니다.


빠르고 강력하며 STEM 추론에 최적화


OpenAI o3-mini는 이전 모델인 OpenAI o1과 유사하게 STEM 추론에 최적화되었습니다. 중간 수준의 추론 노력을 사용하는 o3-mini는 수학, 코딩, 과학 분야에서 o1과 동등한 성능을 제공하면서도 더 빠른 응답 속도를 자랑합니다. 전문가 테스터들의 평가에 따르면 o3-mini는 OpenAI o1-mini보다 더 정확하고 명확한 답변을 생성하며, 더 강력한 추론 능력을 보여줍니다. 테스터들은 o1-mini보다 o3-mini의 응답을 56% 더 선호했으며, 어려운 실제 문제에서 심각한 오류가 39% 감소하는 것을 확인했습니다. 중간 수준의 추론 노력을 통해 o3-mini는 AIME 및 GPQA를 포함한 가장 까다로운 추론 및 지능 평가에서 o1과 동등한 성능을 보입니다.



경시대회 수학 (AIME 2024)


1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a254d454e467937d484b9fcef5d6e9ca84684ccbf37bf0b0b77


수학: 낮은 추론 노력을 사용하는 OpenAI o3-mini는 OpenAI o1-mini와 비슷한 성능을 보이며, 중간 수준의 노력을 사용하면 o3-mini는 o1과 비슷한 성능을 보입니다. 한편, 높은 추론 노력을 사용하면 o3-mini는 OpenAI o1-mini와 OpenAI o1 모두를 능가합니다.



박사 수준 과학 문제 (GPQA Diamond)


1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a254d444fe273a30b309a44d90f837b2b7c22b5ce6e7eefda9e



FrontierMath


1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a254d47449ec679433528dd4955017f1297fb3b3f877a6c4a


연구 수준 수학: 높은 추론 노력을 사용하는 OpenAI o3-mini는 FrontierMath에서 이전 모델보다 더 나은 성능을 보입니다. FrontierMath에서 Python 도구를 사용하도록 요청받았을 때, 높은 추론 노력을 사용하는 o3-mini는 어려운 (T3) 문제의 28% 이상을 포함하여 문제의 32% 이상을 첫 번째 시도에 해결합니다.



경시대회 코딩 (Codeforces)


1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a244d44452f03d8676e549ded73e52c83e9a6023d0aee79cfd4


경시대회 코딩: OpenAI o3-mini는 추론 노력이 증가함에 따라 점진적으로 더 높은 Elo 점수를 달성하며, 모두 o1-mini를 능가합니다. 중간 수준의 추론 노력을 사용하면 o1과 동등한 성능을 보입니다.



소프트웨어 엔지니어링 (SWE-bench Verified)


1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a244d47452cb71ddf65936209b37726315f40fc760e0015998c


소프트웨어 엔지니어링: o3-mini는 SWE-bench Verified에서 가장 뛰어난 성능을 보이는 모델입니다. 오픈 소스 Agentless 스캐폴드(39%) 및 내부 도구 스캐폴드(61%)를 포함하여 높은 추론 노력을 사용한 SWE-bench Verified 결과에 대한 추가 데이터 포인트는 시스템 카드에서 확인할 수 있습니다.



LiveBench 코딩


1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a274d454d6d64561936c3883d6943f64e407413d4b85ab68a



인간 선호도 평가


1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a274d464a406ee04c4208dbe05471fd7808a327bfe850c7c6

1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a274d414879ea34a4bda428aa9c78a6a46913775fb255115ae3


인간 선호도 평가: 외부 전문가 테스터들의 평가에서도 OpenAI o3-mini가 OpenAI o1-mini보다 특히 STEM 분야에서 더 정확하고 명확한 답변을 생성하며, 더 강력한 추론 능력을 보여주는 것으로 나타났습니다. 테스터들은 o1-mini보다 o3-mini의 응답을 56% 더 선호했으며, 어려운 실제 문제에서 심각한 오류가 39% 감소하는 것을 확인했습니다.



모델 속도 및 성능


OpenAI o1과 비슷한 지능을 가진 OpenAI o3-mini는 더 빠른 성능과 향상된 효율성을 제공합니다. 위에 강조된 STEM 평가 외에도 o3-mini는 중간 수준의 추론 노력을 통해 추가적인 수학 및 사실성 평가에서 뛰어난 결과를 보여줍니다. A/B 테스트에서 o3-mini는 o1-mini보다 24% 더 빠른 응답 속도를 보였으며, 평균 응답 시간은 10.16초에 비해 7.7초였습니다.



o1-mini와 o3-mini (중간) 간의 지연 시간 비교


7cf3c028e2f206a26d81f6ec44817565

7ff3c028e2f206a26d81f6e04086756f



안전성


OpenAI o3-mini가 안전하게 응답하도록 가르치는 데 사용된 주요 기술 중 하나는 심사숙고 정렬(deliberative alignment)입니다. 이는 모델이 사용자 프롬프트에 답변하기 전에 인간이 작성한 안전 사양에 대해 추론하도록 훈련시키는 것입니다. OpenAI o1과 마찬가지로 o3-mini는 까다로운 안전 및 탈옥 평가에서 GPT-4o를 훨씬 능가하는 것으로 나타났습니다. 배포 전에 o3-mini의 안전 위험을 o1과 동일한 준비성, 외부 레드팀 운영, 안전성 평가 접근 방식을 사용하여 신중하게 평가했습니다. 초기 액세스에서 o3-mini를 테스트하기 위해 지원해주신 안전 테스터들에게 감사드립니다. 잠재적 위험 및 완화 효과에 대한 포괄적인 설명과 함께 아래 평가에 대한 자세한 내용은 o3-mini 시스템 카드에서 확인할 수 있습니다.



금지된 콘텐츠 평가


1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a264d404afb11d2290ebf98783dc6b1f9551e22a6c48f9e1d



탈옥 평가


1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a294d474f1a1977e2a201b33f9f99680e083705da94caa4a2



향후 계획


OpenAI o3-mini의 출시는 비용 효율적인 지능의 한계를 넓히려는 OpenAI의 미션에 또 다른 발걸음을 내딛는 것입니다. STEM 분야에 대한 추론을 최적화하면서 비용을 낮게 유지함으로써, 우리는 고품질 AI를 더욱 접근하기 쉽게 만들고 있습니다. 이 모델은 GPT-4 출시 이후 토큰당 가격을 95% 절감하면서도 최상위 수준의 추론 능력을 유지하는 등 지능 비용을 지속적으로 낮추는 우리의 행보를 이어갑니다. AI 도입이 확대됨에 따라, 우리는 지능, 효율성, 안전성 간의 균형을 맞춘 모델을 대규모로 구축하여 최전선에서 선도하기 위해 끊임없이 노력할 것입니다.




https://openai.com/index/openai-o3-mini/

 





출처: 특이점이 온다 갤러리 [원본 보기]

추천 비추천

72

고정닉 35

19

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 사회생활 대처와 처세술이 '만렙'일 것 같은 스타는? 운영자 25/03/31 - -
이슈 [디시人터뷰] LPBA의 차세대 스타, 당구선수 정수빈 운영자 25/04/02 - -
317686
썸네일
[새갤] 권성동 "이재명·김어준 총 72명 내란죄 고발"
[434]
ㅇㅇ갤로그로 이동합니다. 03.29 18078 334
317684
썸네일
[특갤] GPT로 웹툰 만들어봤으니까 님들이 판단해보셈
[469]
등짝푸른생선갤로그로 이동합니다. 03.29 33033 145
317682
썸네일
[새갤] 트럼프 "여성이란 특정상황서 아이를 가질 수 있는 사람을 의미"
[604]
개혁적고닉갤로그로 이동합니다. 03.29 30244 444
317678
썸네일
[기갤] [단독] ‘정신질환 강제 입원’ 2배로 늘었는데, 치료 병동은 폐쇄·축소
[147]
ㅇㅇ갤로그로 이동합니다. 03.29 18069 42
317676
썸네일
[싱갤] 싱글벙글 조선총독부 역대 총독들 모음
[423]
dnjsxn갤로그로 이동합니다. 03.29 19407 79
317674
썸네일
[일갤] [내가 다녀온 마츠리] 가라쓰군치(가라쓰) 방문기②
[23]
엉겅쿤갤로그로 이동합니다. 03.29 9072 23
317672
썸네일
[M갤] 내츠 개막전 선발 고어 6이닝 무사사구 무실점 13Kㅋㅋㅋ.gif
[26]
유동이미래다갤로그로 이동합니다. 03.29 10850 24
317670
썸네일
[군갤] 2차대전 당시 침몰한 함선은 건들지 않는것이 국제관례임
[190]
빌로우갤로그로 이동합니다. 03.29 32215 215
317668
썸네일
[싱갤] 안싱글벙글 이제 한국인 영구 출입금지된 대마도 신사
[732]
ㅇㅇ갤로그로 이동합니다. 03.29 48726 363
317666
썸네일
[기갤] 도난당한 사료 업체에서 소식듣고 2톤 기부
[233]
ㅇㅇ(118.235) 03.29 20178 62
317664
썸네일
[걸갤] 릇 덕분에 국뽕을 느꼈다는 스트리머 ㄷㄷㄷㄷ
[278]
걸갤러(58.233) 03.29 40551 290
317662
썸네일
[그갤] 8년간 그림체 변화 입니다.
[292]
함마파워갤로그로 이동합니다. 03.29 27481 146
317660
썸네일
[김갤] 리얼에서 이사랑한테 자리뺐긴 이정섭 감독 근황...twitter
[219]
김갤러(221.141) 03.29 35668 714
317656
썸네일
[디갤] 당일치기 대마도 히타카츠 한바퀴
[66]
온난전선갤로그로 이동합니다. 03.29 7635 29
317654
썸네일
[기갤] [단독] 한예슬 기사에 ‘날라리, 양아치’ 악플 무죄로 뒤집혔다.jpg
[383]
ㅇㅇ갤로그로 이동합니다. 03.29 24957 258
317652
썸네일
[새갤] 이기인 "시의원 시절 손가혁 이래, 간만에 욕이 만선"
[116]
보리콜라갤로그로 이동합니다. 03.29 14736 105
317650
썸네일
[싱갤] 싱글벙글 지브리 스타일로 그린 유명인들...
[259]
ㅇㅇ갤로그로 이동합니다. 03.29 33989 149
317648
썸네일
[주갤] 하루하루 열심히 정신없이 살다보니 마흔이 코 앞으로 와버린 노처녀 블라녀
[430]
갓럭키갤로그로 이동합니다. 03.29 33143 170
317646
썸네일
[국갤] 이재명 욕설 의혹, 숨소리 다
[1176]
이별의순간갤로그로 이동합니다. 03.29 43966 908
317644
썸네일
[걸갤] 돌고래입장문 머노ㅋㅋㅋㅋㅋㅋ
[244]
걸갤러(39.7) 03.29 44991 634
317642
썸네일
[케갤] 약간 희귀한 케이온 굿즈
[133]
케갤러(220.120) 03.29 22301 102
317640
썸네일
[싱갤] 싱글벙글 남들보다 두배 더 일하는 택배기사 달인
[340]
니지카엘갤로그로 이동합니다. 03.29 27476 191
317638
썸네일
[국갤] [단독] '사위 특혜채용 수사' 檢, 文 씨 소환 통보
[200]
ㅇㅇ갤로그로 이동합니다. 03.29 13516 365
317636
썸네일
[기갤] "해고된 직원이 가게 인스타그램 삭제했어요"…사장님 분통.jpg
[297]
ㅇㅇ갤로그로 이동합니다. 03.29 43030 189
317632
썸네일
[싱갤] 싱글벙글 정치적으로 올바르지 못한밈들 13
[164]
고이im갤로그로 이동합니다. 03.29 36024 177
317630
썸네일
[새갤] 미얀마 강진 사망자 1만명 넘을 확률 71%
[312]
삼수하고중대갤로그로 이동합니다. 03.29 23215 64
317628
썸네일
[가갤] 알아도 쓸모없는 스낵 상식
[104]
우주쓰레기갤로그로 이동합니다. 03.29 27713 128
317626
썸네일
[컴갤] DIY끝판왕 투명 LED 사이드패널 시공함
[142]
골로스갤로그로 이동합니다. 03.29 18441 41
317624
썸네일
[러갤] "김수현, 왜 설리에게 나체 강요했나" 유가족 충격적인 증언
[680]
배터리형갤로그로 이동합니다. 03.29 47430 406
317622
썸네일
[싱갤] 경북 산불 낸 혐의 50대 조사 예정
[665]
ㅁㅁ갤로그로 이동합니다. 03.29 43113 208
317620
썸네일
[U갤] 역대 UFC 부상 아웃 모음..txt
[47]
카카후카갤로그로 이동합니다. 03.29 21129 81
317618
썸네일
[미갤] 테슬라 딜러샵 방화범 잡힘
[303]
잔야갤로그로 이동합니다. 03.29 27899 269
317616
썸네일
[미갤] "문형배, 선고 않고 퇴임할 것"
[625]
윤통♡트통갤로그로 이동합니다. 03.29 33113 232
317614
썸네일
[싱갤] 싱글벙글 외계인
[232]
ㅇㅇ갤로그로 이동합니다. 03.29 30072 247
317610
썸네일
[기갤] 이진호, 김수현 논란 취재 불가 이유 "나 살자고 다른사람 머리채?"
[253]
ㅇㅇ갤로그로 이동합니다. 03.29 27411 99
317608
썸네일
[일갤] [내가 다녀온 마츠리] 작년 5월, 요코하마 벨기에 맥주 축제
[24]
ㅇㅇ갤로그로 이동합니다. 03.29 8734 22
317606
썸네일
[기갤] 편의점서 젤리 훔친 6살 아이…아버지는 사과 대신 '난동'.jpg
[762]
ㅇㅇ갤로그로 이동합니다. 03.29 29872 264
317604
썸네일
[싱갤] 오싹오싹..중국 댓글부대의 근간이 되는 책..jpg
[436]
아린퍄퍄갤로그로 이동합니다. 03.29 45289 574
317602
썸네일
[야갤] 백종원...안동산불 이재민에 무료식사 제공 ㄹㅇ...jpg
[884]
Adidas갤로그로 이동합니다. 03.29 50225 670
317600
썸네일
[해갤] 해군일기16편,17편 - 바다쓰레기와 백령도 , 수리와 외박
[48]
공노비96갤로그로 이동합니다. 03.29 11931 119
317598
썸네일
[더갤] [JTBC] 전한길, '이번 산불은 간첩의심' ㅋㅋㅋㅋㅋ
[1116]
헬마존잘갤로그로 이동합니다. 03.29 32667 375
317596
썸네일
[야갤] 연세대 의대생...눈치싸움 결과 ㄹㅇ...jpg
[527]
Adidas갤로그로 이동합니다. 03.29 58969 853
317594
썸네일
[미갤] 안동 산불 실시간 현재 상황!ㅠㅠㅠ!!!
[190]
ㅇㅇ갤로그로 이동합니다. 03.29 28259 110
317592
썸네일
[싱갤] 절단된 자기 다리를 물고 돌아온 고양이
[245]
타코피갤로그로 이동합니다. 03.29 35078 286
317588
썸네일
[기갤] 새로 공개된 김수현 김새론 카톡 모음
[593]
ㅇㅇ(118.235) 03.29 51448 369
317586
썸네일
[기갤] 학교 짱 출신 김영광이 기존의 짱과 싸운 일화.jpg
[218]
ㅇㅇ갤로그로 이동합니다. 03.29 21504 43
317584
썸네일
[러갤] 아인슈타인 "신은 주사위 놀이를 하지 않는다"
[375]
배터리형갤로그로 이동합니다. 03.29 28203 68
317582
썸네일
[싱갤] 의외의외 여초에서 빨렸던.....범죄영화.....jpg
[287]
ㅇㅇ갤로그로 이동합니다. 03.29 57315 343
317580
썸네일
[백갤] 예술) 개념간 기념으로 '나여 백종원' 그림판화 완료
[162]
더본미술팀갤로그로 이동합니다. 03.29 27279 495
317578
썸네일
[잡갤] 남자가 사라진 동탄 쿠팡 물류센터 근황...jpg
[1063]
빌애크먼갤로그로 이동합니다. 03.29 52531 972
뉴스 뉴진스 부모, SNS서 ‘NJZ’ 삭제 → “분열 같은 것 없어” [왓IS] 디시트렌드 10:00
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2