챗GPT의 추론(reasoning) 기능은 언제 어떻게 써야할지 명확하지 않다.
다행히 오픈AI에서 추론 기능 가이드를 제공한다.
영어로 씌여있고, 내용이 방대하다.
한국어로 번역하고, 쉽게 요약해보려고 한다.
우선 첫번째 페이지부터 시작.
OpenAI는 크게 두 가지 유형의 모델을 제공합니다.
하나는 추론 모델(o1, o3-mini 등)이고, 다른 하나는 GPT 모델(GPT-4o 등)입니다.
쉽게 구분하려면, o가 앞에 오면 추론 기능이 있고, 숫자가 앞에 오면 일반GPT모델입니다.
추론 모델은 복잡한 문제를 깊이 있게 분석하고, GPT 모델은 속도와 비용을 중시하는 간단한 작업에 적합합니다.
추론 모델은 복잡한 데이터나 문제에 대한 깊이 있는 분석이 필요할 때 주로 사용됩니다.
예를 들어, 금융, 법률 서비스 등 전문적인 분야에서 정확한 의사 결정을 내리는 데 큰 도움이 됩니다.
이 모델은 상세하게 정보를 분석하고, 까다로운 문제에 대한 해결책을 제시하는 데 특화되어 있습니다.
반면, GPT 모델은 빠르고 비용 효율적인 작업 수행에 적합합니다.
이 모델은 정확성보다는 속도가 중요한 작업에 사용되며, 간단한 명령에 따라 빠르게 반응하여 작업을 수행합니다.
예를 들어, 데이터 입력, 간단한 요약 작성 등 일상적인 작업에 자주 사용됩니다.
모델 선택 기준
대부분의 경우, 이 두 모델은 상호 보완적으로 작동하여, 전략적 계획과 실행 단계에서 각각의 장점을 발휘합니다.
예를 들어, 추론 모델로 전략을 수립하고, GPT 모델로 구체적인 실행을 담당하게 하는 식입니다.
추론 모델을 사용할 때는 명확하고 간결한 프롬프트가 중요합니다.
불필요한 복잡성을 줄이고, 모델이 집중할 수 있도록 구체적인 지시를 제공해야 합니다.
반면, GPT 모델은 더 자유롭고 간단한 지시에도 잘 반응합니다.
이러한 지침을 바탕으로 각각의 상황에 맞는 모델을 선택하고, 최적의 결과를 얻을 수 있도록 설정하는 것이 중요합니다. 모델의 선택과 사용 방법에 대해 더 자세히 알고 싶다면, OpenAI의 웹사이트를 참고하거나 관련 가이드라인을 검토하시는 것을 추천합니다.
(아래는 페이지 원문을 한국어로 번역한 내용. 번역에는 퍼플렉시티를 이용했다.)
OpenAI는 추론 모델(o1, o3-mini 등)과 GPT 모델(GPT-4o 등)이라는 두 가지 유형의 모델을 제공합니다. 이 모델들은 서로 다른 방식으로 작동합니다.
이 가이드에서는 다음 내용을 다룹니다:
GPT 모델과 비교했을 때, o-시리즈 모델은 다른 작업에 특화되어 있으며, 다른 프롬프트를 필요로 합니다. 어느 한 모델이 다른 모델보다 낫다고 할 수는 없습니다. 단지 다를 뿐입니다.
저희는 o-시리즈 모델("설계자 Planner")이 복잡한 작업에 대해 더 오랫동안 심층적으로 생각하도록 훈련시켰습니다. 따라서 이 모델은 전략 수립, 복잡한 문제에 대한 해결책 계획, 방대한 양의 모호한 정보를 기반으로 의사 결정을 내리는 데 효과적입니다. 또한, 이러한 모델은 높은 정확성과 정밀도로 작업을 수행할 수 있어 수학, 과학, 엔지니어링, 금융 서비스, 법률 서비스와 같이 인간 전문가가 필요한 분야에 이상적입니다.
반면에, 더 낮은 지연 시간과 더 비용 효율적인 GPT 모델("일꾼 workhorses")은 간단한 실행을 위해 설계되었습니다. 애플리케이션은 o-시리즈 모델을 사용하여 문제 해결 전략을 계획하고, GPT 모델을 사용하여 특히 속도와 비용이 완벽한 정확성보다 중요한 경우 특정 작업을 실행할 수 있습니다.
사용 사례에 가장 중요한 것은 무엇입니까?
작업을 완료할 때 속도와 비용이 가장 중요한 요소이고, 사용 사례가 간단하고 명확하게 정의된 작업으로 구성되어 있다면 GPT 모델이 가장 적합합니다. 그러나 정확성과 신뢰성이 가장 중요한 요소이고, 해결해야 할 매우 복잡하고 다단계적인 문제가 있다면 o-시리즈 모델이 적합할 가능성이 높습니다.
대부분의 AI 워크플로는 o-시리즈 모델(에이전트 기반 계획 및 의사 결정)과 GPT 시리즈 모델(작업 실행)을 모두 조합하여 사용합니다.
다음은 고객과 OpenAI 내부에서 관찰한 성공적인 사용 패턴의 몇 가지 예입니다. 이것은 가능한 모든 사용 사례에 대한 포괄적인 검토가 아니라, o-시리즈 모델을 테스트하기 위한 실용적인 지침입니다.
(추론 모델을 사용할 준비가 되셨습니까? 빠른 시작으로 건너뛰기 → 추론 가이드)
추론 모델은 제한된 정보 또는 분리된 정보를 가지고 간단한 프롬프트만으로 사용자의 의도를 이해하고 지침의 부족한 부분을 처리하는 데 특히 능숙합니다. 실제로 추론 모델은 근거 없는 추측을 하거나 정보 격차를 메우려고 시도하기 전에 명확하게 묻는 질문을 하는 경우가 많습니다.
"o1의 추론 능력 덕분에 당사의 다중 에이전트 플랫폼 Matrix는 복잡한 문서를 처리할 때 완전하고 잘 구성되고 상세한 응답을 생성할 수 있습니다. 예를 들어, o1은 기본적인 프롬프트만으로 신용 계약에서 제한된 지급 능력 하에 사용할 수 있는 바구니를 쉽게 식별할 수 있었습니다. 이전 모델은 이만큼 성능이 좋지 않았습니다. o1은 다른 모델에 비해 복잡한 신용 계약 프롬프트의 52%에서 더 강력한 결과를 얻었습니다."
— Hebbia, 법률 및 금융 분야 AI 지식 플랫폼 회사
방대한 양의 비정형 정보를 전달할 때, 추론 모델은 질문에 답변하기 위해 가장 관련성이 높은 정보만 이해하고 추출하는 데 탁월합니다.
"회사의 인수를 분석하기 위해 o1은 계약 및 임대와 같은 수십 건의 회사 문서를 검토하여 거래에 영향을 미칠 수 있는 까다로운 조건을 찾았습니다. 모델은 핵심 용어를 표시하는 임무를 맡았고, 각주에서 중요한 "지배권 변경" 조항을 식별했습니다. 회사가 매각되면 즉시 7,500만 달러의 대출금을 갚아야 한다는 내용이었습니다. o1의 뛰어난 주의력 덕분에 당사의 AI 에이전트는 금융 전문가가 중요한 정보를 식별하도록 지원할 수 있습니다."
— Endex, AI 금융 정보 플랫폼
추론 모델은 법률 계약, 재무 제표 및 보험 청구와 같이 수백 페이지의 조밀하고 비정형 정보가 있는 복잡한 문서를 추론하는 데 특히 능숙합니다. 모델은 문서 간의 유사점을 도출하고 데이터에 표현된 암묵적인 진실을 기반으로 의사 결정을 내리는 데 특히 강합니다.
"세금 연구는 최종적인 명확한 답변을 생성하기 위해 여러 문서를 종합해야 합니다. GPT-4o를 o1으로 바꾸었고, o1이 단일 문서에서 명확하지 않은 논리적인 결론에 도달하기 위해 문서 간의 상호 작용을 훨씬 더 잘 추론한다는 것을 발견했습니다. 결과적으로 o1으로 전환하여 엔드투엔드 성능이 4배 향상되었습니다. 놀랍습니다."
— Blue J, 세금 연구를 위한 AI 플랫폼
추론 모델은 또한 미묘한 정책과 규칙을 추론하고 합리적인 결론에 도달하기 위해 당면한 작업에 적용하는 데 능숙합니다.
"금융 분석에서 분석가는 종종 주주 지분에 대한 복잡한 시나리오를 해결하고 관련 법적 복잡성을 이해해야 합니다. 펀드레이징이 기존 주주, 특히 반 희석 특권을 행사할 때 어떤 영향을 미치는지에 대한 어렵지만 일반적인 질문으로 여러 제공업체의 약 10개의 모델을 테스트했습니다. 이를 위해서는 자금 조달 전후 가치를 추론하고 순환 희석 루프를 처리해야 했습니다. 최고의 금융 분석가라면 20-30분 정도 걸리는 일입니다. o1과 o3-mini가 이를 완벽하게 수행할 수 있다는 것을 발견했습니다! 모델은 심지어 10만 달러 주주에 미치는 영향을 보여주는 명확한 계산 테이블을 생성했습니다."
–BlueFlame AI, 투자 관리를 위한 AI 플랫폼
추론 모델은 에이전트 계획 및 전략 개발에 매우 중요합니다. 추론 모델을 문제에 대한 상세하고 다단계적인 해결책을 제시하는 "계획자"로 사용하고, 높은 지능 또는 낮은 지연 시간이 가장 중요한지에 따라 각 단계에 적합한 GPT 모델("실행자")을 선택하고 할당할 때 성공을 거두었습니다.
"당사는 o1을 에이전트 인프라의 계획자로 사용하여 워크플로에서 다른 모델을 조정하여 다단계 작업을 완료합니다. o1이 데이터 유형을 선택하고 큰 질문을 더 작은 덩어리로 나누는 데 매우 능숙하여 다른 모델이 실행에 집중할 수 있도록 합니다."
— Argon AI, 제약 산업을 위한 AI 지식 플랫폼
"o1은 업무용 AI 비서인 Lindy에서 많은 에이전트 워크플로를 지원합니다. 이 모델은 함수 호출을 사용하여 캘린더나 이메일에서 정보를 가져온 다음, 회의 일정을 잡고, 이메일을 보내고, 일상적인 작업의 다른 부분을 자동으로 관리할 수 있습니다. 문제가 발생했던 모든 에이전트 단계를 o1로 전환했고, 에이전트가 기본적으로 하룻밤 사이에 완벽해지는 것을 관찰했습니다!"
— Lindy.AI, 업무용 AI 비서
현재 o1은 시각 기능을 지원하는 유일한 추론 모델입니다. GPT-4o와 차별화되는 점은 o1이 모호한 구조의 차트 및 표 또는 이미지 품질이 좋지 않은 사진과 같이 가장 어려운 시각 자료도 파악할 수 있다는 것입니다.
"당사는 고급 보석 복제품, 멸종 위기에 처한 종 및 통제 물질을 포함하여 온라인에서 수백만 개의 제품에 대한 위험 및 규정 준수 검토를 자동화합니다. GPT-4o는 가장 어려운 이미지 분류 작업에서 50%의 정확도에 도달했습니다. o1은 파이프라인을 수정하지 않고도 88%라는 인상적인 정확도를 달성했습니다."
— SafetyKit, AI 기반 위험 및 규정 준수 플랫폼
당사의 자체 내부 테스트에서 o1은 매우 상세한 건축 도면에서 고정 장치와 재료를 식별하여 포괄적인 자재 명세서를 생성할 수 있다는 것을 확인했습니다. 가장 놀라운 점 중 하나는 o1이 명시적인 지시 없이도 건축 도면의 한 페이지에 있는 범례를 가져와 다른 페이지에 올바르게 적용하여 서로 다른 이미지 간에 유사점을 도출할 수 있다는 것입니다. 아래에서 o1은 4x4 PT 목재 기둥의 경우 범례를 기반으로 "PT"가 압력 처리됨을 인식했습니다.
추론 모델은 종종 모델의 높은 지연 시간을 고려하여 백그라운드에서 코드 검토를 실행하면서 방대한 양의 코드를 검토하고 개선하는 데 특히 효과적입니다.
"당사는 GitHub 및 GitLab과 같은 플랫폼에서 자동화된 AI 코드 검토를 제공합니다. 코드 검토 프로세스는 본질적으로 지연 시간에 민감하지 않지만, 여러 파일에서 코드 차이를 이해해야 합니다. 바로 이 부분에서 o1이 빛을 발합니다. 인간 검토자가 놓칠 수 있는 코드베이스에 대한 사소한 변경 사항을 안정적으로 감지할 수 있습니다. o-시리즈 모델로 전환한 후 제품 전환율을 3배 높일 수 있었습니다."
— CodeRabbit, AI 코드 검토 스타트업... GPT-4o 및 GPT-4o mini는 낮은 지연 시간으로 인해 코드를 작성하는 데 더 적합할 수 있지만, 지연 시간에 덜 민감한 사용 사례에서 o3-mini가 코드 생성에서 급증하는 것을 확인했습니다.
"o3-mini는 일관되게 고품질의 결정적인 코드를 생성하고, 문제가 잘 정의된 경우 매우 어려운 코딩 작업에도 올바른 솔루션에 매우 자주 도달합니다. 다른 모델은 소규모의 빠른 코드 반복에만 유용할 수 있지만, o3-mini는 복잡한 소프트웨어 설계 시스템을 계획하고 실행하는 데 탁월합니다."
— Windsurf, Codeium에서 구축한 협업 에이전트 기반 AI IDE
또한, 추론 모델은 다른 모델 응답을 벤치마킹하고 평가하는 데에도 능숙합니다. 데이터 유효성 검사는 특히 의료와 같은 민감한 분야에서 데이터 세트의 품질과 신뢰성을 보장하는 데 중요합니다. 기존의 유효성 검사 방법은 미리 정의된 규칙과 패턴을 사용하지만, o1 및 o3-mini와 같은 고급 모델은 컨텍스트를 이해하고 데이터에 대해 추론하여 보다 유연하고 지능적인 유효성 검사 접근 방식을 제공할 수 있습니다.
"많은 고객이 Braintrust에서 평가 프로세스의 일부로 LLM-as-a-judge를 사용합니다. 예를 들어, 의료 회사는 gpt-4o와 같은 워크호스 모델을 사용하여 환자 질문을 요약한 다음, o1로 요약 품질을 평가할 수 있습니다. 한 Braintrust 고객은 판사의 F1 점수가 4o를 사용할 때는 0.12에서 o1을 사용할 때는 0.74로 증가하는 것을 확인했습니다! 이러한 사용 사례에서 그들은 o1의 추론 능력이 가장 어렵고 복잡한 채점 작업에서 완료의 미묘한 차이를 찾는 데 획기적인 역할을 한다는 것을 발견했습니다."
— Braintrust, AI 평가 플랫폼
이러한 모델은 간단한 프롬프트에서 가장 잘 작동합니다. "단계별로 생각하기"와 같이 모델에 지시하는 일부 프롬프트 엔지니어링 기술은 성능을 향상시키지 못할 수 있습니다(때로는 방해가 될 수도 있음). 아래의 모범 사례를 참조하거나 프롬프트 예제로 시작하십시오.
더 많은 영감을 얻으려면 예제 코드와 타사 리소스에 대한 링크가 포함된 OpenAI Cookbook을 방문하거나 모델 및 추론 기능에 대해 자세히 알아보십시오.
성심당 경제학 - 어떤 빵이 가장 많이 팔렸을까? (3) | 2025.03.04 |
---|---|
챗GPT 오피셜 가이드② 4o? o1? 모델의 차이점과 토큰 용량 (1) | 2025.02.26 |
SNS 알고리즘은 극우를 좋아하나 - 독일 AfD 지지 콘텐츠를 쏟아낸 소셜미디어 실험 (니먼랩) (0) | 2025.02.24 |
여자 사무라이, 일본 페미니즘의 원형 (1) | 2025.02.20 |
'부자의 기술' 보고서, 흙수저를 위한 재구성 (3) | 2025.02.19 |