본문 바로가기
IT/Etc

OpenAI GPT-4 출시

by 조병희 2023. 3. 15.

OpenAI의 딥 러닝 스케일업 노력의 최신 이정표인 GPT-4를 만들었습니다. GPT-4는 대규모 멀티모달 모델(이미지 및 텍스트 입력, 텍스트 출력)로, 많은 실제 시나리오에서는 인간보다 성능이 떨어지지만 다양한 전문 및 학술 벤치마크에서 인간 수준의 성능을 발휘합니다.예를 들어, 모의 사법시험에 합격하여 상위 10%의 수험생을 대상으로 한 반면 GPT-3.5의 점수는 하위 10% 수준이었다.NAT은 6개월 동안 적대적 테스트 프로그램 및 Chat GPT의 교훈을 사용하여 GPT-4를 반복적으로 정렬하여 사실성, 조향성 및 가드레일 밖으로 나가는 것을 거부하는 사상 최고의 결과를 얻었습니다. ChatGPT

지난 2년간 딥러닝 스택 전체를 재구축하고 Azure와 함께 워크로드에 맞는 슈퍼컴퓨터를 처음부터 공동 설계했습니다.1년 전, 시스템의 최초의 「테스트 실행」으로서 GPT-3.5를 트레이닝 했습니다.몇 가지 버그를 발견하여 수정하고 이론적 기반을 개선했습니다.그 결과, GPT-4의 트레이닝 실행은 전례 없이 안정되어, 트레이닝의 성과를 사전에 정확하게 예측할 수 있는 최초의 대형 모델이 되었습니다.델은 신뢰성 높은 확장에 초점을 맞추고 있기 때문에, 향후의 기능을 예측해, 보다 사전에 준비할 수 있도록 방법론을 연마하는 것을 목표로 하고 있습니다.이것은 안전에 있어서 매우 중요하다고 생각되고 있습니다.

GPT-4의 텍스트 입력 기능은 ChatGPT와 API(대기 목록 포함)를 통해 공개합니다.폭넓은 가용성을 위해 이미지 입력 기능을 준비하기 위해 NAT은 우선 단일 파트너와 긴밀히 협력하고 있습니다.또한 AI 모델 성능 자동 평가를 위한 프레임워크인 OpenAI Evals를 오픈 소스화하여 누구나 모델의 결점을 보고할 수 있도록 하여 추가적인 개선을 유도하고 있습니다.

기능

가벼운 대화에서는 GPT-3.5와 GPT-4의 구분이 미묘할 수 있습니다.이 차이는 태스크의 복잡도가 충분한 문턱값에 도달했을 때 나타납니다.GPT-4는 GPT-3.5보다 신뢰성이 높고 창의적이며 훨씬 미묘한 명령을 처리할 수 있습니다.

두 모델의 차이를 이해하기 위해 원래 인간을 위해 설계된 시험 시뮬레이션을 포함한 다양한 벤치마크에서 테스트했습니다.가장 최근에 공개된 테스트(Olympiads 및 AP 무료 응답 질문의 경우)를 사용하거나 2022-2023 판의 연습 시험을 구매하여 진행했습니다.우리는 이 시험을 위해 특별한 훈련을 하지 않았다.테스트의 문제 중 소수는 교육 중에 모델에 의해 발견되었지만, 그 결과는 대표적이라고 생각합니다.자세한 내용은 기술 보고서를 참조하십시오.

 
모의고사 GPT-4추정 백분위수 GPT-4(비전 없음)추정 백분위수 GPT-3.5추정 백분위수
균일한 변호사 시험(MBE+ME+MPT)1 298 / 40090위까지 298 / 40090위까지 213 / 400~10일
LSAT 16388위까지 16183위까지 14940위까지
SAT 기반 읽기 및 쓰기 710 / 80093위까지 710 / 80093위까지 670 / 80087위까지
SAT 수학 700 / 800~89일 690 / 800~89일 590 / 80070위까지
GRE(대학원기록부검사) 정량화 163 / 17080위까지 157 / 17062위까지 147 / 170~25일
대학원 성적 시험(GRE) 구두 시험 169 / 17099위까지 165 / 17096위까지 154 / 17063위까지
GRE(대학원기록시험)의 기입 4 / 654위까지 4 / 654위까지 4 / 654위까지
USABO 4강 시험 2020 87 / 15099~100위 87 / 15099~100위 43 / 15031~33일
USNCO 지방 시험 2022 36 / 60 38 / 60 24 / 60
의료지식 자기평가 프로그램 75% 75% 53%
코드 속성 평가 3925위 이하 3925위 이하 2605위 이하
AP 아트 히스토리 586~100위 586~100위 586~100위
AP 생물학 585~100위 585~100위 462~85위
AP 미적분 BC 443~59위 443~59위 10~7일
추가 시험 표시

또한 머신러닝 모델용으로 설계된 기존 벤치마크에서 GPT-4를 평가했습니다.GPT-4는 대부분의 최신(SOTA) 모델과 비교하여 기존 대형 언어 모델을 크게 능가합니다.이 모델에는 벤치마크 고유의 크래프트 또는 추가 훈련 프로토콜이 포함될 수 있습니다.

벤치마크
GPT-4
평가된 투샷
GPT-3.5
평가된 투샷
LM 소타
최적의 외부 LM 평가 퓨샷
소타
최적의 외부 모델(벤치마크 고유의 트레이닝 포함)
57과목 객관식 문제(전문 및 학술)
86.4%
5 샷
70.0%
5 샷
70.7%
75.2%
일상 사건에 대한 상식적인 추론
95.3%
10발
85.5%
10발
84.2%
85.6%
초등학교 객관식 과학 문제요챌린지 세트
96.3%
25발
85.2%
25발
84.2%
85.6%
대명사 해결에 관한 상식적인 추론
87.5%
5 샷
81.6%
5 샷
84.2%
85.6%
Python 코딩 태스크
67.0%
제로샷
48.1%
제로샷
26.2%
65.8%
DROP (f1 점수)
독해와 산술.
80.9
스리샷
64.1
스리샷
70.8
88.4
 

기존의 ML 벤치마크는 대부분 영어로 작성되어 있습니다.다른 언어에 대한 초기 감각을 얻기 위해 57개 과목에 걸쳐 14,000개의 객관식 문제 스위트인 MMLU 벤치마크를 Azure Translate를 사용하여 다양한 언어로 번역했습니다(부록 참조).테스트 대상 26개 언어 중 24개 언어에서 GPT-4는 GPT-3.5 및 기타 LLM(Kinchilla, PaLM)의 영어 퍼포먼스(Latvia, Welsh, Swahili 등 자원 부족 언어 포함)를 능가합니다.

 

또, GPT-4를 사내에서 사용하고 있어 서포트, 판매, 컨텐츠 모델레이션, 프로그래밍등의 기능에 큰 영향을 주고 있습니다.또한 인간이 AI 출력을 평가할 수 있도록 지원하여 얼라인먼트 전략의 두 번째 단계를 시작하고 있습니다.

시각적 입력

GPT-4는 텍스트와 이미지의 프롬프트를 받아들일 수 있으며, 텍스트만의 설정과 병행하여 사용자가 비전 또는 언어 태스크를 지정할 수 있습니다.구체적으로는 텍스트와 이미지가 삽입된 입력에 따라 텍스트 출력(자연어, 코드 등)을 생성합니다.GPT-4는 텍스트와 사진, 다이어그램 또는 스크린샷이 포함된 문서를 포함한 다양한 도메인에 걸쳐 텍스트 입력과 유사한 기능을 제공합니다.또한 텍스트 전용 언어 모델용으로 개발된 테스트 시간 기법으로 증강할 수 있습니다. 여기에는 퓨샷(full-shot) 및 생각의 연쇄(chain of think) 프롬프트가 포함됩니다.이미지 입력은 아직 리서치 프리뷰이며 공개적으로 제공되지 않습니다.

이후 내용 링크 참조

https://papago.naver.net/website?locale=ko&source=en&target=ko&url=https%3A%2F%2Fopenai.com%2Fresearch%2Fgpt-4 

 

네이버 파파고

번역을 부탁해 파파고

papago.naver.net

 

댓글