15 min read

GPT-4 기술 논문

GPT-4 기술 논문

OpenAI. 27 Mar 2023  

GPT-4 Technical Report에 대한 설명

이 논문은 GPT-4에 대한 개발 과정과 성능을 간략하게 소개하고 있다.  GPT-4는 이미지와 텍스트를 입력으로 받아서 텍스트를 출력하는 대규모 다중모달 모델이다.
실제 상황에서는 인간보다 능력이 떨어지지만, 전문적이고 학술적인 벤치마크에서 인간 수준의 성능을 보여준다. 예를 들어, 변호사 시험을 시뮬레이션한 결과, 상위 10% 점수를 받았다.

GPT-4는 Transformer 기반의 모델로, 문서에서 다음 토큰을 예측하도록 사전 훈련되어,  훈련 정렬 과정을 통해 사실성과 원하는 행동에 대한 정확도가 향상되었다.

이 프로젝트의 핵심 구성 요소 중 하나는 다양한 범위의 규모에서 예측 가능한 방식으로 작동하는 인프라와 최적화 방법을 개발하는 것이었다. 이를 통해 GPT-4의 성능의 일부를 최대 1/1,000의 컴퓨팅 파워로 훈련된 모델을 기반으로 정확하게 예측할 수 있었다고 한다.

이 논문은 GPT-4라는 대규모 다중모달 모델을 소개하고 있다. 이 모델은 이미지와 텍스트를 입력으로 받아 텍스트를 출력할 수 있으며, 대화 시스템, 텍스트 요약, 기계 번역 등 다양한 응용 분야에서 활용 될 수 있다.

이 모델을 개발하는 주요 목표 중 하나는 자연어 텍스트를 이해하고 생성하는 능력을 향상시키는 것이고,  GPT-4는 원래 사람들을 위해 설계된 다양한 시험에서 평가되었고, 대부분의 사람들보다 성적이 높게 나온다.  예를 들어, 시뮬레이션된 변호사 시험에서 GPT-4는 상위 10% 점수를 받았다.  이는 GPT-3.5는 하위 10%에 들었다.

전통적인 자연어 처리 벤치마크에서 GPT-4는 이전 대형 언어 모델과 대부분의 최신 시스템보다 성능이 더 좋았다.  MMLU 벤치마크에서는 57개 주제를 다루는 영어 다지선다형 질문에서 GPT-4가 기존 모델을 큰 차이로 앞질렀고, 다른 언어에서도 강력한 성능을 보였다. MMLU의 번역 버전에서 GPT-4는 26개 언어 중 24개에서 영어 최신 기록을 뛰어넘었다.

이 논문에서는 광범위한 규모에서 예측 가능하게 작동하는 딥러닝 인프라와 최적화 방법 개발이라는 프로젝트의 핵심 도전 과제에 대해서도 논의하고 있다. 이를 통해 GPT-4의 예상 성능을 예측할 수 있었고, 이를 최종 실행과 비교하여 훈련에 대한 확신을 높였다.

그러나 GPT-4는 이전 GPT 모델과 유사한 한계를 가지고 있다. 완전히 신뢰할 수 없고(예: 환영 현상이 발생할 수 있음), 제한된 맥락 창을 가지고 있으며, 경험으로부터 배우지 않았기 때문이다. 신뢰성이 중요한 맥락에서는 GPT-4의 출력을 사용할 때 주의해야 한다.

GPT-4의 능력과 한계는 중요하고 새로운 안전 과제를 만들어내며, 이러한 과제에 대한 신중한 연구는 사회적 영향을 고려할 때 중요한 연구 영역이라고 생각한다. 이 보고서에는 편향, 의도적인 오보, 과신, 개인 정보 보호, 사이버 보안, 확산 등과 관련하여 우리가 예상하는 위험을 설명하는 광범위한 시스템 카드가 포함되어 있다.

또한, GPT-4 배포로 인한 잠재적인 위험을 완화하기 위해 취한 조치 들도 설명하고 있는데,  도메인 전문가와의 적대적 테스트와 모델 보조 안전 파이프라인이 포함된다.

결론적으로, GPT-4는 다양한 분야에서 높은 성능을 보이는 대규모 다중모달 모델이지만, 이전 GPT 모델과 유사한 한계를 가지고 있다. 이러한 한계와 안전 과제를 해결하기 위한 연구가 계속 진행되어야 한다.

구체적인 소개

이 기술 논문은 GPT-4의 기능, 한계 및 안전성에 초점을 맞추고 있다.  GPT-4는 트랜스포머 스타일 모델로, 공개된 데이터와 제3자 공급자로부터 라이선스를 받은 데이터를 사용하여 문서에서 다음 토큰을 예측하는 데 사전 훈련되었다. 그 후 인간 피드백으로부터 강화학습(RLHF)을 사용하여 모델을 미세 조정하였다. GPT-4와 같은 대규모 모델의 경쟁력과 안전성에 대한 고려 때문에, 이 보고서에는 아키텍처, 하드웨어, 훈련 연산, 데이터셋 구축, 훈련 방법 등에 대한 자세한 내용은 포함하지 않고 있다. (매우 아쉽다)

독립적인 기술 감사를 약속하고 있으며, 이러한 발표와 함께 제공되는 시스템 카드에서 이 영역의 초기 단계와 아이디어를 공유했다. 경쟁력과 안전 고려 사항을 과학적 가치와 균형 있게 평가할 수 있는 제3자에게 추가 기술 세부 정보를 제공할 계획이다.

GPT-4 프로젝트의 주요 목표는 예측 가능한 스케일링을 갖는 딥러닝 스택을 구축하는 것이었다. 이는 GPT-4와 같은 매우 큰 훈련 실행에서 모델별 튜닝을 광범위하게 수행하는 것이 실현 가능하지 않기 때문이다. 이 문제를 해결하기 위해, 다양한 규모에서 매우 예측 가능한 동작을 가지는 인프라와 최적화 방법을 개발하였다. 이 개선 사항을 통해 GPT-4의 일부 성능을 1,000배에서 10,000배 더 적은 연산을 사용하여 훈련된 작은 모델에서 신뢰할 수 있게 예측할 수 있었다.

훈련 전 모델의 기능을 파악하면 정렬, 안전 및 배포와 관련된 결정이 개선됐고,  최종 손실을 예측하는 것 외에도, 더 쉽게 이해할 수 있는 성능 지표를 예측하는 방법론을 개발하였다. 이러한 지표 중 하나는 HumanEval 데이터셋에서의 패스율이다. 이는 다양한 복잡성의 파이썬 함수를 합성하는 능력을 측정한다.  최대 1,000배 더 적은 연산을 사용하여 훈련된 모델을 확장하여 HumanEval 데이터셋의 일부에서 패스율을 성공적으로 예측했다 (논문 그림 2 참조).

개별 HumanEval 문제에서는 성능이 스케일과 함께 악화될 수도 있다. 이러한 도전에도 불구하고, 근사적인 멱법칙 관계가 데이터셋의 문제 부분 집합에 대해 성립한다고 가정한다. 실제로 매우 낮은 패스율은 추정하기 어렵거나 불가능하므로, 대량의 샘플 예산이 주어지면 모든 문제가 각 모델에서 최소한 한 번씩 해결되도록 문제 P와 모델 M에 제한을 두었다.

훈련이 완료되기 전에 GPT-4의 HumanEval 성능 예측을 등록하였으며, 이는 훈련 전에 사용 가능한 정보만을 사용하였다. 가장 어려운 15개의 HumanEval 문제를 제외한 모든 문제는 작은 모델의 성능을 기준으로 6개의 난이도 그룹으로 나뉘어졌다. 결과적으로 이러한 예측은 작은 모델의 log(pass_rate)를 정확하게 추정할 수 있는 HumanEval 문제의 부분 집합에 대해 매우 정확했다 (논문 그림 2 참조).  다른 다섯 개의 버킷에서의 예측도 거의 마찬가지로 잘 수행되었으며, 주된 예외는 가장 쉬운 버킷에서 GPT-4가 예측을 하지 못한 것이었다.

특정 능력의 예측은 여전히 어렵다. 예를 들어, 역 스케일링 상금(Inverse Scaling Prize)은 모델 성능이 스케일의 함수로 감소하는 여러 작업을 제안했다. 최근 Wei et al.의 결과와 비슷하게, GPT-4는 이러한 추세를 반전시키며, Hindsight Neglect이라는 작업 중 하나에서 이를 보여준다 (논문 그림 3 참조).

앞으로의 성능을 정확하게 예측하는 것이 안전성에 중요하다고 생각한다. 앞으로 우리는 이러한 방법을 개선하고 대형 모델 훈련이 시작되기 전에 다양한 능력에 대한 성능 예측을 등록할 계획이며, 이것이 이 분야에서 일반적인 목표가 되기를 희망한다.

  • Model Capability Results GPT-4는 인간이 본래 설계한 다양한 시험에서 그 능력을 테스트하기 위해 평가되었다. 이러한 평가에서 GPT-4는 매우 높은 성능을 보여주며, 대부분의 인간 시험 응시자보다 점수가 높았다. 예를 들어, 시뮬레이션 바 시험에서 GPT-4는 응시자 중 상위 10%에 드는 점수를 얻었다. 이는 GPT-3.5와 대조적으로, 후자는 하위 10%에 든다.

전통적인 NLP 벤치마크에서 GPT-4는 이전의 대형 언어 모델뿐만 아니라 대부분의 최첨단 시스템(벤치마크별 훈련이나 수작업 엔지니어링이 있는 경우)을 능가한다. MMLU 벤치마크[35, 36]는 영어로 된 57개 주제를 다루는 객관식 질문 모음이다. GPT-4는 영어에서 기존 모델을 큰 차이로 능가할 뿐만 아니라 다른 언어에서도 높은 성능을 보여준다. MMLU의 번역된 버전에서는 GPT-4가 고려된 26개 언어 중 24개에서 영어 최첨단 성능을 초과했다.  이러한 모델 능력 결과, 모델 안전성 개선 및 결과에 대해서는 나중에 섹션에서 자세히 논의한다.

이 논문은 또한 프로젝트의 주요 도전 과제 중 하나로, 광범위한 규모에서 예측 가능한 방식으로 동작하는 딥러닝 인프라와 최적화 방법을 개발하는 것을 강조하고 있다. 이를 통해 GPT-4의 예상 성능을 비슷한 방식으로 훈련된 작은 실행을 기반으로 테스트하여 훈련에 대한 신뢰를 높일 수 있었다.

그러나 GPT-4는 이전 GPT 모델[1, 37, 38]과 비슷한 한계를 가지고 있다. 완전히 신뢰할 수 없고(예: "환영" 현상이 발생할 수 있음), 제한된 문맥 창이 있으며, 경험에서 학습하지 않았다.  GPT-4의 출력을 제어하고 안전하게 만들기 위해 추가적인 기술 개발과 테스트가 필요하다. 이러한 기술 개선은 GPT-4의 다양한 산업 및 연구 환경에서의 활용 가능성과 가치를 높이는데 도움이 되었다.

  • Safety Improvements and Challenges GPT-4는 모델의 안전성을 개선하기 위해 여러 가지 방법을 도입했다.  이러한 방법 중 하나는 강화 학습을 통한 인간 피드백(RLHF)이다. 이를 통해 모델의 출력을 보다 신뢰할 수 있게 만들고 사용자의 질문에 대해 더 나은 응답을 제공할 수 있다. 이전 GPT 모델과 비교하여, GPT-4는 명확한 개선을 보여주지만 완전한 안전성을 보장할 수는 없었다.

안전성에 대한 지속적인 연구 및 개발은 GPT-4 프로젝트에 큰 중요성을 가지고 있다.  모델이 잘못된 정보를 제공하거나 예상치 못한 방식으로 작동할 수 있는 경우를 최소화하기 위해 노력하고 있다.

  • Future Work and Open Questions GPT-4와 관련된 미래 연구 및 개발은 여러 가지 개방된 질문에 초점을 맞춘다. 모델의 안전성과 제어 가능성을 개선하기 위한 지속적인 노력이 필요하며, 이를 통해 다양한 산업 및 연구 환경에서 모델을 효과적으로 활용할 수 있다. 또한, 모델의 예측 성능과 능력을 정확하게 평가하고 이해하는 것이 중요한 관심사다.

더 나아가, GPT-4와 같은 대규모 언어 모델의 사용과 관련된 윤리적, 사회적, 그리고 정책적 고려사항들도 중요한 연구 주제이다. 이를 통해 이러한 모델이 사회 전반의 이익을 위해 사용되도록 안내하고 더 나은 결과를 달성하기 위한 방법을 찾아야 한다.

GPT-4는 인공지능 및 자연어 처리 분야의 많은 가능성을 보여주는 동시에, 여전히 많은 도전 과제와 문제가 남아 있다. 이러한 도전과 기회를 성공적으로 극복하고 활용하려면 연구자, 개발자, 정책 결정자, 그리고 사용자와의 지속적인 협력과 대화가 필요하다. 이러한 협력을 통해, 인공지능 기술의 안전성, 윤리성, 그리고 사회적 가치를 높이고, 더 나은 기술과 솔루션을 제공하는 데 기여할 수 있을 것이다.

GPT-4의 발전과 성공을 기반으로, 미래의 인공지능 모델 및 기술은 더욱 강력하고 다양한 분야에서 활용 가능한 도구가 될 것으로 기대한다. 이를 통해 인간의 삶의 질을 향상시키고, 혁신적인 연구 및 개발을 촉진하며, 전 세계적으로 긍정적인 영향을 미칠 수 있을 것이다.

요약하면,

이 논문은 GPT-4, 대규모 다중모달 인공지능 모델에 대해 설명하고 있다. GPT-4는 이미지와 텍스트 입력을 처리하고 텍스트 출력을 생성할 수 있으며, 다양한 벤치마크에서 인간 수준의 성능을 보여준다. 이 프로젝트의 주요 도전 과제 중 하나는 광범위한 스케일에서 예측 가능한 성능을 보여주는 딥러닝 인프라와 최적화 방법을 개발하는 것이었다.

GPT-4는 이전 GPT 모델들과 비교하여 성능과 안전성 면에서 개선되었지만, 여전히 완벽한 안전성을 보장하지는 못하고 있다. 모델의 안전성과 제어 가능성을 개선하기 위한 연구가 지속적으로 필요하며, 모델의 예측 성능과 능력을 평가하고 이해하는 것이 중요하다.

미래의 인공지능 연구 및 개발은 GPT-4와 같은 대규모 언어 모델의 사용과 관련된 윤리적, 사회적, 정책적 고려사항들에 초점을 맞추어야 한다.

그리고..

유봇을 chatGPT-4로 업데이트 해야겠다.