한컴테크를 통해 한컴의 기술을 공유합니다. 한컴의 프로그래밍, 프레임워크, 라이브러리 및 도구 등 다양한 기술을 만나보세요. 한컴 개발자들의 다양한 지식을 회사라는 울타리를 넘어 여러분과 공유합니다. 한컴이 제공하는 기술블로그에서 새로운 아이디어와 도전을 마주하고, 개발자가 꿈꾸는 미래를 실현하세요.

한컴테크

GPT-4

오늘은 2023년 3월 OpenAI 에서 출시한 GPT-4, Technical Report 에 대해 개략적인 설명을 하려합니다.

OpenAI 에서 GPT-4를 출시 하며 Technical Report 를 공개하였고, 리포트에는 GPT-4 의 향상된 기능 설명과 제한사항 및 안전 속성에 중점을 두어 서술하고 있습니다.

https://cdn.openai.com/papers/gpt-4.pdf

GPT-4


  • 이미지와 텍스트 입력을 처리하고 텍스트 출력을 생성할 수 있는 대형 멀티 모달 모델

GPT-4, a large multimodal model capable of processing image and text inputs and producing text outputs.

(출처 : GPT-4 Technical Report)
출처 : GPT-4 Technical Report

주요 특징

  • 창의성 향상
    • 작곡, 시나리오 작성, 사용자 작문 스타일 학습 같은 창의적이고 기술적인 작문 작업이 가능
  • 이미지 입력
    • 이미지 입력을 받아들이고 캡션, 분류/분석이 가능
  • 대용량 텍스트 처리
    • 기존 GPT-3.5 모델이 3000개 정도의 단어를 처리하는 반면, GPT-4 는 25,000 단어 이상의 텍스트 처리 가능

GPT-4 Technical Report 리뷰


Predictable Scaling

  • GPT-4 프로젝트는 매우 큰 학습량이 필요, 많은 시간/비용이 발생하기 때문에 “예측 가능한 스케일링을 하는 딥러닝 스택을 구축하는 것“에 중점을 둠
  • 예측 가능한 동작을 가지는 인프라와 최적화 방법을 개발하여 1,000~10,000배 적은 모델에서도 GPT-4의 성능을 신뢰성 있게 예측 할 수 있었음
출처 : GPT-4 Technical Report, 작은 모델들의 성능을 바탕으로 GPT-4의 성능을 예측할 수 있음을 보여주는 그래프

Capabilities

  • 여러 종류의 학술 및 전문시험을 진행한 결과 대부분 GPT-3.5 를 능가하는 성과를 보임
  • 특히, 미국 변호사 시험에서 GPT-3.5는 하위 10%, GPT-4는 상위 10% 해당하는 성과
출처 : GPT-4 Technical Report
  • GPT-4 는 Azure Translate를 사용하여 MMLU 벤치마크를 다양한 언어로 해석
  • 테스트한 대부분의 언어에서 GPT-3.5 및 기존 언어 모델의 영어 성능보다 우수함을 확인
출처 : GPT-4 Technical Report

Visual Input

  • 이미지와 텍스트로 구성된 프롬프트를 사용할 수 있음
출처 : GPT-4 Technical Report

Limitations

  • 기능적인 향상에도 기존 GPT 모델과 유사한 제한 사항은 존재
  • 여전히 완전 신뢰할 수 없으며 각별한 주의 필요 (“hallucinates“, 환각, 추론 오류…)
  • GPT-4는 지속적인 개선을 통해 환각 상태를 개선하여 이전 모델에 비해 19% 높은 평가 결과를 얻음
출처 : GPT-4 Technical Report

Risks & mitigations

  • 안정성을 개선을 위해 AI 위험성, 사이버 보안, 생물학적 위험, 국제 보안등 전문가 50명 이상 참여하여 테스트
  • 전문가로부터 수집된 권장 사항 및 교육 데이터는 모델 개선에 반영 (예: Prompt 에 거부 능력 개선)
출처 : GPT-4 Technical Report, Prompt 에 거부 능력 개선
  • 안전하지 않는 입력, 또는 무해한 요청을 거부하거나 과도한 위험 회피를 개선하고자 아래 두가지 구성 요소를 구성
    • 추가 안전 관련 RLHF 교육 프롬프트 세트 구성
    • 규칙 기반 보상 모델 RBRMs 구성
  • 안전 속성을 개선하여 허용되지 않는 컨텐츠 요청에 응답하는 비율을 GPT-3.5 대비 82% 줄임
출처 : GPT-4 Technical Report
  • 사용 지침을 위반 컨텐츠를 생성하는 “jailbreaks, 탈옥“은 항상 존재
  • GPT-4 및 후속 모델은 유익하거나 해로운 방식으로 사회에 상당한 영향을 미칠 수 있는 잠재력 있음
  • 잠재적인 영향을 이해하고 평가하는 방법을 개선하고 미래 시스템에서 나타날 수 있는 위험한 기능에 대한 평가를 구축하기 위해 외부 연구원과 협력하고 있음
  • OpenAI 는 사회가 AI의 영향에 대비하기 위해 취할 수 있는 단계에 대한 권장 사항과 AI의 가능한 경제적 영향을 예측하기 위한 초기 아이디어를 발표할 예정

Conclusion

  • GPT-4는 기존의 대규모 언어 모델을 능가한다 평가
  • 영어로 측정되는 향상된 기능을 다양한 언어로 시연 가능
  • 예측 가능한 확장을 통해 GPT-4의 손실 및 기능을 정확하게 예측할 수 있는 방법 설명
  • GPT-4는 향상된 기능으로 인한 새로운 위험을 제시하며 안전성 관련 개선 방법 및 결과 설명

주요 키워드


MMLU

MMLU는 Massive Multitask Language Understanding의 약자입니다. 이것은 전이 학습 중에 획득한 지식을 측정하기 위해 설계된 새로운 벤치마크로, 모델을 전적으로 제로샷 및 퓨샷 설정에서 평가합니다. 이로 인해 벤치마크가 더 어려워지고 인간을 평가하는 방식과 더 유사해집니다. 벤치마크는 STEM, 인문학, 사회과학 등 57개의 주제를 다룹니다.

RLHF

RLHF는 Reinforcement Learning Human Feedback 의 약자입니다. 이것은 강화 학습과 인간의 피드백을 결합한 AI 시스템 교육의 고급 접근 방식입니다. 이 기술은 인간의 피드백을 사용하여 보상 신호를 생성하고, 이를 강화 학습을 통해 모델의 행동을 개선하는 데 사용합니다. 이 기술은 ChatGPT와 GPT-4와 같은 고급 언어 모델 개발에 사용되었습니다.

RBRMs

RBRMs는 Rule-Based Reward Models의 약자입니다. 이것은 제로샷 GPT-4 기반 분류기의 집합으로, 올바른 행동(예: 유해한 콘텐츠 생성 거부 또는 무해한 요청 거부)에 대한 RLHF 미세 조정 중 GPT-4 정책 모델에 추가 보상 신호를 제공합니다.

Benchmark

AI 벤치마크는 AI 시스템의 특정 작업에 대한 성능을 측정하기 위한 테스트 및 지표의 모음입니다. 이러한 벤치마크는 CPU, GPU 및 TPU와 같은 다양한 하드웨어 플랫폼이 AI 기반 작업을 실행하는 능력을 평가하기 위해 설계되었습니다. 인기 있는 AI 벤치마크로는 이미지 분류를 위한 ImageNet과 스마트폰에서 주요 AI 작업을 실행하는 성능을 평가하는 AI-Benchmark가 있습니다.

마치며…


2022년 11월 GPT-3.5 Turbo 기반 ChatGPT가 발표된 이후 4개월, 2023년 3월 GPT-4가 발표되었습니다.

이번 GPT-4 부터 텍스트와 이미지를 조합한 프롬프트의 전달이 가능해 졌습니다. 이미 생성 AI 는 빠르게 발전하고 있어 앞으로 영상, 소리와 같은 미디어 부분도 조만간 적용되지 않을까 추측해 봅니다.

우리는 생성 AI 를 활용하는 입장에서 GPT 의 발전 방향에 관심을 갖고 지켜보며 최적의 활용 방안을 찾아 고객에게 보다 나은 생성 AI를 활용하는 제품을 선보이도록 노력해야 할 것입니다.

얼마전 “한컴, 네이버클라우드와 AI 동맹“ 이라는 기사를 봤습니다. 이번 파트너십을 통해 우리 제품에 생성 AI 기능이 활용도 높고, 사용자 친화적 기능으로 고객에 제공되어 네이버, 한컴 양사 모두 윈윈하는 모습을 보여주길 희망합니다.

이상 블로그를 마칩니다.

관련 기사


Scroll to Top