ChatGPT Pro Plan

대분류

인공지능/데이터

소분류

LLM 정리 노트

유형

ChatGPT

부유형

Plan

최종 편집 일시

2024/12/08 15:09

생성 일시

2024/12/08 14:55

14 more properties

4o, o1, o1-pro 실제 답변 비교 실험

4o:

o1-pro

Pro Plan

•

가격 : $200 (월 약 28만원)

실제 plus와 pro 플랜 비교 사진

•

구성 : 

◦

Plus의 모든 기능

◦

GPT-4o 및 o1에 무제한 액세스

◦

고급 음성에 무제한 액세스

◦

o1-pro 제한적 액세스

GPT o1-pro

개요

•

구성에서 주목할만한 요소는 바로 o1-pro이다. 

•

외부 전문가 테스터의 평가에서 o1 pro 모드는 특히 데이터 과학, 프로그래밍 및 판례 분석과 같은 분야에서 더욱 정확하고 포괄적인 응답을 제공한다.

•

o1 및 o1-preview에 비해 o1-pro 모드는 수학, 과학, 코딩 전반에 걸쳐 까다로운 ML 벤치마크에서 더 나은 성능을 발휘한다. 

신뢰성 옵션을 키지 않았을 경우

•

신뢰성 검증이 없는 기본 pro의 벤치마크 성능은 o1과 비교하였을 때 크게 차이가 나진 않았다.

•

Pro 사용자는 모델 선택기에서 o1-pro 모드를 선택하고 직접 질문하여 이 기능에 액세스할 수 있다. 

•

답변을 생성하는 데 시간이 더 걸리기 때문에 ChatGPT는 진행률 표시줄을 표시하고 다른 대화로 전환하면 앱 내 알림을 보낸다.

신뢰성 검증

•

o1-pro 모드의 주요 강점(신뢰성 향상)을 강조하기 위해 더 엄격한 평가 설정을 사용할 수 있는데, 모델은 4번 중 4번의 시도에서 정답을 얻은 경우에만 질문을 해결하는 것으로 간주된다("4/4 신뢰성").

신뢰성 옵션을 켰을 경우

•

여기서 기본 pro와 비교했을 때 평가 설정을 사용했을 경우, 벤치마크 비교에서 꽤나 유의미한 차이를 보여줬다.

•

이게 실제로 체감되었던게 기존에 사용하면서 느꼈던 문제점이였지만 이전 GPT모델에서는 일부 항목만 맞다고 판단되어지면 환각 현상을 보이면서 오답도 정답이라고 치환해버렸다. 

•

그러나 pro 모드와 같은 경우 평가 설정을 할 수 있다보니 이런 정확도 면에서 보장을 해준다는 것이 느껴졌다.

4o, o1, o1-pro 실제 답변 비교 실험

•

아직 취업준비중인 터라 pro 결제 비용은 없어서 o1-pro와의 비교를 보기 위해 예제는 라이브 영상에 나온 질문(사진4)으로 대체... ㅜㅜ

•

실험 환경 설정: 3가지 모델(4o, o1, o1-pro)에 동일한 조건 6개를 주고 해당 조건에 부합하는 단백질(정답: RS1)을 찾아달라는 질문을 프롬프트로 제공했다.

•

추가 실험: 답변을 내는 과정에서 2차적으로 o1에게 제공된 답변들이 올바른지에 대한 절차를 추가하여 진행하였다.

4o:

•

답변으로 L1CAM을 말했지만 아미노산 길이(조건 1), 유전자 크기(조건 2), 염색체 위치(조건 3), 신호 펩타이드 길이(조건 4) 측면에서 제시된 조건과 일치하지 않았다. 

4o 실험 결과

•

o1의 답변에서도 동일한 검증 응답을 제공하였다.

o1

•

답변으로 MOG를 말했지만 유전자 크기(조건 2), 염색체 위치(조건 3), 신호 펩타이드 길이(조건 4) 측면에서 제시된 조건과 일치하지 않았다.

o1 실험 결과

•

o1의 답변에서도 동일한 검증 응답을 제공하였다.

o1-pro

•

영상에서 사용된 pro의 경우 정확하게 조건에 부합하는 단백질인 RS1을 찾아준다. 

영상에서 시연한 답변의 응답

•

실제로 o1에서 조건이 부합한지 검증해보면 정확하게 그렇다고 나오는 모습도 확인할 수 있었다.

o1-pro 응답 검증 결과

•

이 실험에서 또 중요하게 보여졌던 것은 o1-pro와 o1의 속도이다. 

◦

o1-pro(53s)는 신뢰성 검증 옵션을 추가했음에도 불과하고 o1(1m 26s)에 비해 33초 더 빠른 속도를 보여줬다. 

◦

더불어 o1는 오답을 냈지만 o1 pro는 정답을 반환 했다는 것도 큰 차이로 보여진다.