Pro Plan
•
가격 : $200 (월 약 28만원)
실제 plus와 pro 플랜 비교 사진
•
구성 :
◦
Plus의 모든 기능
◦
GPT-4o 및 o1에 무제한 액세스
◦
고급 음성에 무제한 액세스
◦
o1-pro 제한적 액세스
GPT o1-pro
개요
•
구성에서 주목할만한 요소는 바로 o1-pro이다.
•
외부 전문가 테스터의 평가에서 o1 pro 모드는 특히 데이터 과학, 프로그래밍 및 판례 분석과 같은 분야에서 더욱 정확하고 포괄적인 응답을 제공한다.
•
o1 및 o1-preview에 비해 o1-pro 모드는 수학, 과학, 코딩 전반에 걸쳐 까다로운 ML 벤치마크에서 더 나은 성능을 발휘한다.
신뢰성 옵션을 키지 않았을 경우
•
신뢰성 검증이 없는 기본 pro의 벤치마크 성능은 o1과 비교하였을 때 크게 차이가 나진 않았다.
•
Pro 사용자는 모델 선택기에서 o1-pro 모드를 선택하고 직접 질문하여 이 기능에 액세스할 수 있다.
•
답변을 생성하는 데 시간이 더 걸리기 때문에 ChatGPT는 진행률 표시줄을 표시하고 다른 대화로 전환하면 앱 내 알림을 보낸다.
신뢰성 검증
•
o1-pro 모드의 주요 강점(신뢰성 향상)을 강조하기 위해 더 엄격한 평가 설정을 사용할 수 있는데, 모델은 4번 중 4번의 시도에서 정답을 얻은 경우에만 질문을 해결하는 것으로 간주된다("4/4 신뢰성").
신뢰성 옵션을 켰을 경우
•
여기서 기본 pro와 비교했을 때 평가 설정을 사용했을 경우, 벤치마크 비교에서 꽤나 유의미한 차이를 보여줬다.
•
이게 실제로 체감되었던게 기존에 사용하면서 느꼈던 문제점이였지만 이전 GPT모델에서는 일부 항목만 맞다고 판단되어지면 환각 현상을 보이면서 오답도 정답이라고 치환해버렸다.
•
그러나 pro 모드와 같은 경우 평가 설정을 할 수 있다보니 이런 정확도 면에서 보장을 해준다는 것이 느껴졌다.
4o, o1, o1-pro 실제 답변 비교 실험
•
아직 취업준비중인 터라 pro 결제 비용은 없어서 o1-pro와의 비교를 보기 위해 예제는 라이브 영상에 나온 질문(사진4)으로 대체... ㅜㅜ
•
실험 환경 설정: 3가지 모델(4o, o1, o1-pro)에 동일한 조건 6개를 주고 해당 조건에 부합하는 단백질(정답: RS1)을 찾아달라는 질문을 프롬프트로 제공했다.
•
추가 실험: 답변을 내는 과정에서 2차적으로 o1에게 제공된 답변들이 올바른지에 대한 절차를 추가하여 진행하였다.
4o:
•
답변으로 L1CAM을 말했지만 아미노산 길이(조건 1), 유전자 크기(조건 2), 염색체 위치(조건 3), 신호 펩타이드 길이(조건 4) 측면에서 제시된 조건과 일치하지 않았다.
4o 실험 결과
•
o1의 답변에서도 동일한 검증 응답을 제공하였다.
o1
•
답변으로 MOG를 말했지만 유전자 크기(조건 2), 염색체 위치(조건 3), 신호 펩타이드 길이(조건 4) 측면에서 제시된 조건과 일치하지 않았다.
o1 실험 결과
•
o1의 답변에서도 동일한 검증 응답을 제공하였다.
o1-pro
•
영상에서 사용된 pro의 경우 정확하게 조건에 부합하는 단백질인 RS1을 찾아준다.
영상에서 시연한 답변의 응답
•
실제로 o1에서 조건이 부합한지 검증해보면 정확하게 그렇다고 나오는 모습도 확인할 수 있었다.
o1-pro 응답 검증 결과
•
이 실험에서 또 중요하게 보여졌던 것은 o1-pro와 o1의 속도이다.
◦
o1-pro(53s)는 신뢰성 검증 옵션을 추가했음에도 불과하고 o1(1m 26s)에 비해 33초 더 빠른 속도를 보여줬다.
◦
더불어 o1는 오답을 냈지만 o1 pro는 정답을 반환 했다는 것도 큰 차이로 보여진다.