ChaGPT o1 학습 방법론 - Learning to reason with LLMs

Chain of Thoughts

강화학습을 통해 Chain of Thoughts를 사용하는 전략을 바꿔나간다.

ex1) 복잡한 단계를 간단한 단계로 바꾸기

ex2) 현재 접근이 어렵다면 다른 접근을 한다.

Safety

안전방침과 주어진 맥락에서 그 안전방침을 어떻게 추론할 수 있는 지 가르쳤다.

그 결과 탈옥(jailbreak)할 수 있는 벤치마크와 내부적으로 가장 어려운 벤치마크에서 성능이 크게 상승했다.

Hiding the Chains of Thought

모델이 어떻게 생각을 해나가는 지 그 과정을 공개하는 내용이다.

모델이 스스로의 생각을 바꿔서 답변하길 원치 않았다.

따라서 o1에게 OpenAI의 정책이나 사용자 선호도를 Chain of Thought 방식으로 학습시키지 않았다.

여러가지 요소들을 고려한 결과 Chains of Thought의 원본을 공개하지 않기로 하였다.

다랭킴의 공부기록