NLP, DL , ML1 ChaGPT o1 학습 방법론 - Learning to reason with LLMs 출처 - https://openai.com/index/learning-to-reason-with-llms/ Chain of Thoughts강화학습을 통해 Chain of Thoughts를 사용하는 전략을 바꿔나간다.ex1) 복잡한 단계를 간단한 단계로 바꾸기ex2) 현재 접근이 어렵다면 다른 접근을 한다. Safety 안전방침과 주어진 맥락에서 그 안전방침을 어떻게 추론할 수 있는 지 가르쳤다.그 결과 탈옥(jailbreak)할 수 있는 벤치마크와 내부적으로 가장 어려운 벤치마크에서 성능이 크게 상승했다. Hiding the Chains of Thought 모델이 어떻게 생각을 해나가는 지 그 과정을 공개하는 내용이다.모델이 스스로의 생각을 바꿔서 답변하길 원치 않았다.따라서 o1에게 OpenAI의 정.. 2024. 9. 25. 이전 1 다음