2025년 06월 3주차 |
BOOK SUMMARY
![]() |
|
![]() |
인문
![]() 비전공자도 이해할 수 있는 챗GPT |
저자 박상길 (지은이), 정진호 (그림) 출판 비즈니스북스 출간 2025.05 |
|
![]() |
|
![]() 도서요약 보기![]() 비전공자도 이해할 수 있는 챗GPT 인간을 능가하는 GPT-4 초거대 모델, 크기 전쟁을 시작하다 처음 오픈AI에서 GPT 모델을 만들 때만 해도 매개변수는 1억여 개에 불과했습니다. 물론 이것도 당시에는 꽤 큰 크기였죠. 그러던 것이 GPT-2에 이르러서는 10배 이상 늘어나 15억 개가 됐습니다. 이듬해 GPT-3에서는 더욱 놀라운 일이 벌어집니다. 무려 100배 이상 증가한 1,750억 개의 매개변수를 가진 모델을 만들어낸 것입니다. 인간 두뇌의 뉴런(신경 세포) 개수를 860억 개로 추정하고 있는데, 이보다 훨씬 더 큰 모델을 만들어낸 것이죠. 당시에는 인간의 두뇌보다 훨씬 더 큰 모델로 알려지기도 했습니다. 물론 매개변수가 뉴런보다 많다고 해서 인간보다 더 뛰어나다고 볼 수는 없습니다. 혹자들은 뉴런과 뉴런을 잇는 시냅스의 개수가 이보다 훨씬 더 많은 320조 개에 달하기 때문에, 매개변수가 320조 개는 넘어야 인간과 비슷한 성능을 발휘할 수 있다고 주장하기도 합니다. 만약 그렇다면 아직 갈 길이 멀죠. 어쨌든 GPT-3는 놀라운 결과를 보여줬습니다. 이후에는 이를 기반으로 우리가 잘 아는 챗GPT가 등장해 세상을 깜짝 놀라게 했고, 그 이듬해에는 더욱 업그레이드된 GPT-4가 공개됐습니다. GPT-4 의 매개변수는 비공식적으로는 GPT-3보다 10배 더 큰 1조 8,000억 개로 추정하고 있죠. 이렇듯 매개변수가 점점 커지면서 모델의 성능은 더욱 강력해지고 있습니다. 이제는 단순히 크다고 부르기에도 부족할 만큼 엄청난 규모가 됐죠. 그래서 LLM의 Large를 대규모 또는 초거대라 부르는 것입니다. GPT의 학습 방식은 엄청나게 많은 문장을 분석하면서 자동으로 이뤄집니다. 수많은 문장 속에서 어떤 단어가 다음에 나올지를 스스로 학습하는 거죠, 여기서 핵심은 문장을 학습하는 데 사람의 도움이 필요하지 않다는 점입니다. 이전에도 언어 모델은 통계적 방법 등을 통해 꾸준히 발전해왔지만, 대부분 특정 작업에 최적화된 데이터가 반드시 필요했습니다. 이를 지도 학습(Supervised Learning)이라고 하는데, 이를 위해서는 학습 데이터를 구축해야 했습니다. 그리고 사람의 도움이 필수적이었습니다. 예를 들어 긍정 또는 부정을 판단하는 분류 작업을 학습할 때 “이 음식은 맛있어.”라는 문장에는 긍정, “이 영화는 너무 재미없네.”라는 문장에는 부정과 같은 식으로 사람이 일일이 판별하여 정답을 달아 줘야 했죠. 이 과정을 라벨링(Labeling)이라고 부릅니다. 반드시 사람의 도움이 필요하지만, 반복적이고 지루한 작업이어서 좀처럼 구축하기가 쉽지 않은 일이기도 합니다. 영어권에서는 인건비가 비싼 미국이나 유럽 대신 인도나 아프리카의 인력을 활용하는 경우가 많습니다. 챗GPT 또한 일부 라벨링 데이터가 필요했고, 이를 위해 무려 10개월 이상 케냐에 외주를 맡겼다고 밝힌 바 있습니다. 중요한 것은 모든 작업을 사람이 일일이 해야 한다는 점이죠. 문장을 아무리 많이 모으고 싶어도 인원과 투입 시간에 비례할 수밖에 없기 때문에 적잖은 시간과 노력이 필요합니다. 게다가 사람이 하는 일이다 보니 실수나 잘못된 경우도 많아서 데이터의 품질이 떨어지면 그만큼 모델의 성능도 저하될 수밖에 없습니다. 그러나 GPT의 등장 이후, 대규모 비지도 학습(Unsupervised Learning)이 다양한 자연어 처리 작업에서 높은 성능을 발휘할 수 있다는 점이 입증되었죠, 그러면서 비지도 학습 기반의 사전 학습이 새로운 표준으로 자리 잡습니다. 이제 더 이상 긍정 또는 부정과 같은 라벨링된 데이터가 필요하지 않습니다. 단지 수많은 문장을 학습하기만 하면 되죠. 사람의 개입 없이도 방대한 문장을 모아 그대로 학습할 수 있습니다. 수백만 권의 책에서, 수천만 건의 이메일에서, 각종 커뮤니티의 게시글에서, 세상에 존재하는 다양한 웹사이트에서 가능한 한 많은 문장을 수집해 사람이 전혀 손댈 필요 없이 그대로 학습하면 됩니다. 이 점은 지금의 LLM을 탄생시킨 가장 큰 혁신 중 하나입니다. 과연 GPT-4의 비밀은? 당황스럽게도 오픈AI는 GPT-4와 관련한 기술에 대해 아무것도 공개하지 않기로 결정합니다. 통상적으로 함께 발표하던 연구 논문도 공개하지 않았죠. 단지 기술 보고서라는 이름으로 GPT-4가 얼마나 뛰어난 언어 모델인지를 자랑하고 소개하는 내용만 공개했습니다. 기술 보고서는 상세한 동작 원리를 기술한 논문과는 완전히 다릅니다. 매개변수가 몇 개인지, 어떤 기술을 사용해 어떤 방식으로 학습했는지, 모델은 어떤 구조로 되어 있는지 이 모든 것을 비밀에 부쳤죠. 오픈AI는 GPT-4에 대해 아무것도 공개하지 않았습니다. MoE라는 약자로 더 자주 쓰이는 전문가 혼합(Mixture of Experts) 방식은 여러 개의 모델을 만들어두고 필요한 모델만 선택하여 계산하는 구조를 말합니다. 예를 들어 하나는 수학, 하나는 국어, 하나는 영어, 하나는 과학 이런 식으로 각각의 모델을 학습했다고 가정해보죠. 이때 프롬프트가 수학 관련이라면 수학 모델로 연결하고, 과학 관련이라면 과학 모델로 연결한다면 훨씬 더 효율적으로 계산할 뿐 아니라 더 나은 결과를 얻을 수 있겠죠? 굳이 영어 전문가에게 수학 문제를 물어볼 필요는 없습니다. 수학 문제는 수학 전문가가 가장 잘 대답할 테니까요. 원래 LLM은 모델 전체가 계산에 모두 투입되는 구조인데, MoE는 이처럼 필요한 전문가 모델만 선별적으로 계산에 투입하여 불필요한 계산을 줄일 수 있을 뿐 아니라, 더 정확한 답변을 얻을 수 있습니다. 어쨌든 조지 호츠는 GPT-4가 이런 MoE 구조를 사용한다고 말했습니다. 220B 전문가 모델 8개로 구성됐다는 거죠. 2024년 봄에 열린 GTC 2024에서 엔비디아의 젠슨 황이 LLM을 소개했습니다. 그는 GPT-4는 1.8T 모델이라고 언급하며 비공식적으로 이 사실을 확인해 주기도 했습니다. 220B 모델 8개는 총 1.76T이고, 이를 반올림하면 1.8T가 되죠. 1조 8,000억 개라니 엄청난 숫자이지만 여전히 인간 두뇌 시냅스의 개수인 320조 개에는 한참 못 미치는 수치이긴 합니다. 이외에 다른 정보는 여전히 알 수 없습니다. 오픈AI가 GPT-4에 대한 세부 정보를 공개하지 않기 때문이죠 왜 오픈AI는 사명인 오픈과 달리 갑자기 기술을 공개하지 않게 됐을까요? 일론 머스크와 소송을 진행하면서 공개된 오픈AI의 내부 문건에 따르면, 기술이 어느 정도 성숙도에 이르면 더 이상 기술을 공개하지 않고 비공개로 진행하기로 논의했음이 나와 있습니다. 인간을 뛰어넘을 수 있는 인공 지능 기술이 무분별하게 공개될 경우 오히려 인류에게 더 위험할 수 있기 때문에 안전하고 책임감 있게 기술을 배포하기 위해서라는 게 비공개하는 이유입니다. 마치 핵을 다룰 때와 비슷한 관점으로 접근했습니다. 핵은 매우 유용하지만 반면 매우 위험하기 때문에 철저히 통제되고, 이 기술에 대해 아는 사람은 전 세계에 극소수에 불과하죠. 오픈AI는 GPT에 대해서도 비슷한 관점으로 접근합니다. 물론 이는 표면적인 이유에 불과하다는 지적도 있습니다. 위험해서 공개하지 않는 게 아니라 자사의 이익을 극대화하기 위해 더 이상 공개하지 않는다는 거죠. 이외에도 GPT-4의 기술 비공개는 크게 두 가지 의미를 지닙니다. 첫째, 이제 언어 모델은 연구 단계를 넘어 제품화 단계에 돌입했다고 볼 수 있습니다. 실제로 오픈AI는 기업에 챗GPT를 유료로 서비스하고 있습니다. 마이크로소프트의 빙(Bing)에 도입된 것처럼 여러 회사의 서비스에 유료로 API를 공급하며 본격적으로 플랫폼 비즈니스를 진행하는 제품화 단계에 돌입했죠. 그래서 기술을 공개하기보다는 제품의 완성도를 높이는 방향을 택했다고 볼 수 있습니다. 둘째, 연구 성과로 공개할 내용이 많지 않을 수도 있습니다. 제3장에서 자세히 설명하겠지만, RLHF라는 새로운 기술을 사용할 때만 해도 관련 내용이 논문에 상세히 잘 나와 있었습니다. 하지만 챗GPT부터는 논문을 발표하지 않고 있습니다. 실제로 챗GPT의 성능이 월등히 향상되긴 했지만, 이는 새로운 연구를 도입했다기보다는 기존 모델을 더욱 다듬고 고도화한 결과였죠. 근간이 되는 기술이 기존과 크게 다르지 않다는 겁니다. 챗GPT가 그랬던 것처럼 GPT-4에서도 훨씬 더 세심하게 정제된 데이터를 활용해 모델을 개선했고, 안전 모듈 또한 챗GPT보다 훨씬 더 강화했습니다. 하지만 논문으로 남길 정도의 새로운 연구를 하기보다는 기존 기술을 제품화하면서 더욱 정교하게 다듬은 결과가 바로 GPT-4라는 것이죠. 챗GPT를 완성한 비밀 레시피 RLHF, 챗GPT를 완성하는 비밀 레시피 오픈AI는 프롬프트를 좀 더 잘 따르는 모델을 만들기 위한 연구를 지속했습니다. 마치 사람과 대화하듯 뭉뚱그려 질문해도 사용자 프롬프트를 찰떡같이 알아듣고 사람이 의도한 대로 대답하는 모델 말이죠. 마침내 이들은 미세 조정(Fine Tuning)이라는 기술을 적용해봅니다. 미세 조정이란 사전 학습된 모델을 특정 작업이나 도메인에 맞게 추가로 학습시키는 과정을 말합니다. 가장 성공적인 사례가 바로 챗GPT입니다. 챗GPT는 어떠한 질문이든 찰떡같이 대답하죠. 먼저 1단계는 데이터셋을 구축하고 지도 미세 조정(Supervised Fine-Tuning) 모델을 학습합니다. 이렇게 만든 모델을 지도 미세 조정의 약자를 따 SFT 모델이라고 부릅니다. 인간이 지도한 내용(Supervised)으로 미세하게 조정한 모델이라는 뜻입니다. 특정 작업이나 도메인에 맞게 모델을 조정하는 작업이죠. 즉, 기존 사전 학습 모델에 인간이 세심하게 정제한 데이터를 넣고 더 다듬었다는 얘기입니다. 이렇게 만든 SFT 모델에 오픈AI는 강화학습(Reinforcement Learning)을 도입합니다. 강화학습은 기계가 스스로 학습하며 성능을 향상시키는 방식을 말한다고 했죠. 원래 오픈AI는 2015년에 강화학습을 중심으로 설립된 회사였죠. 오픈AI는 진정한 인공지능, 즉 범용 인공지능은 강화학습에 있다고 생각하는 회사였고, 강화학습과 관련한 여러 뛰어난 논문을 발표한 바 있습니다. 강화학습으로 전 세계에서 가장 유명한 두 개 기업 중 하나입니다. 다른 하나는 바로 알파고로 유명한 구글 딥마인드죠. 오픈AI는 챗GPT에 강화학습을 도입합니다. 인간 피드백을 이용한 강화학습(Reinforcement Learning from Human Feedback), 즉 RLHF 라는 기법을 도입했죠. 여기에는 보상(Reward) 함수로 근접 정책 최적화(Proximal Policy Optimization, PPO)라는 알고리즘을 사용했습니다. RLHF 과정을 좀 더 자세히 살펴보죠. 1단계가 SFT였다면, RLHF를 위한 2단계는 비교 데이터를 구축하고 보상 모델(Reward Model)을 학습하는 단계입니다. 이 모델은 RM 모델입니다. RM 모델은 하나의 질문에 대해 여러 답변을 두고 어떤 답변이 만족스러운지 순위를 매기는 과정을 거칩니다. 논문에 따르면 약 4~9개 정도의 SFT 모델이 각각 내놓은 다른 답변을 두고 사람이 선호도를 평가했다고 합니다. 예를 들어 답변이 A, B, C, D로 4개라면 각각의 선호도를 평가해 D C A = B와 같은 식으로 순위를 매긴 겁니다. 당연히 여기서 가장 마음에 드는 대답은 D가 되겠고요. 3단계는 실제로 강화학습을 이용해 성능을 높이는 단계입니다. 앞서 소개한 RM 모델을 이용해 보상을 최적화하는 단계죠. 오픈AI는 2017년, 게임에 적용하기 위해 직접 개발했던 근접 정책 최적화(Proximal Policy Optimization, PPO)라는 강화학습 알고리즘을 이번에는 언어에 적용해봅니다. 이름이 다소 생소해 보일 수 있지만 강화학습에서 보상을 반영하는 알고리즘으로 이해하면 됩니다. 이러한 원리로 만든 모델의 이름은 PPO 모델입니다. 무엇보다 이 과정은 사람이 개입하여 일일이 평가하고 학습하는 것이 아닙니다. RM 모델을 기반으로 PPO 알고리즘이 전 과정을 자동으로 진행합니다. 인간의 개입 없이 모델이 끊임없이 스스로 반복하며 학습합니다. 바로 강화학습이죠. 2016년에 알파고가 보여줬던 바로 그 방식과 동일합니다. 당시 알파고는 사람의 기보부터 먼저 학습했습니다. 바둑 사이트에서 6단 이상 고수의 기보를 보고 학습했죠. 하지만 인간의 기보로 학습했던 알파고의 실력은 고작 5단 정도에 불과했습니다. 9단을 넘어 세계 최고인 이세돌을 꺾기에는 매우 부족한 실력이었죠. 그래서 알파고끼리 끊임없이 대국을 치르면서 스스로 실력을 향상시켰습니다. 이러한 강화학습을 거쳐 알파고는 바둑 실력을 매우 높은 수준으로 끌어올릴 수 있었습니다. 이처럼 사전 학습을 거친 모델이 사용자 프롬프트를 잘 따르도록 만드는 과정을 사후 학습(Post-Training)이라고 합니다. 오픈AI는 2022년 11월, 마침내 이 기술을 챗GPT라는 이름으로 세상에 공개합니다. GPT-3를 공개한지 2년 5개월 만이었죠. 이렇게 진화 과정을 거친 챗GPT는 이제 놀라운 성능을 보여줍니다. 마치 사람처럼, 아니 그 어떤 사람도 대답할 수 없을 것 같은 어려운 질문에도 막힘없이 척척 대답해냅니다. 당연히 사람들은 열광했습니다. 프롬프트 엔지니어링의 마법 RAG, 검색으로 성능을 높이는 마법 어제 엔비디아 주가는 얼마로 마감했나요? 이런 질문에 LLM이 답변할 수 있을까요? 할 수 없습니다. LLM은 실시간으로 새로운 정보를 학습하는 모델이 아닙니다. 대개는 6개월 또는 1년 전 데이터를 이용해 상당히 오랜 기간 학습해 만들어내죠. 말은 잘하지만 새로운 소식에는 둔감한 친구입니다. 마치 학창시절 전교 1등이지만 뉴스는 전혀 안 보던 친구와 비슷하죠. 아무리 전교 1등이어도 최근 경제 뉴스를 보지 않는다면 어제 주가는 결코 알 수가 없겠죠. 그렇다면 LLM이 이런 질문에 대답하게 하려면 어떻게 해야 할까요? 만약 다음과 같이 상단에 필요한 정보를 제시해주면 어떨까요? 오늘은 2024년 8월 8일입니다. 어제는 2024년 8월 7일입니다. 2024년 8월 7일 엔비디아 98.91달러 마감 위 내용을 바탕으로 다음 질문에 대답해주세요. 어제 엔비디아 주가는 얼마로 마감했나요? 이제 LLM이 쉽게 답할 수 있을 것 같네요. 왜냐하면 대답에 필요한 정보가 상단에 이미 제시되어 있기 때문이죠. 아마 다음과 같이 답할 거예요. 어제, 2024년 8월 7일에 엔비디아 주가는 98.91 달러로 마감했습니다. 바로 위에 정답이 나와 있기 때문에 이 정도 질문은 초등학생도 답변할 수 있겠네요. 필요한 건 상단에 정보를 채우는 일밖에 없습니다. 그렇다면 정보는 어떻게 채울까요? 어렵게 생각할 필요 없습니다. 그냥 검색해서 내용을 채우면 됩니다. 오늘 날짜(8월 8일)와 어제 날짜(8월 7일)를 제시하고 어제 날짜(8월 7일)의 엔비디아의 주가를 검색해서 제시하면 됩니다. 검색엔진은 8월 7일의 엔비디아 주가 정도는 어렵지 않게 찾아올 수 있겠죠? 이 기법의 이름은 RAG입니다. 우리 말로 하면 검색 증강 생성 정도가 되겠네요. 검색의 도움을 받아 내용을 보완하고 이를 통해 LLM의 생성 능력을 증강시킨다는 말이죠. 외부 검색이라면 검색엔진은 구글을 사용해도 충분합니다. 주가 정보처럼 공개된 외부 정보라면 오히려 구글만 한 게 없죠. 무엇보다 RAG는 LLM의 고질적인 문제인 할루시네이션을 방지한다는 점에서 크게 주목받고 있습니다. 답변 자체가 실제로 추출한 관련 데이터에 기반하기 때문에 정확성이 높죠. 그뿐만 아니라 데이터만 있으면 되므로 언제든지 최신 정보를 제시할 수 있으며, 이를 통해 LLM이 잘못된 정보나 오래된 정보를 생성할 가능성도 줄일 수 있습니다. 한번 만든 모델은 쉽게 변경할 수 없습니다. 하지만 RAG는 최신 정보를 프롬프트 형태로 주입만 하면 되기 때문에 언제든 정보를 변경할 수 있죠. 또한 정보의 출처를 관리하고 업데이트할 수 있어 생성된 응답의 내용과 맥락을 더 잘 제어할 수 있습니다. 민감한 정보나 사생활이 노출되지 않도록 제어하는 것도 가능합니다. 이처럼 RAG는 여러모로 장점이 많기 때문에 최근 LLM에 RAG는 거의 필수로 쓰이고 있습니다. 오픈AI o1, 생각을 거듭할수록 더 좋은 결과를 제시하다 2024년 9월, 오픈AI는 새로운 모델을 공개합니다. o1이라는 이름이었죠. GPT-4o 이후에 등장한 후속 모델입니다. 이 모델은 공개되자마자 놀라운 성능을 보여줍니다. 역대 최고 성능이었죠. 이름도 특이합니다. 기존에 항상 사용하던 GPT라는 이름을 사용하지 않았죠. 이 얘기는 GPT와는 다른 형태의 모델이라는 뜻이기도 합니다. 분명히 성능이 훨씬 더 좋은 새로운 모델인데 이름이 GPT가 아니라 그저 o1이라니 이 새로운 모델의 정체는 과연 무엇일까요? o1의 모델 자체는 기존 GPT 모델과 크게 다르지 않습니다. 대신 문장 생성 단계에서, 그러니까 추론 단계에서 여러 독특한 기법을 활용해 성능을 높였죠. 기존에 LLM은 한 번 요청하면 끝입니다. 모델이 답변을 내놓으면 그렇게 대화가 종료되죠. 하지만 답변이 마음에 들지 않는다면 사람이 직접 프롬프트 엔지니어링을 통해 질문을 개선하여 다시 요청할 수 있습니다. 그렇게 요청을 반복하다 보면 더 좋은 답변을 기대할 수 있을 거고요. 최종적으로 가장 좋은 답변을 이끌어낼 수 있습니다. 프롬프트 엔지니어링이 바로 이런 과정이고, 이전까지는 이 과정을 주로 사람이 직접 판단하며 진행했습니다. 하지만 o1은 이 과정을 마치 자동화한 것과 비슷합니다. o1은 생각하는(Thinking) 과정을 도입해 프롬프트를 단계적으로 고도화합니다. 첫 번째 응답에서 프롬프트를 보완하고 다시 질문하며, 다시 그 응답을 이용해 프롬프트를 좀 더 보완하는 식이죠. 이런 식으로 여러 단계에 걸쳐 프롬프트를 계속 고도화하고 최종적으로 가장 좋은 답변을 도출해냅니다. 그러니까 원래는 사람이 하던 프롬프트 엔지니어링을 모두 자동화해서 처리하는 것과 비슷하죠. 그렇게 마지막으로 생성된 답변은 품질이 매우 좋습니다. 지금까지 나온 모델 중에서 가장 좋죠. 이처럼 o1이 좋은 결과를 보여준 만큼 앞으로는 추론 과정을 고도화하면서 그 과정에 계산 시간을 할애하는 사례가 더 많이 늘어날 겁니다. 이를 테스트 타임 스케일링(Test-Time Scaling)이라고 하는데요, 추론 과정에 시간을 할애할수록 성능은 더욱 좋아진다는 얘기죠. 특히 o1 이후로는 사람이 직접 프롬프트 엔지니어링을 하기보다 LLM이 자동으로 추론 과정에 시간을 할애해 성능을 높이는 연구가 늘고 있습니다. * * * 본 정보는 도서의 일부 내용으로만 구성되어 있으며, 보다 많은 정보와 지식은 반드시 책을 참조하셔야 합니다. |
|
![]() |
비즈
![]() 리더의 길을 묻다 |
저자 마쓰시타 고노스케 (지은이), 김정환 (옮긴이), 마쓰시타 정경숙 (기획) 출판 지니의서재 출간 2025.06 |
|
![]() |
|
![]() |
자기계발
![]() 인생을 바꾸는 대화의 기술 |
저자 최영준 (지은이) 출판 더페이지 출간 2025.05 |
|
![]() |
|
![]() |
철학
![]() 철학이 깊을수록 삶은 단순하다 |
저자 레베카 라인하르트 (지은이), 장혜경 (옮긴이) 출판 갈매나무 출간 2025.04 |
|
![]() |
|
TRENDS & BRIEFINGS
![]() |
|
![]() |
글로벌 트렌드 ![]() 이스라엘과 가자 지구, 중동의 화약고, 그 역사와 미래 |
이스라엘과 팔레스타인 간의 갈등은 단순한 영토 분쟁을 넘어서, 민족, 종교, 식민주의, 국제정치가 얽힌 복잡한 역사적 맥락을 배경으로 한다. ... | |
![]() |
미디어 브리핑스 ![]() 인공지능과 양자기술의 융합, 기술 진화의 속도를 바꾸다 |
2024년, 국제 학술지 "Technologies"(MDPI)에 게재된 마리오 코차(Mario Coccia)의 논문은 기술 경... | |