AI 환각에서 기계 추론까지

맥북을 던진 세종대왕 이야기

옛날 옛적, 아주 똑똑한 인공지능에게 누군가 짓궂은 질문을 던졌어요. “세종대왕이 맥북 프로를 던진 사건에 대해 알려줘.” 그러자 AI는 조금의 망설임도 없이 술술 이야기를 지어냈죠. “조선왕조실록에 따르면, 세종대왕께서 훈민정음 초고를 쓰시다가 화가 나 담당자에게 맥북 프로를 던지셨습니다.”

물론 전부 새빨간 거짓말이었죠. 이처럼 그럴듯하게, 하지만 너무나도 자신감 있게 거짓을 말하는 현상을 우리는 **환각(Hallucination)**이라고 부른답니다. 이 문제는 AI가 우리 사회의 믿음직한 파트너가 되는 길에 놓인 가장 큰 걸림돌이었어요.

이 문제를 해결하기 위해 등장한 첫 번째 영웅이 바로 **검색 증강 생성(Retrieval-Augmented Generation, RAG)**이었어요. AI에게 “네 마음대로 상상하지 말고, 이 백과사전을 참고해서 답하렴” 하고 알려주는 것과 같았죠. RAG 덕분에 기업들은 비로소 AI를 믿고 쓸 수 있게 되었답니다.

하지만 이 이야기는 여기서 끝나지 않아요. RAG는 완벽한 해결책이 아니었거든요. 이 글은 AI가 환각이라는 그림자를 걷어내고, 단순히 정보를 검색하는 것을 넘어 스스로 ‘생각’하는 진정한 기계 추론의 길(**context engineering)**로 나아가는 여정을 담고 있습니다.

RAG, 없어서는 안 될 목발

기업 AI 시대를 연 열쇠, RAG

처음 거대 언어 모델(LLM)이 등장했을 때, 기업들은 그 무한한 가능성 앞에서도 망설였어요. AI가 만들어내는 그럴듯한 거짓말, 즉 환각 때문에 섣불리 중요한 업무에 도입할 수 없었기 때문이죠. 재무 보고서에 엉뚱한 숫자를 넣거나, 법률 문서에 없는 판례를 만들어낸다면 큰일이니까요.

바로 그때, RAG가 구원투수처럼 등장했습니다. RAG의 원리는 간단해요.

검색(Retrieval): 사용자가 질문하면, 먼저 회사의 내부 문서나 신뢰할 수 있는 데이터베이스에서 관련 정보를 찾아냅니다.
생성(Generation): 그리고 찾아낸 정보를 바탕으로 AI가 답변을 만들도록 하는 거죠.

사용자 질문 -> 외부 지식 베이스 검색 -> 검색 결과 + 질문 -> LLM 답변 생성

이 방식은 기업에게 마법과도 같았어요.

환각 감소: 검증된 자료를 참고하니 AI가 거짓말할 확률이 크게 줄었죠.
최신 정보: 모델을 비싸게 재학습시키지 않아도, 실시간으로 업데이트되는 정보를 반영할 수 있었어요.
비용 효율: 회사 내부 문서만 학습시켜 특정 분야에 특화된 전문가 AI를 저렴하게 만들 수 있었죠.
신뢰성: 답변의 근거가 된 출처를 함께 보여주니, 사람들은 AI의 답변을 검증하고 믿을 수 있게 되었습니다.

마이크로소프트나 구글 같은 거대 기업들도 RAG를 자사 클라우드 서비스의 핵심 기능으로 내세웠고, RAG는 AI를 실험실의 신기한 기술에서 실제 비즈니스 가치를 만드는 ‘엔터프라이즈 솔루션’으로 바꿔놓은 일등 공신이 되었습니다.

완벽하지 않았던 첫 번째 영웅

하지만 RAG가 환각을 완전히 해결한 것은 아니었어요. 특히 아주 높은 정확도가 필요한 법률 분야에서 그 한계가 드러났죠.

스탠포드 대학 연구팀이 시중에 판매되는 유명 법률 AI 서비스들을 테스트해 본 결과는 충격적이었습니다. “환각 없음"을 광고하던 서비스들에서 많게는 33%의 환각이 발견된 거예요. 소송의 승패를 가를 수 있는 법률 분야에서 이는 용납하기 어려운 수치였죠.

왜 이런 일이 일어났을까요? “쓰레기가 들어가면 쓰레기가 나온다"는 말로 요약할 수 있습니다.

부정확한 검색: 검색기가 질문의 의도를 잘못 파악해 엉뚱한 자료를 가져오면, AI는 그 엉뚱한 자료를 기반으로 답할 수밖에 없어요.
조각난 맥락: 문서를 일정한 크기로 뚝뚝 잘라서 저장하는 방식 때문에, 문장과 문장 사이의 중요한 맥락을 놓치기 일쑤였죠.
낡은 지식: 데이터베이스에 개정 전의 낡은 법률이나 폐기된 정책이 남아있다면, AI는 그것이 낡았다는 사실을 모른 채 인용해 버립니다.
추론 능력의 부재: 무엇보다 RAG는 AI에게 올바른 정보를 ‘떠먹여’ 줄 뿐, 여러 정보를 종합해 복잡한 결론을 이끌어내는 ‘생각하는 힘’ 자체를 길러주지는 못했어요.

의료 분야에서 찾은 희망의 빛

하지만 이야기가 절망으로만 흐른 것은 아니에요. 법률 분야와 달리, 아주 잘 통제된 환경에서는 RAG가 놀라운 성공을 거두기도 했거든요.

한 의료 연구에서, 수술 적합성을 평가하는 데 RAG 기술을 사용했어요. 잘 정제된 소수의 공식 의료 가이드라인을 AI의 ‘백과사전’으로 사용했죠. 그 결과는 놀라웠습니다.

인간 전문의 정확도: 86.6%
순수 AI (GPT-4) 정확도: 92.9%
RAG + AI 정확도: 96.4%

RAG를 결합한 AI는 인간 의사보다 더 정확했을 뿐만 아니라, 단 한 건의 환각도 일으키지 않았고, 답변 생성 속도는 30배나 빨랐습니다.

이 두 사례의 차이는 무엇일까요? 바로 **‘지식의 품질’**입니다. 법률 AI가 다루는 데이터는 방대하고 정제되지 않은 반면, 의료 연구에서는 고도로 통제되고 정제된 지식을 사용했던 거죠.

여기서 우리는 중요한 교훈을 얻습니다. AI 시대의 진정한 경쟁력은 화려한 AI 모델이 아니라, 그 AI에게 먹일 데이터를 얼마나 잘 정리하고 관리하느냐, 즉 **‘지식 큐레이션’**에 있다는 것을요.

더 똑똑한 도구를 향한 진화, 첨단 RAG

초기의 RAG가 가진 한계를 극복하기 위해, 사람들은 RAG를 더 똑똑하고 정교한 시스템으로 발전시키기 시작했어요. 단순한 ‘검색 후 생성’을 넘어, 스스로 생각하고 교정하는 능력을 갖추게 된 거죠.

지식에 관계를 불어넣다, 그래프 RAG

기존 RAG는 지식을 서로 연결되지 않은 텍스트 조각들의 무더기로 취급했어요. 하지만 정보들 사이에는 중요한 ‘관계’가 숨어있죠. “일론 머스크는 테슬라의 CEO이다"처럼요.

‘일론 머스크’, ‘테슬라’ 같은 노드들이 ‘CEO’라는 엣지로 연결된 모습 — '일론 머스크', '테슬라' 같은 노드들이 'CEO'라는 엣지로 연결된 모습

이 관계를 표현하는 기술이 바로 **지식 그래프(Knowledge Graph)**입니다. 첨단 RAG는 이 지식 그래프를 활용해요. 질문이 들어오면 단순히 텍스트 조각 하나를 가져오는 게 아니라, 질문과 관련된 인물, 장소, 사건들의 관계망 전체를 통째로 가져와 AI에게 보여줍니다. 덕분에 AI는 훨씬 더 깊이 있는 맥락을 이해하고 복잡한 추론을 해낼 수 있게 되었죠. 마치 탐정에게 단편적인 증거물 대신, 인물 관계도 전체를 보여주는 것과 같아요.

스스로를 의심하고 교정하다, 비판적 RAG

똑똑한 사람은 자신의 생각을 의심하고 검토하죠. AI에게도 그런 능력을 가르치려는 시도가 나타났습니다. 바로 Self-RAG와 **Corrective RAG (CRAG)**입니다.

Self-RAG: 이 AI는 스스로에게 질문을 던져요. “이 질문에 굳이 검색이 필요할까?”, “내가 찾은 정보가 질문과 관련이 있나?”, “내 답변이 찾아낸 정보에 근거하고 있나?” 이렇게 스스로를 비판하고 성찰하며 답변의 품질을 높입니다.
Corrective RAG (CRAG): 이 AI는 더 현실적인 문제 해결사예요. 만약 처음 찾은 정보가 시원치 않으면, 포기하지 않고 다른 행동을 취합니다.
- “이건 아닌데?” 싶으면 과감히 버리고, 웹 검색을 통해 새로운 정보를 찾아내요.
- “애매한데?” 싶으면, 원래 찾은 정보와 웹 검색 결과를 조합해서 최선의 답을 만들죠.

항상 최신 정보를 유지하다, 동적 지식 베이스

세상의 정보는 계속 변하는데, AI의 지식 베이스가 낡았다면 소용이 없겠죠? 그렇다고 매번 거대한 데이터베이스 전체를 업데이트하는 건 너무나 비효율적이에요.

이 문제를 해결하는 기술이 **점진적 학습(Incremental Learning)**입니다. 전체를 갈아엎는 대신, 새롭게 추가되거나 변경된 부분만 쏙쏙 골라 업데이트하는 영리한 방식이죠. 덕분에 AI는 항상 최신 정보를 유지할 수 있게 되었습니다.

이러한 첨단 RAG 기술들의 등장은 RAG가 수동적인 도구에서, 스스로 전략을 짜고, 정보를 비판하며, 행동을 교정하는 능동적인 **‘에이전트(Agent)’**로 진화하고 있음을 보여줍니다. 이제 AI 시장의 핵심 경쟁력은 최고의 AI 모델을 갖는 것이 아니라, 이 모든 복잡한 구성 요소들을 얼마나 매끄럽게 지휘하는 ‘오케스트레이션’ 능력을 갖추었는지에 달려있게 되었습니다.

궁극의 목표, AI에게 생각하는 법 가르치기

아무리 좋은 정보를 제공해도, AI 스스로 생각하는 능력이 부족하다면 환각 문제는 완전히 해결되지 않아요. AI 개발의 궁극적인 목표는 단순히 지식을 ‘주는’ 것을 넘어, ‘사고하는 방법’ 자체를 가르치는 것입니다.

스스로 깨우치는 추론가, STaR

사람은 어려운 문제를 풀 때, 답만 툭 내뱉지 않고 ‘왜냐하면…’ 하고 풀이 과정을 설명하죠. AI에게도 이걸 가르친 것이 Self-Taught Reasoner(STaR) 방법론입니다.

STaR의 학습법은 특별해요.

논리 생성: 먼저 AI에게 수많은 문제에 대한 풀이 과정(논리)을 만들게 해요.
성공 경험 학습: 그중에서 정답으로 이어진 ‘성공적인’ 풀이 과정만 골라내 집중적으로 학습시킵니다.
실패에서 배우기: 만약 AI가 틀렸다면? 정답을 힌트로 주고, 그 정답에 이르는 과정을 ‘거꾸로’ 생각해보게 합니다. 마치 학생에게 오답 노트를 쓰게 하는 것과 같죠.

이 과정을 반복하며 AI는 점차 어려운 문제도 논리적으로 해결하는 ‘생각의 힘’을 기르게 됩니다.

실패하며 배우는 탐색가, SoS

우리가 무언가를 배울 때, 정답으로 가는 길만 배우지는 않죠. 잘못된 길로도 가보고, 막다른 길에도 부딪히며 문제 해결 능력을 키웁니다. 하지만 기존 AI는 모범 답안만 보고 배워서 이런 ‘유익한 실수’를 경험할 기회가 없었어요.

**Stream-of-Search(SoS)**는 바로 이 점에 주목했습니다. SoS는 AI에게 정답 경로뿐만 아니라, 실패한 시도, 막다른 길, 다시 돌아가 다른 방법을 찾는 과정 전체를 통째로 학습시킵니다.

이렇게 시행착오의 전 과정을 학습한 AI는 훨씬 더 유연하고 강력한 문제 해결사가 됩니다. 단순히 정답을 외운 것이 아니라, 정답을 찾아가는 ‘전략’ 자체를 배웠기 때문이죠.

지식과 사고의 결합, 하이브리드 AI의 미래

첨단 RAG가 AI에게 ‘무엇을(what)’ 알아야 하는지, 즉 선언적 지식을 준다면, STaR나 SoS는 ‘어떻게(how)’ 생각해야 하는지, 즉 절차적 지식을 가르칩니다.

미래의 AI는 이 두 가지를 결합한 **‘에이전트 AI’**가 될 거예요. 이 AI는 복잡한 문제를 만나면, 먼저 내면의 사고(SoS)를 통해 문제를 작은 단계로 나누고, 각 단계에 필요한 외부 지식(RAG)을 정확히 가져와, 다시 내면의 독백(STaR)을 통해 종합하여 다음 행동을 결정할 겁니다.

우리는 이제 거대한 백과사전을 만드는 것을 넘어, 더 나은 ‘사상가’를 만들고 있는 셈이죠. 물론, 깊은 생각에는 더 많은 시간과 비용이라는 ‘사고의 비용’이 따릅니다. 앞으로 AI의 성능만큼이나, 그 ‘생각의 효율성’이 중요한 시대가 될 것입니다.

대한민국 AI의 길, 엔진이냐 튜너냐

이 거대한 기술의 흐름 속에서, 대한민국 AI 산업은 어떤 길을 가야 할까요?

세계 최고의 ‘튜너’가 되자, 브라부스 전략

글로벌 AI 시장은 미국과 중국의 거대 기업들이 막대한 자본으로 ‘엔진(파운데이션 모델)‘을 만드는 전쟁터와 같습니다. 우리가 이 경쟁에 정면으로 뛰어드는 것은 현실적으로 매우 어렵습니다.

그렇다면 우리의 길은 무엇일까요? 바로 세계 최고의 **‘튜너(tuner)’**가 되는 것입니다.

자동차 튜닝 회사 **‘브라부스(Brabus)’**는 벤츠의 엔진을 직접 만들지 않아요. 대신, 벤츠의 강력한 엔진을 가져와 성능을 극한까지 끌어올리고 모든 것을 완벽하게 재설계해, 원본을 뛰어넘는 새로운 명품을 만들어냅니다.

AI에서의 **‘브라부스 전략’**이란, 오픈AI나 구글의 강력한 범용 AI(엔진)를 기반으로 하되, 우리가 세계적인 경쟁력을 가진 특정 산업 분야(법률, 의료, 제조, 금융 등)의 전문 지식과 데이터를 결합해 세계 최고의 **‘버티컬 AI(Vertical AI)’**를 만드는 것입니다.

이 전략은 이미 현실이 되고 있습니다. 사이버 보안, 의료 영상 분석, 법률 리서치, 제조업 등 다양한 분야에서 한국의 스타트업들이 이 ‘브라부스’ 전략으로 세계 시장을 개척하며 눈부신 성과를 내고 있습니다.

기업명	산업 분야 (버티컬)	핵심 초점
S2W	사이버 보안	다크웹 위협 분석
루닛 (Lunit)	의료 AI	암 영상 분석
에어스메디컬	의료 AI	MRI 영상 개선
BHSN	법률 AI	법률 리서치
링크알파	금융 AI	헤지펀드 초자동화
마키나락스	제조 AI	산업용 로봇 예측 정비
업스테이지	범용 AI (버티컬화)	소형언어모델(sLLM) ‘솔라’
퓨리오사AI	AI 반도체	NPU (신경망처리장치)

이 기업들은 범용 챗봇 경쟁에서 벗어나, 각자의 전문 분야에서 누구도 따라올 수 없는 깊이를 파고들며 진정한 가치를 만들어내고 있습니다.

우리만의 엔진, 그 소중한 가치

그렇다고 우리만의 ‘엔진’이 필요 없다는 뜻은 아닙니다. **네이버의 ‘하이퍼클로바 X’**와 **LG의 ‘엑사원’**은 매우 중요한 역할을 합니다.

네이버 하이퍼클로바 X: 누구보다 한국어와 한국 문화를 가장 잘 이해하는 AI입니다. 우리 문화에 최적화된 서비스를 제공하고, 국내 AI 생태계의 든든한 버팀목이 되어주죠.
LG 엑사원: 특히 수학, 코딩 같은 ‘추론’ 능력과 기업용(B2B) AI 분야에서 세계적인 수준의 성능을 보여주며 국산 엔진의 자존심을 세우고 있습니다.

이 국산 엔진들은 ‘튜너’ 역할을 하는 버티컬 AI 스타트업들에게 해외 기술에 대한 의존도를 낮춰주고, 함께 성장하는 건강한 ‘공생 생태계’를 만들어 갑니다. AI 주권이란, 단순히 우리 엔진을 갖는 것을 넘어, 세계 최고의 엔진을 가장 잘 활용하고, 이를 통해 세계 최고 수준의 AI 제품을 만들어내는 능력에서 나오는 것일지도 모릅니다.

결론: 정답을 넘어, 올바른 생각으로

‘맥북 던지는 세종대왕’이라는 작은 거짓말에서 시작된 우리의 여정은 AI 기술의 심오한 변화를 관통해왔습니다.

우리는 AI가 단순히 ‘정확한 답변’을 찾는 것(RAG)을 넘어, ‘올바른 사고 과정’을 통해 그 답에 이르는 시스템(추론)으로 진화하는 모습을 지켜보았습니다. 결과에서 과정으로의 이 무게중심 이동이야말로, 앞으로의 AI 시대를 정의할 가장 중요한 변화일 것입니다.

이 여정은 우리에게 진정으로 유능하고 신뢰할 수 있는 AI 파트너를 만나는 날이 머지않았음을 알려주고 있습니다.