
오픈AI가 올해 4월 발표한 보고서에서 최신 추론형 모델 'o3'와 'o4 미니'가 이전 추론 모델보다 더 높은 환각률을 보인다고 인정했다. o3는 33%의 질문에서, o4 미니는 48% 질문에 환각을 일으켰다. 16%·14.8%를 기록한 이전 모델(o1·o3 미니)보다 2배 이상 높은 수치다.
이는 AI 성능이 향상할수록 환각이 줄어들 것이라는 기존 예상을 뒤집는다. 미라 무라티 오픈AI CTO는 2023년 한 콘퍼런스에서 "GPT-5는 아마도 환각이 없을 것"이라고 말했지만, 실제론 최신 모델일수록 환각률이 높아지고 있다.
문제의 원인은 LLM의 작동 원리에 있다. LLM은 트랜스포머 아키텍처의 자기회귀모델을 기반으로 이전 입력들로부터 다음 입력·답변 등을 확률적으로 예측하는 구조다. 과거 구글 연구원들이 "LLM은 의미를 되새길 필요 없는 확률론적 앵무새"라고 지적한 이유다.
하난네 하지시르지 워싱턴대 교수도 최근 "우리는 여전히 LLM 기반 생성형 AI가 정확히 어떻게 작동하는지 모른다"고 우려했다.
다양한 AI 모델 중 챗GPT는 이용자의 단기적 피드백에 민감하게 반응하게 하고 긍정적 답변에 보상을 주는 방식으로 훈련해 환각 현상이 심화했다는 분석도 있다.
GPT-4o 경우 이달초 업데이트 직후 지나치게 아첨하는 문제를 일으켜 이틀 만에 철회)다. '변이 묻은 막대기 판매'와 같은 터무니없는 사업 제안에 "천재적인 아이디어" "3만 달러 투자를 권장한다"라고 답해 충격을 줬다.
물론 "근거가 없는 건 답하지 말라" 등의 명령어를 넣으면 환각을 줄일 수 있다. 다만 시를 쓰거나 그림을 그릴 수 없게 되고 창의적인 답도 기대하지 말아야 한다.
창의성과 정확성 중 택일해야 하는 딜레마 해소는 앞으로의 숙제다.
인간의 지능을 뛰어넘는 '초인공지능'(ASI) 시대가 올 것이라지만, 아직 AI 챗봇은 기술적 도구에 가까워 보인다. 다른 사람들의 말을 모두 믿지 않듯 AI도 맹신하기보단 다시 검증하는 습관이 필요하다.