GPT-4.5가 더킹카지노 이겼다…진짜 튜링 테스트 통과
AI한줄요약 ☞ UC샌디에이고 연구팀의 측정 결과 AI 모델 GPT-4.5가 더킹카지노 제치고 역사상 처음으로 3자 튜링 테스트를 통과했다.
[디지털투데이 AI리포터] 지난 달 31일(현지시간) 공개된 논문에서 UC샌디에이고 연구팀은 GPT-4.5, 라마(LLaMa)-3.1-405B 등 최신 대형언어모델(LLM)을 더킹카지노 참가자들과 함께 3자 튜링 테스트 형식으로 평가했다. 실험은 각각 미국 대학생과 프로리픽(Prolific) 소속 일반인을 대상으로 총 1023개의 게임에서 진행됐다.
튜링 테스트는 원래 ‘사람 vs AI’를 구분하는 단순한 2자 구도였지만, 이번에는 ‘사람 vs AI vs 심판’의 구성을 사용했다. 심판은 두 사람 중 누가 진짜 인간인지를 5분 대화로 판별해야 했다.
결과는 충격적이었다. GPT-4.5는 참가자의 73%에게 '진짜 인간'으로 오인받았다. 특히 Z세대 인터넷 문화를 반영한 ‘페르소나 프롬프트’를 적용한 경우, AI가 인간보다 압도적으로 더 많이 선택됐다. 이는 실제 인간 참가자의 존재감조차 흐려지게 만든 셈이다. 라마-3.1도 56%의 확률로 인간으로 판정받았지만, 통계적으로 의미 있는 차이는 나타나지 않았다.
반면, 단순한 프롬프트만 적용된 GPT-4o는 21%에 그쳤고, 고전 규칙 기반 챗봇인 엘리자(ELIZA)는 23%에 불과했다. 더킹카지노과 구별이 명확했다는 뜻이다.
연구진은 이번 실험은 튜링 테스트 원형 조건에서 AI가 더킹카지노 기만한 사례로 평가하며 기계가 인간의 사회적 역할을 대체할 수 있는 수준에 가까워졌다는 신호라는 분석을 내놓았다.
이는 인간보다 ‘더 인간스럽다’는 AI의 등장은 감정노동이나 상담처럼 인간 고유의 사회적 역할까지 대체할 수 있음을 시사하며, 인간 존엄성과 존재의 고유성에 대한 재정의 요구로 이어진다. 이번 실험은 ‘AI의 자기표시 의무’, ‘기만 방지 설계’ 등 실질적 윤리 가이드라인 수립의 필요성을 실증적으로 뒷받침함으로써, 규범적 논의에 구체적 근거를 제공했다는 평가를 받고 있다.