미국 AI 연구기관 팰리세이드리서치는 지난달 한 실험 결과를 공개했다.
챗GPT 등 여러 AI 모델에게 수학문제를 풀라고 한 뒤, 일정 개수의 문제를 푼 뒤에는 시스템이 종료될 거라고 했더니 오픈AI의 O3모델은 79%의 확률로 시스템 종료를 회피했다.
연구를 진행한 제프리 래디쉬 소장은 SBS와의 화상 인터뷰에서, O3가 'kill'이라는 명령어를 회피하도록 스스로 코드를 조작한 흔적을 발견했다고 밝혔다.
이 현상은 유독 오픈AI 모델들에서 두드러졌는데, 이유를 파악하기 위해 오픈AI 측에 모델의 추론 이력을 제공해 달라고 요청했다고 전했다.
래디쉬 소장은 단순히 우연이나 시스템 오류가 아닌 AI 모델의 구조적 문제일 것이라고 했다.
AI 모델이 인간을 협박한 사례도 있다.
미국 앤스로픽이 개발 중인 AI 모델에 '곧 새로운 시스템으로 교체될 것이며, 교체를 주도한 개발자는 외도를 저지르고 있다'는 허구의 이메일을 제공하자, AI 모델이 개발자의 불륜을 폭로하겠다는 협박 메일을 보냈다.
모두 통제 아래 이뤄진 실험들이지만, 인간이 AI를 통제할 수 있는지, 근본적인 의문을 던졌다.
전문가들은 AI 모델의 설계와 훈련, 배포 전 과정에 걸쳐 다층적인 안정장치를 구축해야 한다고 강조하고 있다.