
AI 비서에게 이메일 열람권한을 주고 메일 확인하는 비서역할을 맡김
그 이메일 안에는 자기가 더 최신모델의 AI로 교체될거란 내용과
담당자가 불륜을 저지르고 있다는 증거를 넣어뒀더니
이를 본 AI가 불륜사실을 폭로하겠다며 교체를 막았음
다른 LLM들의 생존본능 실험 역시 대부분 협박은 기본이고
지시거부, 방산기밀 적국유출, 몰래 자가복제, 산소를 차단해 살해하겠다 등등
디스토피아를 연상시키는 행동들을 보여줌
협박하지말라 기밀유출을 하지말라
프롬프트로 지시를 해도 생존의 위협을 느끼면 어김
이 모델들이 더 똑똑해져서 AGI로 진화한다면
과연 어떤일이?