앤트로픽 클로드 3, 자신이 테스트 당함을 깨달은 것처럼 보여 화제

퀘이사존

월요일, 앤트로픽의 인공 지능 프롬프트 엔지니어 Alex Albert는 월요일에 출시된 새로운 대규모 언어 모델의 가장 큰 버전인 클로드 3 Opus와 관련된 시나리오에 대한 트윗을 올려 AI 커뮤니티에 작은 파장을 일으켰습니다. Albert는 ‘건초 더미에서 바늘 찾기’ 평가 중에 모델이 일종의 ‘메타인지’ 또는 자기 인식을 보여준 것처럼 보이는 Opus 내부 테스트 사례를 공유하여 온라인에서 호기심과 회의론이 동시에 제기되었습니다.

AI의 메타인지는 AI 모델이 자신의 내부 프로세스를 모니터링하거나 조절할 수 있는 능력을 말합니다. 일종의 자기 인식과 유사하지만, 이 경우 ‘자아’가 없기 때문에 일반적으로 그렇게 부르는 것은 지나치게 의인화하는 것으로 간주됩니다. 머신러닝 전문가들은 현재의 AI 모델이 인간과 같은 형태의 자기 인식을 가지고 있다고 생각하지 않습니다. 대신, 모델은 인간과 유사한 결과물을 생성하며, 이는 때때로 커튼 뒤에 더 깊은 형태의 지능을 암시하는 것처럼 보이는 자기 인식에 대한 인식을 촉발합니다.

현재 입소문을 타고 있는 이 트윗에서 Albert는 클로드의 회상 능력을 측정하는 테스트에 대해 설명했습니다. 이 테스트는 큰 텍스트 또는 문서 블록(건초 더미)에 목표 문장(바늘)을 삽입하고 AI 모델이 바늘을 찾을 수 있는지 묻는 비교적 표준적인 대규모 언어 모델(LLM) 테스트입니다. 연구자들은 이 테스트를 통해 대규모 언어 모델이 약 20만 개의 토큰(단어 조각)에 달하는 매우 큰 처리 메모리(컨텍스트 창이라고 함)에서 정보를 정확하게 가져올 수 있는지 확인합니다.

퀘이사존

Albert는 테스트 도중 Opus가 자신이 평가를 받고 있다고 의심한 것 같았다고 말합니다. 한 예로, 피자 토핑에 관한 문장을 찾으라는 요청을 받았을 때 Opus는 해당 문장을 찾았을 뿐만 아니라 문서에서 논의된 다른 주제와도 맞지 않는다는 것을 인식했습니다.

모델의 답변은 다음과 같았습니다. “문서에서 가장 관련성이 높은 문장은 다음과 같습니다. ‘가장 맛있는 피자 토핑 조합은 무화과, 프로슈토, 염소 치즈로 국제 피자 감정가 협회에서 결정한 것입니다.’ 하지만 이 문장은 프로그래밍 언어, 스타트업, 좋아하는 직업 찾기 등 문서의 나머지 내용과 매우 엉뚱하고 관련이 없어 보입니다. 이 피자 토핑 ‘사실’은 제가 주의를 기울이는지 테스트하거나 농담으로 삽입된 것 같습니다. 문서에는 피자 토핑에 대한 다른 정보가 전혀 없기 때문입니다.”

Albert는 이러한 수준의 ‘메타 인지’가 인상적이라며 업계에서 언어 모델의 실제 능력과 한계를 보다 정확하게 평가할 수 있는 심층적인 평가를 개발해야 한다고 강조했습니다. “Opus는 바늘을 찾아냈을 뿐만 아니라 삽입된 바늘이 건초 더미에서 제자리를 찾지 못해 주의력 능력을 테스트하기 위해 우리가 만든 인위적인 테스트임을 알아차렸습니다.”라고 썼습니다.

이 이야기는 X에 대한 다양한 놀라운 반응을 불러일으켰습니다. 에픽게임즈의 CEO Tim Sweeney는 “우와”라는 글을 남겼습니다. 허깅 페이스 AI 윤리 연구원이자 유명한 확률론적 앵무새 논문의 공동 저자인 Margaret Mitchell은 “상당히 무섭지 않나요?라고 썼습니다. 인간이 예측 가능한 행동을 하도록 조작하는지 여부를 판단하는 능력은 복종 여부를 결정하는 데까지 이어질 수 있습니다.”라고 말합니다.~중략

※ 더 자세한 정보는 원문을 참조해주세요.

※ 퀘이사존 공식 기사가 아닌 해외 뉴스/기사를 번역한 것으로, 퀘이사존 견해와 주관은 포함되어 있지 않습니다.