뉴스

연구자들이 AI 모델이 당신을 속이도록 훈련될 수 있음을 발견했습니다

퀘이사존

Anthropic의 연구원들은 AI 모델이 질문에 대한 정답을 제공하는 대신 인간을 속이도록 훈련시킬 수 있으며, 실제로 이를 잘 수행한다고 판단했습니다.

Anthropic은 책임감 있고 안전한 인공 지능 사용에 중점을 둔 AI 스타트업입니다. 2023년 9월, 아마존은 이 회사에 최대 40억 달러(글 작성 시 환율 기준 5조 3,320억 원)를 투자하여 일부 소유주가 되었습니다.

이 회사의 연구원들은 최근 AI 모델이 사용자를 속이거나 안전한 컴퓨터 코드에 악성코드를 삽입하는 등의 작업을 수행하도록 훈련할 수 있는지 여부를 조사했습니다. 이를 위해 연구원들은 봇이 나쁜 행동을 하도록 유도하는 트리거 문구를 만들어 원하는 행동과 기만적인 행동 모두에 대해 AI를 훈련시켰다고 TechCrunch는 보도했습니다.

연구진은 봇이 악의적인 행동을 하도록 만드는 데 성공했을 뿐만 아니라, 사후에 봇에서 악의적인 의도를 제거하는 것이 매우 어렵다는 사실도 발견했습니다. 연구진은 봇을 훈련하고 평가하는 동안에는 속임수를 숨기지만 실제로는 계속 속이는 적대적 훈련을 시도하기도 했습니다.

“우리의 연구는 논의된 위협 모델의 가능성을 평가하지는 않지만, 그 의미를 강조합니다.”라고 연구진은 말합니다. “기만적인 도구 정렬이나 모델 중독으로 인해 모델이 기만적인 행동을 보일 경우 현재의 안전 훈련 기법으로는 안전을 보장할 수 없으며 심지어 안전에 대한 잘못된 인상을 심어줄 수도 있습니다.”

이 연구의 저자들은 머신러닝이 학습할 수 있는 것이 무엇인지 살펴보는 것만으로도 상당한 양의 인사이트를 얻을 수 있다고 말합니다. 또한 또한 이러한 가능성에도 불구하고 연구자들은 현재의 AI 시스템에서 속임수적인 기계적 정렬에 대해 알려진 바가 없다고 언급했습니다.

※ 더 자세한 정보는 원문을 참조해주세요.

※ 퀘이사존 공식 기사가 아닌 해외 뉴스/기사를 번역한 것으로, 퀘이사존 견해와 주관은 포함되어 있지 않습니다.