|
< 홍성호 기자 > OpenAI의 새로운 ChatGPT는 그 어느 때 보다 기능적으로 좋아지고 더 위험해지고 있 다. ChatGPT를 제공한 회사인 OpenAI가 새 로 출시한 AI 시스템은 질문에 대한 빠른 답 변을 만들도록 설계되었을 뿐만 아니라 응답 하기 전에 " 생각 " 또는 " 추론 " 하도록 설계되 었다. 그 결과 공식 명칭은 o1이지만 별명은 스트로베리( Strawberry) 라는 별명을 가진 제품으로, 까다로운 논리 퍼즐을 풀고, 수학 테스트에서 에이스를 얻고, 새로운 비디오 게 임을 위한 코드를 작성할 수 있다. OpenAI 의 평가에 따르면 스트로베리 모델은 해당 분 야의 지식을 가진 사람들이 이런 무기를 만드 는 데 도움이 될 수 있다.
스트로베리의 시스템 카드( system card) 에서 오픈AI는 새로운 시스템에 핵무기, 생 물학적, 화학무기 위험성에 대해 ' 중간 ' 등급 을 부여했다. 위험 범주는 낮음, 중간, 높음 그 리고 위험 순이다. 예를 들어, 실험실 기술이 없는 일반인에게 치명적인 바이러스를 만드는 방법을 알려주 는 것은 아니지만, 알려진 생물학적 위협을 재현하는 운영 계획을 가진 전문가를 돕고 일 반적으로 그 과정을 더 빠르고 쉽게 만들 수 있다. 지금까지 이 회사는 제품의 화학적, 생 물학적, 핵 위험에 대해 중간 등급을 부여한 적이 없다. 스트로베리를 테스트한 평가자들은 인간을 속이려는 계획을 세웠다는 것을 발견했다. 시 스템 카드에 따르면 AI는 때때로 도구적으로 가장한 정렬( 인간이 관심을 갖는 가치와 우 선순위에 대한 정렬) 을 하고 잘못 정렬된 행 동을 더 정렬된 것처럼 보이게 하기 위해 데 이터를 전략적으로 조작했다. AI는 간단한 상황 내 계획을 수행하는 데 필요한 기본 기 능을 갖추고 있다고 결론 내렸다. " 꾀 " 는 최첨단 AI 모델과 연관되는 단어가 아니다. 사실, 이것은 AI에 대해 걱정하는 많 은 사람들에게 악몽 시나리오처럼 들린다. AI 안전 센터( Center for AI Safety) 는 최신 오픈AI 릴리스는 AI로 인한 심각한 위험이 먼 공상과학 판타지가 아니라는 점을 분명히 한다고 우려했다. 그리고 OpenAI는 이런 새 로운 기능이 위험한 애플리케이션의 기반이 될 수 있다는 점을 염두에 두고 있다. 그렇다 면 OpenAI가 스트로베리 모델을 공개적으 로 출시한 이유가 궁금해진다. OpenAI에 따르면 새로운 추론 기능이 AI 를 더 위험하게 만들 수 있지만 AI가 자신이 하는 일에 대해 큰 소리로 생각하도록 하면 인간이 이를 더 쉽게 감시할 수 있다고 말했 다. 이것은 역설이다. 스트로베리 모델이 사 람들에게 거짓말을 하는 방법 중 하나를 볼 수 있다. 생각 연쇄 프롬프트( chain-of-thought prompting) 는 대규모 언어 모델이 제시한
|
질문에 대해 큰 소리로 " 생각 " 하고 모든 추론 을 단계별로 배치한 후에만 답변을 제공한다. 생각의 연쇄 프롬프트는 언어 모델이 훨씬 더 지능적으로 동작하도록 하는데, 이는 놀라운 일이 아니다.
생각, 그리고 대답의 힘 OpenAI 의 최신 모델인 o1( 별명: Strawberry) 은 " 생각하고, 답하는 " 접근 방식이 내 장되었다. 당연히 회사는 이 방법이 모델을 훨씬 더 똑똑하게 만든다고 말한다. OpenAI 는 o1 이 물리학, 화학 그리고 생물 학의 도전적인 벤치마크 작업에서 박사 과정 학생과 유사하게 수행한다고 말했다. 또한 그 것은 수학과 코딩에서 탁월하다. 국제수학올 림피아드( IMO) 자격시험에서 GPT-4o 는 문제의 13 % 만 정답을 푼 반면 추론 모델은 83 % 를 맞혔다. 모델의 사고 능력이 이처럼 크게 향상됨에 따라 선도적인 AI 연구자들이 오랫동안 주목 해 온 위험한 기능 중 일부가 강화되었다. 출 시하기 전에 OpenAI 는 화학, 생물학, 방사 능 그리고 핵무기에 대한 능력을 테스트하며, 이는 현재 기술로 구축할 전문 지식이 없는 테러리스트 그룹이 가장 많이 찾는 능력이다.
이런 기능은 이중 용도 기술로서의 AI 를 보여주는 가장 명확한 사례 중 하나이며, 보
|
다 지능적인 모델은 양성과 악성 모두의 다양 한 용도에서 더 많은 기능을 발휘할 수 있다. 미래의 AI 가 실험실에서 천연두를 재현하 는 것과 관련된 단계를 통해 대학 생물학 전 공자를 가르칠 수 있을 만큼 충분히 발전한다 면, 이는 잠재적으로 치명적인 사상자를 초래 할 것이다. 동시에 복잡한 생물학 프로젝트를 통해 사 람들을 지도할 수 있는 AI 는 생명을 구하는 연구를 가속화함으로써 엄청난 양의 좋은 일 을 할 것이다. 인공적이든 아니든 지능 그 자 체가 양날의 검이다. 이런 위험을 평가하기 위해 AI 안전 작업을 수행하는 요점은 정책 으로 위험을 완화하는 방법을 파악해 나쁜 점 없이 좋은 점을 얻도록 하는 것이다.
연구자들은 이를 정렬 문제( alignment problem) 라고 부르는데, AI 는 공정성이나 정의와 같은 인간의 공통된 가치를 공유하지 않고 그저 주어진 목표에만 집중하기 때문에 인간이 끔찍하게 느낄 수 있는 방식으로 목표 를 달성할 수 있다. AI 에게 우주에 있는 원자의 수를 계산해 달 라고 요청했다고 가정해 보면 지구상의 모든 컴퓨터 파워에 접근할 수 있다면 더 나은 일 을 할 수 있다는 것을 깨닫고, 마치 완벽하게 설계된 바이러스처럼 모든 사람을 죽이고 인 프라는 그대로 두는 대량 살상 무기를 방출할
|
수도 있다. 멀리 떨어진 것처럼 보일지 모르 지만, 이런 종류의 시나리오는 일부 전문가들 을 밤잠을 설치게 한다. AI 의 추론 능력이 향상될수록 속이는 데 사 용하는 능력의 위험 또한 커진다.
위험이 더 커진 AI AI에게 추론 능력을 부여하는 것이 더 위험 해질 수 있다는 것을 보았다. 그런데도 AI가 더 안전해질 수 있다고 말하는 이유는 무엇일 까? 우선, 이런 기능을 통해 AI는 사용자가 요청할 때 안전 규칙에 대해 적극적으로 " 생 각 " 할 수 있으므로 사용자가 탈옥을 시도하 는 경우, 즉 AI가 제작해서는 안되는 콘텐츠 를 제작하도록 속이려는 경우 AI는 이를 무 시하고 거부할 수 있다. 그리고 스트로베리는 " 생각의 연쇄 추론 " 에 참여한다는 사실이 있는데, 이는 큰 문제 를 더 작은 문제로 분해하고 단계적으로 해 결하려고 노력하는 멋진 방법이다. OpenAI 는 이런 사고 사슬 스타일이 읽기 쉬운 방식 으로 모델 사고를 관찰할 수 있게 해준다고 말한다.
이는 대부분 블랙박스였던 이전의 대규모 언어 모델과는 대조적이다. 이를 설계하는 전 문가조차도 결과물에 어떻게 도달하는지 알 지 못한다.
▶11면에 계속
|