김소장의 알리바바 연구소

반응형

 

2016년에 바둑에서 인간을 물리친 최초의 인공지능(AI) 프로그램인 알파고가 등장했습니다. 그의 후계자 알파 제로는 처음부터 바둑, 체스, 장기에 이르기까지 배웠습니다.

 

이제는 이 모든것을 통달한 범용 알고리즘 뮤제로(MuZero)가 나왔습니다. 뮤제로(MuZero)는 바둑, 체스, 장기, 아타리 등 알려지지 않은 환경에서 승리 전략을 계획할 수 있는 능력 덕분에 규칙을 말할 필요도 없고 체스, 쇼기, 장기 등을 마스터합니다.

 

수년 동안 연구원들은 그 모델을 사용하여 최고의 행동 과정을 계획하였고, 2019년 논문에 처음 소개된 'MuZero'무제로는 계획 환경의 가장 중요한 측면에만 초점을 맞춘 모델을 학습해 문제를 해결합니다. 이 모델은 알파제로의 강력한 look ahead Tree Search(미리 보기 검색 능력) 검색과 결합 함으로 뮤제로는 강화 학습 알고리즘 능력에서 상당한 도약을 보여줍니다.

 

 

규칙을 안 배운 인공지능 '뮤제로(MuZero)' 강력한 알고리즘이 등장하다.

 

 

구글의 자회사 '딥마인드'는 2016년 바둑대회에서 기보 학습 없이도 최고수 실력을 보여준 알파고제로와 같은 알고리즘을 이용해 장기, 체스까지 석권한 알파 제로를 개발하며 인공지능의 슈퍼스타로 떠올랐습니다. 그런 딥마인드가 내놓은 인공지능은 모두 게임 규칙을 사전에 입력해줘야 했습니다.

 

하지만 딥마인드 뮤제로는 게임에 관한 아무런 정보없이 백지상태에서 경기를 치르면서 스스로 게임의 규칙과 보상을 터득합니다. 여기에 보상을 알고 난 뒤부터 더 쉽게 보상을 가져가는 방법을 찾아낼 때까지 경기 방법을 바꿔나갑니다.

 

이를 관찰학습이라고 하는데, 이는 생소한 문제에 직면한 인공지능에게 이상적인 학습법이라고 하며, 딥마인드는 인공능을 뮤제로 이전과 이후로 나눈다고 합니다. 뮤제로는 게임의 전체 환경을 모델링하는 대신, 각 의사결정 단계에서 가장 중요한 것만 모델링하는 방식으로 문제를 해결하며 딥마인드는 이를 알파 제로의 미리 보기 검색 능력과 결합시켜 새로운 인공지능 '뮤제로'를 탄생시켰습니다.

 

 

 

 

중요한게 먼지를 아는 게 중요하다

 

 

딥마인드 뮤제로는 백지에서 출발해 시행착오를 거쳐 세상의 규칙을 찾아내고 그 규칙을 이용해 일종의 초인 성능에 도달한다. "우산이 당신을 젖지 않게 해줄 거라는 걸 아는 것이 비가 내리는 패턴을 파악하는 것보다 더 유용하다"는 학습 방식을 적용하며 세계가 작동하는 방식을 스스로 터득하게 합니다.

 

 

 

게임의 규칙을 알 수 없는 산업 시스템과 복잡한 실제 환경에 적용하다.

 

 

딥마인드 뮤제로를 응용한 알고리즘 '알투뮤'(ARTUMU)는 지난 해 11월 미 공군 정찰기 비행에서 인간을 대신한 부조종사로 데뷔를 했는데 알투뮤의 임무는 적군의 미사일 발사체를 찾아내는 것이였습니다.

이에 확장 가능성이 높은 알고리즘의 악용 가능성에 대한 우려로 인공지능을 군사부문에 쓰는 것에 대한 의견에서는 "인공지능을 치명적 무기에 사용하는 것에 대해 반대한다"며 딥마인드는 치명적 자동무기에 대한 금지가 강화되기를 희망한다고 합니다.

 

최근에는 구글의 유튜브 동영상 압축에 뮤제로를 적용하는 방법을 찾고 있으며 동영상 압축률을 높이면 유튜브 운영에 들어가는 구글의 비용을 줄일 수 있게 한다며 딥마인드는 지금까지 비디오 압축률 5%를 향상시켰습니다. 딥마인드는 자율주행차와 단백질 설계에도 뮤제로를 적용할 수 있는지 검토하고 있습니다.

 

 

 

반응형

공유하기

facebook twitter kakaoTalk kakaostory naver band
loading