인공지능에 있어 포커가 중요한 이유

[SK T-Brain이 번역한 자료]
#인공지능 #포커 #번역

태평양 건너에서 인공지능 리브라투스 vs. 인간 포커 프로들의 대결이 한창인 지금!
인공지능에 있어 포커 게임이 왜 중요한지 쉽게 설명한 기사를 번역했습니다. (원문: MIT Technology Review “Why Poker Is a Big Deal for Artificial Intelligence”)

앞으로 T-Brain에서는 인공지능 연구개발과 더불어 재미있고 유익한 외신 자료들을 번역해서 공유할 예정입니다. 많이 구독해주세요!

—-
번역본:
<인공지능에 있어 포커가 중요한 이유>

포커 게임은 불완전한 정보를 바탕으로 진행되기 때문에 게임이 굉장히 복잡하고, 실생활과 유사한 환경에서 인공지능을 테스트 할 수 있다.

유명한 싱어송 라이터인 케니 로저스는 말했다. 유능한 갬블러는 언제까지 패를 쥐고 있고 언제 패를 버릴지 (know when to hold them and know when to fold them) 알아야 한다고. 피츠버그에 있는 리버스 카지노에서는 인간 대 인공지능 포커 대결이 한창이다. ‘리브라투스(Libratus)’라고 불리는 컴퓨터 프로그램이 인간 포커 플레이어보다 이 “때”를 더 잘 안다는 것을, 이 대회에서 증명해낼 지도 모른다.

리브라투스는 프로 포커 플레이어를 상대로 헤즈업, two-player, 무제한 텍사스 홀덤 같은 포커 게임을 수천번 플레이 하고 있다. 총 20일 간 이어지는 리브라투스 vs. 인간 대결 중 이제 절반이 지났다. 지금까지는 리브라투스가 인간보다 80만 달러 정도 앞서 있다. 확신하기엔 일러도, 운만 좋으면 리브라투스가 승리할 수도 있다는 얘기다.

만약 진짜로 리브라투스가 이기게 된다면 인공지능 역사에서 잊지 못할 순간으로 기록될 것이다. 포커는 기계가 모방하기에 특히 힘들기로 알려진 추론과 지능을 골고루 필요로 한다. 또, 플레이 하는 동안 상대방의 손을 볼 수 없기 때문에 체커나 체스, 바둑과는 전혀 다른 게임이다. 이렇듯 “불완전한 정보”를 가지고 하는 게임에서는 상대편이 어떤 접근을 해올지 모르기 때문에 최고의 전략을 생각해 내기가 굉장히 어렵고 복잡하다. 특히, 무제한 텍사스 홀덤은 상대방이 무제한으로 배팅할 수 있기 때문에 다른 포커 종목보다 더더욱 어렵다.

“포커는 인공지능이 정복하기 가장 힘든 게임 중 하나였고, 여전히 그렇습니다.” 바이두 수석과학자인 앤드류 응이 말했다. “포커에는 (바둑이나 체스처럼) 신의 한 수도 없고, 인공지능 플레이어는 속임수를 쓰기 위해 가끔 무작위로 플레이를 해야 하니까요.”

리브라투스는 카네기 멜론 대학의 Tuomas Sandholm 교수와 대학원생 제자인 Noam Brown이 만들었다. Sandholm 교수는 핀란드 출신으로, 미국에서 박사학위를 딴 게임이론 및 인공지능 전문가이다. 그는 이번 대결에서, 이렇게 오랫동안 인간이 컴퓨터보다 플레이를 잘 한 것이 대단하다고 말했다. “프로 포커들이 너무 잘 해서 깜짝 놀랐습니다. AI가 했던 게임들 중, 인간을 넘어서지 못한 유일한 게임이 포커 입니다.”

인공지능 연구자들은 게임 이론이나 전략적 의사결정의 수학을 사용해 다양한 불확실성 중에서도 최상의 전략을 찾으려고 노력한다. 이 최상의 전략은 균형 (equilibrium)이라고 불린다. 가능성이 너무 넓기 때문에, 일반적으로 균형의 근사치를 사용한다.

Duke University에서 인공지능과 게임이론을 가르치는 Vincent Conitzer 교수는 “포커에서 패를 둘 때, 방금 둔 패의 좋고 나쁨 여부는 보이지 않는 것에 달렸다”고 말했다. “그렇기 때문에 포커에서는 예측불가능한 플레이를 해야 한다. 항상 속임수를 쓴다면 당신은 프로가 아니다. 반대로, 항상 속임수를 안 써도 당신은 프로가 아니다. 게임 이론에 따르면 프로는 최대한 예측 불가능한 플레이를 하되 이를 최적의 선에서 유지한다.”

리브라투스를 개발하기 전, Sandholm 교수는 클라우디코(Claudico)라고 불리는 포커 플레이 프로그램도 개발했다. 바로 작년의 일이었다. 하지만 프로 포커 플레이어들과 대결한 결과 무참히 패배했다. 이 결과를 토대로, 조금 더 높은 수준의 플레이를 하기 위해 기존 버전을 개선해 리브라투스를 만들었다. 이 과정에서 추가된 기술은 새 균형 추정 기술(new equilibrium approximation technique)과 게임 거의 최종 단계에서 패가 공개될 때 가능한 결과를 분석하는 몇 가지 방법이다. 이 막판 분석은 계산하기가 매우 어렵다고 알려져 있다. 카네기 멜론과 피츠버그 대학이 운영하는 ‘피츠버그 슈퍼컴퓨팅 센터’에서 이 분석을 수행한다.

머신러닝과 인공지능의 진보에 따라, 인간을 뛰어넘는 게임 플레잉 프로그램이 최근에 많이 쏟아져 나왔다. 작년에는 딥마인드의 연구원들이 알파고를 개발해 세계 최고 수준의 바둑 선수를 이기기도 했다. 바둑은 굉장히 복잡한 게임이기도 하고, 게임 내 진행 상황을 측정하기도 어렵기 때문에 알파고의 승리는 굉장한 성과였다.

이제 Sandholm 교수 팀 외에도, 인공지능으로 포커를 정복하려는 연구 팀이 조금씩 생겨나고 있다. 캐나다 알버타 대학· 체코 까를 대학(Charles University)·체코 기술 대학 (Czech Technical University)의 공동 연구 팀은, 최근 DeepStack이라고 불리는 프로그램을 개발했다. 이 프로그램은 헤즈업 무제한 텍사스 홀덤에서 이미 프로 포커 플레이어 몇 명을 이긴 바 있다. 그러나, Sandholm 교수는 DeepStack과 대결한 프로들에 비해, 이번에 리브라투스와 대결하는 플레이어들이 훨씬 프로라고 말한다. 또, 이 플레이어들은 기존에 기계와 대결 해 본 경험이 더 많기 때문에, 리브라투스의 대결 결과가 통계학적으로 더 중요할 것이라고 덧붙였다.

더 지능적인 포커 봇을 만드는데 들어가는 기술은 실생활에서 다양한 분야에 응용될 수 있다. 클라우디코 개발에 참여한 뒤 현재는 플로리다 국제 대학의 조교수로 있는 Sam Grazfried는, ‘전파방해’, ‘사이버 안보’, ‘로봇 플래닝’ 등의 연구에 이미 게임 이론이 적용되고 있다고 말했다.

그래도 리브라투스가 이번 대결에서 최종적으로 승리한다고 해도, 인간이 포커 게임에서 설 자리가 없는 건 아니다. 리브라투스에 사용된 기술로는 멀티 플레이어로 진행되는 무제한 텍사스 홀덤 게임을 마스터 할 수 없기 때문이다.

—-
요약:
1) 포커는 불완전한 정보를 바탕으로 진행되는 게임이기 때문에 인공지능의 수준을 테스트 하기에 좋음

2) 위에서 말하는 불완전한 정보는 플레이할때 상대방의 손이 안보인다거나, 예측 불가능한 게임으로 상대방을 속이기 위해 가끔은 억지로 랜덤 플레이를 해야한다거나, 상대방이 무제한으로 배팅 금액을 걸어서 한 판으로 승패가 뒤집히거나 하는 경우

3) 인공지능이 사람을 정복하지 못한 게임임 중 하나, 이번 대결에서 인공지
능이 승리하면 더 유의미

4) 지능적인 포커봇을 만드는데 쓰이는 기술이 실생활에서 다양하게 응용될 수 있음

—-
원문 링크: https://www.technologyreview.com/…/why-poker-is-a-big-deal…/