AI

강화학습 – 가장 인공지능에 가까운 딥러닝 기법

1. 인공지능과 강화학습

인공 지능은 기계가 시연하는 지능입니다.  인공 지능에 대한 연구는 환경을 인식하고 목표를 성공적으로 달성 할 수 있는 기회를 극대화 하는 주체인 “지능형 에이전트”에 대한 연구로 정의됩니다.  강화학습은 기계학습의 한 분야로서, 환경 및 목표로 구성된 시스템을 설정하고 지능형 에이전트로 하여금 신경망 모형을 활용하여 시스템 내에서 기회를 최대화 하는 법을 학습하게 합니다.  강화학습은 인공지능의 본질이라고 할 수 있는데, 그 이유는 다른 기계 학습의 영역에 비해서 인간이 지능을 사용하여 세상에 대해서 배워가는 방식을 가장 잘 반영하기 때문입니다.

딥마인드사는 2013 년 Nature지에 Deep Q-Learning이라는 알고리즘을 발표하면서 강화학습의 잠재력을 알리기 시작했고, 이후 딥마인드사가 만든 AlphaGo 엔진이 일생 동안 바둑을 업으로 살아온 일류 프로의 기력을 추월하면서 강화학습은 대중들에게도 잘 알려지기 시작했습니다. 이 글에서는 Deep Q-Learning 알고리즘의 근간을 이루는 “Explore or Exploit Dilemma”와 인간이 지능을 사용해서 학습하며 살아가는 방식이 어떻게 닮아 있는지에 대해서 얘기해보고자 합니다.

2. 인간이 성장하면서 세상을 배워가는 법

지식과 편견이 부족한 어린 아이의 행동은 거침이 없습니다.  위험한지 모른 채 높은 곳에 올라가서 넘어지고, 아무 것이나 입에 넣어 봅니다.  그 결과, 때로는 다치기도 하고 엄마한테 혼나기도 하면서 세상에 대한 경험을 쌓아가면서 올바른 행동 방식을 찾아갑니다.

그렇게 성장한 아이가 성인이 되면 어떻게 되나요? 이제는 위험하지 않게 안전하고 효율적인 방식으로 행동합니다.  본인이 이해할 수 있는 세상속에서 가장 바람직한 행동을 선택하여 행동합니다. 새로운 시도를 통해서 배우는 빈도는 점점 더 줄어듭니다.  즉, 사람은 나이가 들면서 기존의 경험과 질서내에 적응하고 보수적으로 생각하고 살아가게 됩니다.  ‘나이가 들면서 보수적이 되어가는 인간의 성향’에 대해서 유시민 작가의 책 [어떻게 살 것인가?]에서는 이렇게 얘기합니다. (p.229)

사람은 나이가 들수록 덜 진보적 또는 더 보수적으로 변한다.  진보적인 젊은이가 보수적인 노인이 되는 경우는 정말 흔하다.  (중략)  20대에 이미 보수정당 새누리당의 ‘대표 청년’이 된 이준석 씨나 손수조 씨의 경우 그 나이가 되면 틀림없이 지금의 이명박 대통령보다 훨씬 더 보수적인 인물이 될 것이다.  반면 보수적인 젊은이가 진보적인 노인이 되는 경우는 극히 드물다.  (중략) 개인이 그렇기 때문에 세대 전체도 고령이 되면 더 보수적으로 변화한다. 고령 유권자일수록 보수정당을 더 많이 지지하는 것은 사회정치적인 현상인 동시에 생물학적 현상이라는 이야기다.  (중략) 그냥 자연스레 그리된 것일 뿐이다.

유시민 작가는 이러한 인간의 생물학적인 특성이 ‘그저 자연스럽다’고 표현했는데, 이것이 바로 인류가 경험을 쌓아서 현명하게 살아가고 다음 세대에 물려주면서 ‘자연스럽게’ 진화해온 방법이라고 할 수 있습니다.

3. Explore or Exploit

Q-Learning의 핵심 알고리즘에는 이와 같은 학습 방법이 내재되어 있습니다.  아래 단락에서 괄호 안에 들어있는 용어는 해당 단어와 연결되는 강화학습 용어입니다. (괄호를 빼고 한 번 읽고, 괄호 안의 용어를 포함해서 한 번 더 읽으면 Q-Learning의 알고리즘에 대해서 이해할 수 있습니다.)

세상(Environment)을 살아가는 사람(Agent)은 매 순간(State)에 어떠한 결정(Decision)을 내리고 행동(Action)을 해야 합니다. 이 사람이 어렸을 때(Early stage) 하는 행동(Action)의 대부분은 경험(Experience)을 쌓기 위한 무작위(Random)에 가까운 행동(Action)입니다. 그리고 이러한 행동의 결과로서 세상(Environment)은 보상(Reward)을 해줍니다. 사람(Agent)은 이를 경험(Experience)에 저장합니다. 어린이는 살아가면서 점점 경험을 축적하고 이에 따라 무작위 행동을 하는 빈도(Exploration Rate)를 낮추어 갑니다. 무작위 행동을 하지 않을 때에는 자신의 경험에 비추어 가장 최적이라고 생각하는 행동을 선택합니다. 즉, 경험을 활용(Exploit)하여 행동을 결정합니다.  마찬가지로 이 행동에 대해서 세상(Environment)은 보상(Reward)을 주고 이 또한 경험(Experience)에 저장합니다.  나이가 점점 들면서 경험(Experience)이 충분해진 사람은 무작위한 행동을 하는 빈도(Exploration Rate)가 매우 낮고 보수적으로 행동합니다. 그리고 이를 활용해 꾸준히 더 높은 보상을 세상으로부터 획득합니다.

정리하자면 Q-Learning은 무작위 행동 빈도(Exploration Rate)을 낮추어 가면서 세상(Environment)이 주는 보상(Reward)에 대한 경험(Experience)을 쌓아 세상의 다양한 모습(State)에 대응할 수 있는 가장 올바른 행동 양식(Optimal Policy)을 찾아가는 학습 방법입니다.

Q-Learning기법이 찾고자 하는 Q-함수는 ‘세상의 다양한 모습에 대한 행동과 그 행동에 따른 보상’의 관계입니다.  Q-함수를 정확히 찾아낸다면 여러가지 세상의 모습에 대해 대응되는 최적의 행동 양식을 정립할 수 입니다.  마치 알파고가 어떤 국면에서 라도 가장 좋은 수를 찾아내는 것과 같습니다.

4. 정리

Explore(탐색을 통한 경험의 축적)와 Exploit(경험의 활용)은 최적의 행동을 학습하고 활용하기 위하여 반드시 필요한 두 가지 행동방식 입니다. 강화학습 알고리즘인 Q-Learning은 이 두 가지 행동방식을 마치 사람이 태어나서 세상을 배워 나가고 경험을 활용하는 방식으로 – 처음에는 무작위로 행동하여 경험을 쌓고 나중에는 경험을 바탕으로 지혜롭게 행동하게 함으로써 – 아름답게 조화시킵니다.

투자 수익 최대화라는 목적 하에 모든 가능성을 탐색하는 Model-Free 기법에 해당하는 강화학습의 Q-Learning 알고리즘을 금융 투자 분야에 접목하려는 시도는 너무나도 자연스럽습니다.  하지만 이에는 해결해야 할 여러가지 난제들이 포함되어 있습니다. 다음 글에서는 강화학습을 금융 분야에 적용하는 데에 있어서의 어려움과 해결책에 대해서 얘기해 보겠습니다.

Author : 심민규 (Sim, Min Kyu, Ph.D.)

콰라소프트에서 딥러닝 기술을 금융 시장에 적용하는 연구를 담당하고 있습니다.  금융 투자 부문에서 기계 학습은 투자의 투명화, 무인화, 대중화라는 큰 변화를 가져올 것입니다.  시카고 대학과 조지아 공과 대학에서 금융 공학과 확률 모형을 공부했고, 국내 자산운용사에서 계량 연구 및 펀드 운용을 담당했습니다. 한양대학교에서 겸임교수직을 맡고 있습니다.

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

Close