본문 바로가기

[내가 읽은 책]인공지능, 머신러닝, 딥러닝 입문_73

 

Reinforcement learning operates based on the Markov Decision Process (MDP) framework, which consists of states (S), actions (A), state transition probabilities (P), rewards (R), and a discount factor (γ). Adding actions to the Markov Reward Process (MRP) forms the MDP. Key algorithms for reinforcement learning include dynamic programming, Monte Carlo methods, and temporal difference methods (Q-Learning/SARSA), often solving Bellman equations to find optimal policies.

 

This technology is widely used in process control, network management, autonomous vehicles, drones, and robotics. Particularly in robotics, early adoption is crucial for competitiveness. Google's DeepMind showcased the potential of reinforcement learning with AlphaGo and Deep Q-Network (DQN). The future of the automotive industry centers on IT technologies, such as AI-powered self-driving systems, which are expected to significantly transform industries and everyday life.

 

마코프 프로세스

지금까지 강화학습의 전반적인 내용에 대해 알아봤다. 그러면 강화학습이 어떤 원 리로 동작하는지 알아보기 위해 한발짝 안으로 들어가보자. 강화학습의 구현 방법 을 알기 위해서는 우선 강화학습의 프레임워크인 MDP의 개념을 이해할 필요가 있다. MDP는 마코프 특성Markov Property을 기반으로 하는 의사결정 프로세스다.

 

마코프 보상 프로세스

현재 상태의 가치는 현재 상태의 보상과 다음 단계 상태의 확률적 평균 가치의 합으로 계산된다. 따라서 각 상태의 가치를 정량화하기 위해서는 마코프 프로세스에 추가적으로 보상reward의 개념이 필요하다. 보상이란 어떤 상태에서 다음 단계의 상 태로 이동하는 행동을 취할 때 환경으로부터 피드백받는 스칼라 실수값으로 다음 과 같이 표현할 수 있다.

R = E {T +118 = S}

마코프 프로세스에 보상을 고려한 것이 마코프 보상 프로세스MRP: Markov Reward Process.

 

마코프 디시즌 프로세스

마코프 보상 프로세스MRP에 행동이라는 의사결정 항을 추가한 것이 바로 마코프 디시즌 프로세스MDP: Markov Decision Process. , MRP에서는 상태(S), 상태변이확률 (P) 보상(R), 감쇄계수(x)를 다뤘다면 MDP에서는 여기에 행동(A)이 추가된다. Yeward 예를 들면, 그림 7.4와 같이 상태변이확률, 상태, 보상으로 이뤄진 MRP는 그림 7.5와 같이 행동이 추가된 MDP로 표현된다. MRP에서는 환경 관점에서 상태가치 를 평가했다면 보상이 추가된 MDP에서는 행동 중심으로 가치 평가가 이뤄진다. , 에이전트 중심의 의사결정 프로세스가 되는 것이다.

이런 의미로 그림 7.4에서와 같이 휴강으로 표현된 상태는 에이전트가 공부를 하 러 갔지만 에이전트의 의사와 관계없이 휴강된 것이어서 '공부'라는 행동을 '취침' 상태로 바로 연계했다. 물론 이것은 MDP의 개념을 설명하기 위해 설정한 상황이 다. 또한 각 상태는 여러 가지 행동을 포함할 수 있고 여러 가지 행동은 다시 다음 단계 상태로 이동하면서 환경으로부터 보상을 얻는다. 하루 일과 MDP 예제에서 는 카페로 가는 행동은 다시 상태변이확률(0.2, 0.4, 0.4)을 가지는 3가지 행동으 로 분기된다고 설정했다.

 

벨만의 최적 방정식으로 비선형이다. 따라서 반복적인 방법으로 해를 찾아야 한다. 벨만의 최적 방정식의 해를 구하기 위해서 다음과 같은 알고리즘이 일반적으로 사용되고 있다.

.동적 프로그래밍 : 가치 반복법Vl: Value Iteration/ 정책 반복법Pl; Policy Iteration

.몬테카를로 방법

.시간차 방법 : Q-Learning/ SARSA State Action Reward State Action

 

강화학습의 적용 사례

지금까지 강화학습의 동작 메커니즘을 이해하기 위해 강화학습의 프레임워크인 •MDP를 가지고 간략히 살펴봤다. 이러한 강화학습 기술은 그림 7.7과 같이 여러 산업에서 활용되고 있다. 그림 7.7에서 보여주는 것처럼 강화학습의 모태인 프로세스 제어 분야는 여전히 가장 많은 부분을 차지하고 있다. 프로세스 제어는 주로 생화학공정 자동제어 분야에서 이용되고 있고 특히 비행기 제어 분야에서 많이 활용되고 있다. 네트워크 관리에서는 최근 인터넷의 확산으로 라우팅 최적화에 적용 되고 있고 유무선 통신에서는 통화 수신 여부 처리 등에 사용된다. 최근에는 자율 주행자동차와 무인비행기인 드론, 그리고 사람처럼 두발로 걷는 휴머노이드 로보틱스 분야에서 많은 활용 사례들이 나오고 있다.

Q-learning 이론을 알파고를 개발한 구글의 딥마인드는 강화학습 방법 중에서 큐러닝어 딥러닝의 핵심 이론 중의 하나인 컨볼루션 신경망convolution neural network에 접목한 딥 큐네트워크DON: Deep Q-Network를 최초로 개발했다. 딥마인드는 이 DQN 기술을 적 용해 흔히 '전자오락'이라고 불렸던 아타리 아케이드Atari Arcade 게임들을 스스로 배 우게 했는데, 몇 개의 게임에서는 DQN으로 학습된 컴퓨터가 게임 전문가인 사람 보다 훨씬 좋은 점수를 냈다. 얼마전에 끝난 세기의 대결에서 인간을 물리친 알파 고도 바로 강화학습 알고리즘을 사용하고 있다. 알파고는 바둑의 기본 룰과 공개 된 수많은 기보를 익힌 후, 사람의 관여가 거의 배제된 상태에서 스스로 학습해서 지금은 적수가 없는 세계 최고의 프로기사가 됐다.

이처럼 시행착오를 통해 학습을 해나가는 강화학습은 사람의 지식 습득 방식과 매우 유사하다. 강화학습은 처음부터 사람의 행동 심리학을 기반으로 시작했기 때문 에 당연한 얘기인지도 모른다. 이러한 이유로 강화학습이 최근 가장 활발하게 적용되는 분야가 로보틱스 분야다.

시장조사기관에 의하면 글로벌 로보틱스 산업은 2020년까지 약 1,500억 달러 규 모로 성장할 것으로 예상하고 있다. 재미있는 것은 이미 공장 제조라인에 도입되어 그 효용성을 검증 받은 공장 자동화 로봇보다 가정용, 사무용, 군사용, 무인자 동차 등의 로봇이 전체 85% 이상을 차지할 것이라는 것이다. 센서기술, 컴퓨터 비 전, 음성인식, 동작인식, IoT 등 다양한 분야의 기술들이 전방위적으로 융·복합 되는 로보틱스 산업은 우리 생활에 커다란 지각 변동을 가져올 것임에 틀림없다.

특히 로보틱스 분야의 핵심기술인 강화학습은 수많은 경우의 수를 경험하는 장시 간의 학습기간이 필요하기 때문에 사업 경쟁력을 갖추기 위해서는 경쟁사보다 먼 저 시작하는 것이 절실하다. 우리나라가 아직까지 이 부분에 취약한 상황임을 비 춰보면 강인공지능이 인류를 위협하기 전에 국내 경제가 선진국에 지배를 당하는 것이 더욱 우려된다..

예를 들면, 자동차 산업의 핵심 경쟁력은 이젠 엔진이 아니라 IT 기술이 됐다. 미 국 전기자동차 회사인 테슬라의 CEO 일론 머스크는 향후 자동차 운전은 불법인 시대가 올 것이라 말한다. 불법까지는 아니더라도 '사람이 운전할 수 있는 경우는 다음과 같음' 또는 '사람의 운전은 권고사항이 아님' 등과 같은 상황은 예측해 볼 수 도 있겠다. 이러한 말이 나온 배경은 인공지능 기술을 포함한 다양한 분야의 IT 기 술에 대한 자신감이다. IT기술을 선도하는 기업들은 이미 인공지능 기술을 비롯 한 여러 IT 기술을 자동차에 적용했고 이젠 알고리즘으로 운행되는 자동차가 사람 보다 교통법규를 더 잘 준수하며 안전운행을 하는 것을 확인했다.

2009년부터 시작한 구글의 인공지능 무인 자동차는 현재 지구를 37바퀴 돈 것 만 큼의 주행거리를 기록했다. 그동안 12번의 경미한 사고도 있었지만 상대 운전자의 실수로 일어난 사고였다. 알파고를 통해 이미 그 가능성을 확인한 것처럼 포뮬라 F1 드라이버 수준의 자동주행 알고리즘이 탑재된 자동차가 시장에 나왔을 때 과연 우리는 경쟁할 준비가 돼 있는지 다시 한번 생각해봐야 할 시점이다.

 

책 제목 : 알고리즘으로 배우는 인공지능, 머신러닝, 딥러닝 입문

지은이 : 김의중