Machine learning, first coined by IBM researcher Arthur Samuel in his study on checkers, refers to algorithms improving a program's performance based on experience. It developed through three paradigms: neural models (evolving into deep learning), symbolic learning (using logic and graphs), and modern knowledge-based paradigms (recycling prior knowledge). Since the 1990s, practical applications have focused on solving real-world problems through statistical data analysis. Tom Mitchell defined learning as performance improvement on a specific task (T) through experience (E), measured by performance (P). The learning process involves representation, evaluation, and optimization, leading to predictions (generalization) on new data. While machine learning focuses on predictions, data mining aims at discovering patterns within data. Historically, John Snow used data analysis (clustering techniques) in 1854 to identify the Broad Street pump as the source of a cholera outbreak, an early example of epidemiology.
AlphaGo utilized reinforcement learning—learning through rewards and penalties from the environment—to defeat a human Go champion in just a year. Rooted in behavioral psychology (trial and error) and control theory (Markov Decision Processes), reinforcement learning excels in sequential decision-making and is widely used in gaming and robotics.

머신러닝이라는 용어는 IBM의 인공지능 분야 연구원이었던 아서 사무엘이 자신의 논문 Studies in Machine Learning Using the Game of Checkers」에서 처음으로 사용했다. 여기서 머신machine이라는 것은 프로그래밍 가능한 컴퓨터를 말한다.
머신러닝은 3가지 접근법으로 연구가 진행돼 왔다. 첫 번째가 신경 모형 패러다임 이다. 신경 모형은 퍼셉트론에서 출발해서 지금은 딥러닝으로 이어지고 있다. 두 번째는 심볼 개념의 학습 패러다임이다. 이 패러다임은 숫자나 통계이론 대신 논 리학이나 그래프 구조를 사용하는 것으로 1970년대 중반부터 1980년대 후반까지 인공지능의 핵심적인 접근법이었다. 세 번째는 현대지식의 집약적 패러다임이다. 1970년대 중반부터 시작된 이 패러다임은 백지상태에서 학습을 시작하는 신경 모형을 지양하고 이미 학습된 지식은 재활용해야 한다는 이론이 대두되면서 시작 됐다.
1990년대에 들어서면서 컴퓨터의 학습 방법론에 중점을 뒀던 기존의 접근법보다 는 실생활에서 필요한 문제를 해결할 수 있는 실용적인 머신러닝 연구가 주류를 이뤘다. 90년대의 머신러닝 패러다임은 컴퓨터를 이용한 통계학에 가까웠다. 통계 학 관점에서 데이터를 분석하는 데이터 마이닝과 이론적으로 많은 부분을 공유했 으며, 급격히 발전된 고성능 컴퓨터의 보급과 인터넷의 확산으로 인한 디지털 데 이터의 손쉬운 확보도 이러한 움직임에 많은 영향을 끼쳤다.
머신러닝 정의
카네기멜론 대학교의 톰 미첼Tom Mitchell 교수는 자신의 저서 『머신러닝 Machine Learn- ing」에서 러닝, 즉 학습의 정의를 다음과 같이 내렸다.
"만약 컴퓨터 프로그램이 특정한 태스크 T를 수행할 때 성능 P만큼 개선되는 경험 E를 보이면 그 컴퓨터 프로그램은 태스크 T와 성능 P에 대해 경험 E를 학습했다라고 할 수 있다". 예를 들어, 컴퓨터에 필기체를 인식하는 학습을 시킨다고 했을 때
태스크 : 필기체를 인식하고 분류하는 것
성능 P : 필기체를 정확히 구분한 확률
학습 경험 E : 필기체와 정확한 글자를 표시한 데이터세트
컴퓨터가 새롭게 입력된 필기체를 분류할 때(T), 미리 만들어진 데이터세트로 학습한 경험을 통해(E) 정의된 확률 수준으로 필기체를 인식하면(P) 컴퓨터는 학습 을 했다라고 말할 수 있다.
한편, 실무적인 관점에서 러닝, 즉 학습의 정의는 다음과 같이 설명할 수 있다.
학습Learning = 표현representation + 평가evaluation + 최적화optimization
여기서 표현은 어떤 태스크를 수행하는 에이전트가 입력값을 처리해 어떻게 결과 값을 만들지를 결정하는 방법을 말한다. 예를 들면, 필기체 아라비아 숫자입력값가 실제로 어떤 숫자실제값를 의미하는지를 예측하는결과값 논리 모형을 말한다. 다음 장 에서 설명할 서포트 벡터 머신이나 의사결정 트리 또는 k-mean 모델 등이 표현을 위한 방법들이다. 평가는 에이전트가 얼마만큼 태스크를 잘 수행했는지 판정하는 방법을 말한다. 예를 들면, 최소제곱법과 같이 동일한 기준으로 정량화된 결과값 과 실제값의 차이를 제곱해서 모두 더한 값을 가지고 태스크의 수행 정도를 판단 하는 방법이다. 최적화는 평가에서 설정한 기준을 최적으로 만족하는 조건을 찾는 것이다. 만약 최소제곱법과 같은 기준으로 평가한다면 경사감소법 등과 같은 방법 으로 최적 조건을 찾는다. 최적화 과정이 끝나면 학습 모델에 사용된 가중치가 결 정된다. 이를 두고 학습이 완료됐다고 한다. 참고로 여러 가지 방법에 의해 학습이 완료된 후, 새로운 데이터에 대한 예측을 하는 것을 일반화generalization라고 한다.
머신러닝은 종종 데이터 마이닝과 혼용되기도 하는데, 그 이유는 아마도 머신러닝 에서 사용하는 분류나 군집 같은 방법을 데이터 마이닝에서도 똑같이 사용하기 때 문일 것이다. 즉, 분류나 예측, 군집과 같은 기술, 모델, 알고리즘을 이용해 문제를 해결하는 것을 컴퓨터과학 관점에서는 머신러닝이라고 하고, 통계학 관점에서는 데이터 마이닝이라고 한다. 이러한 현상이 발생한 계기는 1990년대에 들어서면서 실용적인 머신러닝 연구를 위해 통계학에서 다루고 있는 사례들을 컴퓨터 과학자 들이 컴퓨터를 이용해 좀 더 효율적인 해결 방안을 찾아내는 과정에서 비롯됐다고 할 수 있다.
머신러닝과 데이터 마이닝의 차이점을 굳이 설명하자면 데이터 마이닝은 가지고 있는 데이터에서 현상 및 특성을 발견하는 것이 목적인 반면, 머신러닝은 기존 데 이터를 통해 학습을 시킨 후 새로운 데이터에 대한 예측값을 알아내는 데 목적이 있다라고 할 수 있다.
콜레라를 멈추게 한 160년 전의 머신러닝
19세기 중엽 영국 런던 및 뉴캐슬 지역에서는 극심한 콜레라로 약 만여 명이 목숨 을 잃었다. 당시 산업혁명의 여파가 영국 전역으로 확산되면서 농촌지역에서 도심 지로 엄청난 인구가 유입됐다. 공업화가 급속히 진행되면서 공장에 필요한 대규모의 노동력이 필요했던 것이다. 그러나 도시의 상하수도 및 위생 시설은 그러한 급격한 인구 팽창을 감당하기엔 턱없이 부족했다. 이러한 환경에서 주민들은 콜레라가 어떤 질병이며, 어떻게 발 병되고 전염되는지도 모른 채 3~4년 주기로 발생하는 대규모 역병에 많은 피해를 입어야 했다. 당시 런던 주민들의 배설물과 하수는 위생처리되지 않은 채 고스란히 템스 강으로 흘려보내졌고, 런던의 상수도 시설은 주변의 얕은 우물에 고여있는 물을 아무런 정화과정 없이 그대로 모아서 런던 시민에 공급하는 매우 열악한 시스템이었다. 1853년 런던에 다시 콜레라 역병이 크게 돌았다. 특히 런던 서쪽에 위치한 소호 Soho지역에는 런던의 환경위생 시설이 미치지 못한 곳이었는데, 이곳에서의 콜레 라 피해는 당시의 다른 지역보다 더욱 심했다. 가장 상황이 나빴을 때는 2주 동안 550명이 죽어 나가기도 했다. 그럼에도 런던 당국은 뚜렷한 해결 방안을 찾지 못 하고 상황을 지켜볼 수밖에 없었다. 런던 시내가 콜레라의 피해로 극심한 열병을 앓고 있을 때, 영국의 외과 의사인 존 스노John Snow 박사는 런던 인근에서 가장 사망자가 많이 발생한 소호 지역에 거주 하고 있었다. 그는 당시 많은 사람들이 믿고 있었던 '콜레라는 공기를 통해 전염된 다'는 사실에 의구심이 있었다. 1854년 8월 결국 그는 직접 콜레라 원인을 밝혀내 리라 결심한다.
그의 연구는 직접 소호 지역을 돌면서 눈으로 확인하고 주민들과의 인터뷰를 통 해 정보를 수집하는 것으로 시작됐다. 스노 박사가 기록한 것은 날짜별 발병자 수, 날짜별 사망자 수, 사망자 발생 장소, 지하수용 펌프의 위치 등이었다. 그림 3.2는 1854년 당시 스노 박사가 역학 조사를 실시하던 소호 지역의 지도다. 스노 박사는 직접 수집한 데이터를 기반으로 표 3.1과 같은 결과를 도출했다. 그는 콜레라의 전염은 오염된 공기가 아닌 물이라고 결론 내리고 특히 브로드 스 트리트에 있는 펌프 A에 문제가 있음을 주목했다. 1854년 9월 그는 런던 시의회 에 당장 펌프 A의 사용을 금지할 것을 요청한다. 시의회는 그의 요청을 받아들여 펌프 A의 사용을 금지했고 이후 콜레라는 더 이상 확산되지 않았다.
존 스노 박사는 당시 종이와 펜을 가지고 다니면서 '현황을 기록하는 것으로 사람 의 생명을 무자비하게 앗아갔던 콜레라 전파를 막았다. 스노의 작업은 최초의 역 학 조사였던 것이다. 역학은 질병의 분포와 확산 경로, 질병의 인자를 알아내는 것 으로 현대 의학에서 매우 중요한 역할을 하는 학문이다. 콜레라 지도를 토대로 스노 박사가 작성한 표 3.1은 머신러닝 기법 중에서 군집에 해당한다. 이처럼 통계적 방식의 머신러닝은 기록된 데이터를 합산하고 평균을 내 고 공통점과 차이점을 찾는 것으로 시작됐다.
알파고의 학습 모델: 강화학습
얼마전에 막을 내린 '컴퓨터와 인간의 세기의 대결'에서 인공지능이 우리 사회에 남긴 충격은 지금도 여진으로 남아있다. 구글 딥마인드가 개발한 알파고는 바둑 을 배운 지 1년만에 30년 이상 바둑 수련을 해온 인간 세계 챔피언을 물리쳤다. 바 둑은 인간이 컴퓨터를 상대로 우위를 점할 수 있다고 믿었던 마지막 게임이었기에 그 충격은 더욱 컸다. 도대체 알파고는 어떤 알고리즘을 사용했길래 바둑을 배운 지 1년만에 세계 정상에 설 수 있었을까? 알파고의 두뇌에 프로그래밍된 학습 모델은 머신러닝의 학습 모델 중 하나인 강화 학습이다. 머신러닝의 분류 기준으로 볼 때 강화학습은 경우에 따라 지도학습 중 하나로 분류하기도 하고, 또는 독립적으로 세 번째 머신러닝 모델로 분류하기도 한다. 강화학습을 지도학습으로 분류하는 이유는 에이전트가 취한 모든 행동에 대 해환경으로부터 보상과 벌칙을 지도받아 학습하기 때문이다. 그러나 강화학습은 다른 전형적인 지도학습처럼 사전에 사람으로부터 가이드를 받고 학습하지 않을 뿐더러 사람이 아닌 환경으로부터 보상과 벌칙을 피드백받기 때문에 세 번째 머신 러닝으로 분류하는 것이 일반적이다.
강화학습을 발전시킨 학문 분야는 여러 가지가 있는데, 그중에서 특히 행동심리 학과 제어 이론control theory이 가장 큰 영향을 끼쳤다. 행동심리학에서 말하는 '시 행착오', 즉 사람과 동물이 학습하는 원리를 머신러닝에 적용한 경우다. 에이전 트는 모든 행동에 대한 보상과 벌칙을 기억해서 최선의 결정을 내리도록 학습 한다. 강화학습에 중요한 영향을 준 또 하나의 연구 분야는 최적 제어optimal control다. 최 적 제어는 1950년대 말에 등장한 이론으로 동적시스템dynamic system의 효율성을 최 적화하는 조작장치 설계를 위해 시작됐다. 동적시스템 최적화 문제는 시간의 흐 름에 따라 각 과정별 최적의 의사결정을 하는 것인데 미국의 수학자인 리처드 벨 만Richard Bellman은 불연속적인 시간 문제에 대해 마코프 디시즌 프로세스MDP: Markov Decision Process 모델을 도입해 이 문제를 해결했다. 강화학습은 이처럼 사건이 전개 되면서 받는 피드백을 통해 학습하기 때문에 순차적 사건sequential event에 대한 의사 결정을 내릴 때 주로 사용된다. 시행착오를 기반으로 학습하는 과정이 사람의 학습 방식과 매우 닮아 인공지능을 가장 잘 대표하는 모델이라고 주장하는 사람도 있다. 강화학습 모델은 게임이나 로보틱스에 가장 효과적으로 활용되고 있다.
책 제목 : 알고리즘으로 배우는 인공지능, 머신러닝, 딥러닝 입문
지은이 : 김의중