본문 바로가기

[내가 읽은 책]인공지능, 머신러닝, 딥러닝 입문_70

Data Preprocessing :

Data must be converted into vectors or matrices for computers to process like humans. Vectors simplify mathematical modeling by quantifying features of the data.

 

Learning and Decision Rules:

Learning involves creating decision rules from input data to handle new tasks. Training datasets are used to establish these rules and apply them to new tasks.

 

머신러닝에 필요한 사전학습

머신러닝은 이진수로 표현된 디지털 데이터를 빠르게 계산하도록 설계된 컴퓨터 에게 사람처럼 보고, 듣고, 이해하고, 예측하도록 학습시키는 것이 목표다. 컴퓨터가 보고 듣기 위해서는 먼저 사람이 인지하는 데이터를 컴퓨터도 인지할 수 있도록 데이터의 사전 처리가 필요하다. 예를 들면, 텍스트로 입력된 테이블, 자연 어로 구성된 문장, 음성 신호, 디지털 이미지 및 동영상 등의 입력 데이터는 계산 가능한 정량적인 단위로 변환하고 다시 벡터나 행렬 형태로 저장한다. 입력 데이터를 벡터 형태로 표현하는 이유는 입력 데이터가 "개의 특성으로 정량 화됐다면 "차원 벡터 공간에 표현할 수 있어 데이터를 직관적으로 이해하고 수학적인 분류 모델을 만들기 쉽기 때문이다. 만약 개의 변수가 있는 문제를 풀기 위해서는 2개의 관계식이 필요한데, 이때 개의 관계식을 묶어주는 데 mxm 행렬이 이용된다. 행렬은 2차원 배열 형태로 된 데이터 표현 방식인데, 만약 이 2차원 배열의 각 요 소에 입력된 값들이 어떤 물리적 속성을 가지고 있는 경우에는 텐서tensor라고도 한 다. 예를 들면, 행렬 A가 방향에 수직인 평면에 방향의 벡터 성분을 가지는 요소 인 A로 구성돼 있다면 A를 텐서라고 한다. 이렇게 입력된 데이터를 가지고 컴퓨터는 학습하게 된다. 학습한다는 말은 간단히 말해 어떤 판단 규칙을 만든다는 얘기다. 특정 데이터를 가지고 학습해서 어떤 판 단을 할 수 있는 규칙이 생기면 새롭게 입력되는 데이터에 대해 이 규칙에 따라 일 처리태스크: task를 수행할 수 있게 된다. 예를 들면, 어떤 사진 안에 고양이가 있는지 확인하는 태스크가 있다고 하면 컴퓨터는 여러 장의 고양이 사진과 다른 동물 사 진을 가지고 구별하는 판단 규칙을 만든다. 이때 미리 사용된 여러 장의 동물 사진 들이 학습 데이터세트다. 고양이와 다른 동물의 특성, 즉 귀의 크기나 털의 색깔, 꼬리의 길이 등을 정량화한 후 두 그룹을 분리하는 규칙, 즉 판별식을 만든다. 판 별식을 만드는 과정이 바로 컴퓨터가 학습하는 머신러닝이다. 각 학습 방법은 다양한 태스크에 따라 알맞은 방법이 있으며, 많은 논문들은 여러가지 사례에 따라 어떤 학습 방법이 좋은지 밝히는 연구 결과를 내놓고 있다.

 

통계와 확률

 

상관분석과 회귀분석

상관분석은 독립변수와 종속변수 간의 관계의 강도, 즉 얼마만큼 밀접하게 관련돼 있는지를 분석하는 것이다. 이때 상관분석에서는 변수들 간에 상관성 유무만 확인 할 뿐, 서로 인과관계는 분석하지 않는다. 상관분석의 핵심은 상관계수를 구하는 것이다. 상관계수는 영국의 생물학자이자 통계학자인 프랜시스 골턴Francis Galton이 정의하고 영국의 통계학자인 칼 피어슨Karl Pearson이 이론적으로 정립한 것이다. 이 계수는 독립변수와 종속변수의 관계 정도를 -1 1 사이로 정량화한 것으로 독 립변수와 종속변수가 함께 변하는 정도를 독립변수와 종속변수가 따로 변하는 정 도로 나눈 값이다. , 얼마만큼 선형적 상관성을 가지고 있는지를 표현한다. ‘상관 계수 = 0이면 독립변수와 종속변수 사이에 아무런 관계가 없다'라고 말할 수 있 다. 상관계수가 -1 또는 1에 가깝다면 상관관계가 매우 강하다고 말하며, 추가적 인 회귀분석을 통해 새로운 입력값에 대한 예측값을 알아낼 수 있다. 회귀분석은 관측된 사건들을 정량화해서 여러 독립변수와 종속변수의 관계를 함수 식으로 설명하는 방법이다. 여기서 독립변수와 종속변수를 잠깐 언급하고 넘어 가는 것이 좋을 듯하다. 종속변수는 사실 우리가 알고 싶어하는 결과값이라고 설명할 수 있는데, 기댓값 또는 예상값이라고도 한다. 독립변수는 이러한 결괏값에 영향을 주는 입력값이다. 예를 들면, 어떤 고등학교 음악 동아리에 있는 학생들의 키와 몸무게의 상관관계 를 기반으로 어떤 학생의 키를 가지고 그 학생의 몸무게를 예측하고자 한다면 키 는 독립변수이고 몸무게는 종속변수다. 관심도에 따라 몸무게를 독립변수로 키를 종속변수로 바꿀 수도 있다. 이때 그 상관 관계를 함수식으로 규명하는 것이 회귀 분석이다.

 

선형 회귀

선형이라는 것은 독립변수가 1차항으로 돼 있다는 의미로, 기하학 관점에서 설명 하면 입력값독립변수과 예상값종속변수의 관계가 2차원에서는 직선 형태로, 3차원 공간 에서는 평면으로 나타난다. 임의의 변수 x, y 그리고 상수에 대해 표현된 함수에 서 다음을 만족하면 선형이 된다.

f(x+y) = f(x)+f(y)

f(ax) = af(x)

예를 들어, 독립변수에 "과 같은 지수항이 있으면 (x+y)"≠x" + "이므로 비선형이 된다.

 

로지스틱 회귀

선형회귀의 종속변수는 일반적으로 연속적인 정규분포를 가진다. 만약 종속변수 가 예/아니오, 1/0, 합격/불합격, 구매/비구매 같은 범주형 categorical으로 표현될 때 는 선형회귀분석 대신 로지스틱 회귀logistic regression 분석 방법을 사용한다. 특히 예/ 아니오와 같이 종속변수가 2가지 범주에 속할 때는 이진형 로지스틱 회귀 모델이 라고 한다. 로지스틱 회귀 분석라고 부르는 이유는 출력값이 [01]을 경계로 결정되는 로지스 틱시그모이드 함수를 회귀식으로 사용하기 때문이다. , 로지스틱 함수를 사용하게 되면 종속변수를 0 1의 범주형으로 표현할 수 있게 된다. 이러한 이유로 로지스 틱 회귀는 그 명칭에 '회귀'라는 용어가 사용되고 있지만 실제로는 예측을 의미하 는 회귀분석보다는 분류 모델에 가깝다.

 

빈도론 vs. 베이지안

확률은 어떤 사건이 일어날 수 있는 경우를 신뢰할 수 있는 정도를 규정하는 방법 이다. 이 방법에는 두 가지의 큰 축이 있는데, 하나가 빈도론Frequentism이고 다른 하 나가 베이지안Bayesianism이다. 어떤 방법이 옳은 방법이라고 말할 수는 없고, 적용 분야에 따라 타당한 방법이 존 재할 수 있다. 두 가지 방법 모두 장단점이 있기 때문에 최근까지도 좀 더 타당한 방법을 가리기 위해 확률 및 통계 분야의 컨퍼런스에서는 빈도론과 베이지안 추종 자사이에서 열띤 토론이 벌어지기도 한다.

 

빈도

빈도론 또는 빈도론적 확률론은 1872년 영국의 철학자 존 벤John Venn의 정의로부터 출발한다. 벤은 대수의 법칙을 사용해 다음과 같이 확률을 정의했다. "확률은 그 사건이 일어난 횟수의 장기적인 비율이다".

 

이러한 확률이론을 바탕으로 하는 빈도론은 얼만큼 빈번하게 특정한 사건이 반복 되어 발생하는가를 관찰하고 이를 기반으로 가설을 검증하기 때문에 경험적 사실 만을 가지고 판단한다. 그림 4.6은 빈도론 관점에서 추론inference 과정을 개념적으로 보여준다.

데이터 → 확률 모델 → 가설 검증 (빈도론 접근 방법에 의한 추론 모델링 개념)

빈도론의 대표적인 통계학자인 영국의 로날드 에일머 피셔 Ronald Aylmer Fisher 1935 년 『실험설계법이라는 책을 출판하면서 확률적 기법을 이용한 좋은 실험설계방법 의 예를 제시했다.

그는 이 책에서밀크티의 맛을 알아맞히는 여인"이라는 예를 들면서 실험을 통한 빈도론 기반의 가설검증의 방법을 설명한다. 피셔는 1920년 여름 케임브리지 대 학교수들과 여러 다른 부인들과의 사교 모임에서 '밀크가 있는 잔에 홍차를 따르는 것과 홍차를 먼저 따른 후 밀크를 넣는 것의 맛의 차이를 가릴 수 있다'라고 주장하 는 여인의 말을 우연히 듣는다. 피셔는 여인의 주장이 정말 맞는지 여부를 실험을 통해 가려보고 싶다고 얘기한다. 여인이 50 50의 확률로 우연히 맞추는 것인지 아니면 정말 맛의 차이를 느낄 수 있는 것인지를 빈도론적 관점에서 확인해 보고자 했던 것이다.

「실험설계법」에는 밀크티 실험 결과에 대한 구체적인 언급은 없었는데, 이후 전해 지는 말에 의하면 몇 번을 테스트했는지는 구체적인 설명이 돼 있지 않지만 그 부 인은 모두 정확히 맞혔다고 한다. 만약 그녀가 다섯 번의 테스트를 했고 우연히 모두 맞혔다면 그 확률은 (0.5)' =0.031이다. 여기서 3.1%는 바로 유의 확률(pvalue)이다. 그러므로 우리는 '5% 유의수준으로 그녀는 밀크티의 맛을 가려낼 수 있다'라고 말할 수 있다.

위에서 설명한 것처럼 빈도론 확률에서는 유의수준이라는 것과 유의확률 또는 p값 을 사용해 가설을 검증한다. 유의수준이라는 것은 최초가설(H,, 귀무가설)'이 틀릴 가능성의 범위를 말하는데 보통 1%, 5%, 10%의 값을 사용한다. 예를 들면, 5% 유 의수준이라는 말은 귀무가설이 95%(100%-5%) 범위의 신뢰도로 검증하겠다라 는 말이다. 유의 확률, p값은 귀무가설이 틀렸다는 것을 보이기 위해 귀무가설 이 옳다는 가정하에 계산한 확률이다. , p값은 참일 것 같지 않은 조건에서 계산 한 확률이다. 만약 p값이 유의수준보다 작으면 귀무가설은 기각된다. 유의수준과 유의확률 기반의 가설검증 이론은 폴란드 수학자인 예르지 네이맨erzy Neyman 이정 립했다.

베이지안론

베이지안론은 베이즈 룰Bayes' Rule 또는 베이즈 정리Bayes' Theorem를 기반으로 확률을 해석해서 추론하는 이론이다. 베이지안론의 핵심인 베이즈 룰 또는 베이즈 정리는 영국의 목사이자 아마추어 수학자인 토마스 베이즈Thomas Bayes에 의해 제안됐고 이후 프랑스 과학자 피에르 사이먼 라플라스Pierre Simon Laplace에 의해 정립된 확률 이론이다.

인공지능의 아버지라 일컫는 영국의 수학자 앨런 튜링은 제2차 세계 대전 당시 독 일군의 잠수함 암호를 해독할 때 베이지안 이론을 사용했고, 이 밖에 의학, 경제 학, 심리학 등 다양한 분야에서 이 이론이 사용되고 있다." 특히 대부분의 현대적 인공지능 개념은 베이지안 이론에 따라 만들어졌다.

 

책 제목 : 알고리즘으로 배우는 인공지능, 머신러닝, 딥러닝 입문

지은이 : 김의중