본문 바로가기
야미스터디/Backend

[머신러닝] 머신러닝 쉽게 이해하기 - 2장

by 의정부핵꿀밤 2021. 1. 3.
728x90

12/21 백현 컴백 놀이공원💖

이쒸 내일 백현이 컴백한다 미쳤따 미쳤따 백현이 컴백하는 날은 신성하니까 밤낮 제대로 바꿔야지

그래도 오늘 10시반에 일어났당(사실 12시까지 다시 잠ㅋ)

뭐 암튼 열심히 공부해야지!!!! 저 그림 내가 그린거야 내가!!!!!! 꺄아아ㅏㅏ

 

+) K-캐롤 선두자 백현인거임~ 첫소절부터 고막 녹아서 냉동실에서 고막얼리고 듣는중 사랑해

    난 늘 너에게 진심이야 백현,,,,💘💘

youtu.be/ufX7VluncTY

-----------------------------------------------------------------------------------------------------------------------------------

 

<중고차 가격 예측 방법 학습>

우리는 관찰대상 사이에 어떤 관계가 있는 것 같지만 정확히 그 관계가 어떤 관계인지 모를 때 머신러닝을 사용한다. 그러므로 여기에서의 접근법은 예시 관측과 관련된 데이터를 수집하고 이를 분석하여 관계를 분석하는 것이다. 

중고차 가격 예측을 예시로 들어보자. 이는 정확한 공식을 알 수 없지만 중고차의 가격을 결정하는 규칙이 있을거라고 추측된다. 중고차의 가격은 차량의 속성, 주행거리나 현 경제 상태와 관련이 있을 수도 있다. 이들이 혼합되어 가격을 결정하기 때문에 차량의 속성과 가격 사이의 관계를 알아내고자 한다.

이 과정에서 첫 질문은 인풋 표현으로서 무엇을 사용할지다. 중고차의 가격에 영향을 미치는 속성은 차량의 브랜드, 모델, 연식, 주행거리가 대표적이다. 여기서 중요한 것은 이러한 속성의 값이 같아도 가격이 다른 차량이 있을 수 있다는 것이다. 이를 통해 우리가 얼마나 많은 속성을 넣든 아웃풋에 영향을 미치는 다른 요인들이 항상 있다는 것을 알 수 있다. 이들은 모두 인풋으로 고려할 수 없으며 고려하지 않은 요인들은 불확실성을 낳는다. 이 불확실성의 효과는 더이상 정확한 가격을 예측할수 없게하지만, 우리는 이 오차 구간을 예측할 수 있을 것이며 이 구간의 길이는 불확실성의 정도에 달려있다.

 

<임의성과 확률>

수학과 공학에서는 확률 이론을 이용해 불확실성을 모델링한다. 결정론적 시스템에서 인풋이 주어진다는 전제 하에서는 아웃풋이 항상 같다. 하지만 임의적인 과정에서 아웃풋 역시 임의성을 도입하는 통제할 수 없는 요인들에 따라 달라진다. 만약 모든 조건을 다 안다면 결과를 정확하게 예측할 수 있을 것이다. 하지만 이를 모르면서 예측을 하고 싶다면, 이를 다루는 것은 통계학이다. 우리는 데이터 인스턴스를 예시라고 부르고 예시들의 집합을 표본이라고 부른다. 우리의 목표는 모델을 구축한 뒤 표본을 사용해 우리가 측정하고 싶은 가치를 계산하는 것이다. 

중고차도 마찬가지로 처음에 자동차가 출시될 땐 같은 가격, 같은 조건이지만 다른 사용자에게 감으로써 조건과 상황이 모두 달라지게 된다. 이러한 요인들은 가격의 변동을 일으키게 되고 이는 임의성의 결과로 볼 수 있다. 따라서 어떤 항목을 다음에 구매할지 예측할 수는 없지만 특정 제품을 구매할 확률은 계산할 수 있ㄷ. 따라서 예측을 한다면 확률이 가장 높은 제품을 선택하게 되는 것이다. 

 

<일반모델 학습하기>

데이터를 수집할 때는 언제든지 일반적인 경향을 학습할 수 있는 방식으로 진행해야 한다. 차량의 경우 브랜드를 인풋 속성으로 사용하면 아주 구체적인 차량을 정의할 수 있겠지만, 좌석 수, 엔진 파워, 트렁크 부피등과 같은 일반적인 속성을 사용하면 일반적인 추정 법칙을 학습할 수 있을 것이다. 이는 데이터의 크기를 효과적으로 증가시키낟. 아웃풋에서도 마찬가지로 가격을 예측하는 것보단 원 가격의 비율을 예측하는 것이 더 타당하며 일반적인 모델을 학습할 수 있을 것이다. 그치만 너무 일반적인 모델만 학습하는 것도 좋지않다. 예를 들면 차량과 트럭은 매우 다른 특성이므로 이들은 다른 데이터를 별도로 수집하여 학습시키는 것이 좋다. 또한 기저 작업은 시간에 따라 바뀔 수 있다. 그러면 새로운 데이터를 수집해 다시 학습하거나 모델을 계속 조정해야한다.

 

<모델 선택>

학습에서 가장 중요한 점 중 하나는 인풋과 아웃풋 사이의 관계 템플릿을 정의하는 모델이다. 만약 아웃풋을 속성의 가중치 합계로 작성한다면, 그 속성에 추가적인 효과가 있는 선형 모델을 사용할 수 있다. 

(ex. 좌석이 추가되면 차량의 가치가 X달러 증가, 주행거리가 늘어나면 차량의 가치는 Y달러 감소)

각 속성의 가중치(X, Y)는 표본에서 계산이 가능하다. 가중치는 양수거나 음수일 수 있다. 만약 가중치가 0에 가까우면 중요하지 않은 속성이라고 여겨 해당 속성을 모델에서 제거한다. 모델은 고정 상태이며, 가중치는 모델의 배개변수로 데이터를 통해 조정이 가능하다. 

선형 모델은 단순하고 매개변수가 적어서 가중치 합을 쉽게 계산할 수 있기 때문에 이해 및 해석이 용이하다. 또한 다른 수많은 작업들에도 굉장히 효과적이다. 

올바른 모델을 선택하는 것은 모델이 고정된 경우, 그 매개변수를 최적화하는 것보다 더 복잡한 작업이며 응용 프로그램에 대한 정보가 도움이 된다.

 

<지도 학습>

아웃풋 값을 인풋 값의 집합으로부터 예측하는 작업을 통계학에서는 회귀라고 한다. 선형 모델의 경우에는 선형 회귀를 사용한다. 머신러닝에서는 회귀는 지도 학습의 일종이다. 원하는 아웃풋을 제공할 수 있는 슈퍼바이저가 존재한다. 차량을 예시로 하면 아웃풋은 인풋 차량에 대한 가격이다.

- 훈련 집합의 모델이 새로운 예시에 대해 올바른 아웃풋을 내는 방식은 그 모델과 학습 알고리즘의 일반화 능력이라고 한다.

 

<수열 학습>

- 학습은 압축을 수행한다. 예를 들어 모델이 수열의 규칙을 배우면 더이상의 데이터는 필요하지 않게 된다.

- 데이터에 규칙 적용이 가능하면 데이터보다 단순한 설명을 얻을 수 있으니까 저장하는데 필요한 메모리도 줄고, 처리할 계산도 줄어들 것이다.

 

<나머지 3장>

- 신용 평가에도 적용이 가능하다.

- 만약 결정하는 데 어려움이 있다면 결정하지 않고 인간이 결정하도록 문제를 남겨둔다.

 

 

728x90

댓글