1-3) 마켓과 머신러닝

ML/[책] 혼공머신

1-3) 마켓과 머신러닝

spring_sunshine 2022. 10. 11. 15:05

가장 간단한 머신러닝 알고리즘 중 하나인 k-최근접 이웃을 사용하여 2개의 종류를 구분하는 머신러닝 모델을 훈련하자.

생선 분류 문제

마켓에서 '도미', '곤들매기', '농어', '강꼬치고기', '로치', '빙어', '송어'를 팔 때, 생선이름을 잘 못 외우는 직원을 위해 생선을 분류해주는 프로그램을 만들어주자.
머신러닝은 누구도 알려주지 않은 기준 (ex. 30~40cm 길이 생선은 도미이다)을 찾아서 생선을 판별해낼 것이다.
생선의 길이를 x축, 무게를 y축으로 하는 그래프를 만들어서 생선을 그래프의 점으로 표시해보자. 이러한 그래프를 산점도 라고 한다.
파이썬에서 과학계산용 그래프를 그리는 대표적인 패키지는 맷플롯립(matplotlib) 이다.
- 이 패키지를 임포트하고 산점도를 그리는 scatter() 함수를 사용해보자.
- 산점도 그래프가 일직선에 가까운 형태일수록 선형적이라고 한다.
- 맷플롯립에서 2개의 산점도를 한 그래프 내에 그리기 위해선 scatter() 함수를 연달아 사용하면 된다.

첫번째 머신러닝 프로그램

가장 간단하고 이해하기 쉬운 k-최근접 이웃 알고리즘을 사용해 도미와 빙어의 데이터를 구분해보자.
이 알고리즘을 사용하기 전에 준비한 도미와 빙어 데이터를 하나로 합친다.
우리는 사이킷런(scikit-learn) 이라는 머신러닝 패키지를 사용할 것이다.
- 이 패키지를 사용하려면 각 특성의 리스트를 세로로 늘어뜨린 2차원 리스트를 만들어야 한다.
- 파이썬의 zip() 함수와 리스트 내포(list comprehension) 구문을 사용하여 2차원 리스트로 쉽게 만들 수 있다.
- zip() 함수는 나열된 리스트 각각에서 하나씩 원소를 꺼내 반환한다.

fish_data [[l,w] for l,w in zip(length, weight)]

# 결과값 -> [도미/빙어 길이, 도미/빙어 무게] 나열 리스트
[[25.4, 242.0], [26.3, 290.0], [26.5, 340.0], [29.0, 363.0], [29.0, 430.0], ...]

이제 머신러닝 알고리즘이 생선 길이와 무게를 보고 도미와 빙어를 구분하는 규칙을 찾아야 한다.

그러기 위해선 어떤 생선이 도미인지 빙어인지를 알려줘야 한다. 도미와 빙어를 숫자 1과 0으로 표현해 보자.

이제 사이킷런 패키지에서 k-최근접 이웃 알고리즘을 구현한 클래스인 KNeighborsClassifier를 임포트해서 사용하자.

from sklearn.neighbors import KNeighborsClassifier

kn = KNeighborsClassifier()
kn.fit(fish_data, fish_target)
kn.score(fish_data, fish_target) // 1.0
// 이 모델은 정확도가 100%

임포트한 KNeighborsClassifier 클래스의 객체를 먼저 만든다.
위 객체에 fit()을 통해 fish_data와 fish_target을 전달하여 생선을 찾기 위한 기준을 학습시킨다. (머신러닝에서의 훈련)
사이킷런에서 모델을 평가하는 메서드는 score() 이다. 이 메서드는 0~1의 값을 반환하고 1은 모든 데이터를 정확히 맞혔다는 것을 의미한다.

k-최근접 이웃 알고리즘

매우 간단한 알고리즘으로 어떤 데이터에 대한 답을 구할 때 주위 다른 데이터를 보고 다수를 차지하는 것을 정답으로 사용하는 알고리즘이다. (근묵자흑 알고리즘)

kn.predict([[30, 600]]) // array([1])

predict() 는 새로운 데이터의 정답을 예측한다. 앞서 fit() 과 마찬가지로 리스트의 리스트를 전달해야 한다.
이 알고리즘을 위해 준비해야 할 것은 데이터를 모두 갖고 있는 게 전부이다.
새로운 데이터에 대해 예측할 때는 가장 가까운 직선거리에 어떤 데이터가 있는지를 살피면 된다.
단점은 이런 특징 때문에 데이터가 아주 많은 경우는 사용하기가 어렵고, 직선거리를 계산하는 데도 많은 시간이 필요하다.

도미와 빙어 분류

# 도미 데이터
bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 
                31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 
                35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0]
bream_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 
                500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0, 
                700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0]
# 빙어 데이터
smelt_length = [9.8, 10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]
smelt_weight = [6.7, 7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]

import matplotlib.pyplot as plt

plt.scatter(bream_length,bream_weight)
plt.scatter(smelt_length,smelt_weight)
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

# 첫번째 ML 프로그램 #

# 도미+빙어 데이터 
length = bream_length + smelt_length
weight = bream_weight + smelt_weight

fish_data = [[l,w] for l,w in zip(length, weight)]
print(fish_data)

# 도미:1, 빙어:0
fish_target = [1]*35 + [0]*14
print(fish_target)

from sklearn.neighbors import KNeighborsClassifier

kn = KNeighborsClassifier()
kn.fit(fish_data, fish_target)
kn.score(fish_data, fish_target)

# k-최근접 이웃 알고리즘
plt.scatter(bream_length, bream_weight)
plt.scatter(smelt_length, smelt_weight)
plt.scatter(30, 600, marker='^')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

kn.predict([[30,600]])
print(kn._fit_X)
print(kn._y)
kn49 = KNeighborsClassifier(n_neighbors=49)
kn49.fit(fish_data,fish_target)
kn49.score(fish_data,fish_target)
print(35/49)