▶ 군집화 알고리즘

→ 주어진 데이터들의 유사성을 분석하여 적절한 개수의 클러스터로 만드는 알고리즘

→ 점들 간의 거리와 밀집도를 종합적으로 판단

 

▷ K-Means 알고리즘

→ 데이터에서 초기 k개의 점을 선정하여 무작위 휴리스틱 기법

→ 어떤 점이 특정 영역 안에 들어올 확률을 가지고 군집을 만들 수 있음

1) 아무렇게나 그리기

2) 정답 비교하기

3) 영역 조정하기

4) 학습 완료

 

▷ 차원의 저주(Curse of Dimensionality)

→ 차원(특징 개수)이 증가할 수록 데이터의 분포 분석 또는 모델 추정에 필요한 샘플 데이터 수가 기하급수적으로 증가

 

☆ 군집화는 비지도 알고리즘이다!

- 영역을 나누는 기준이 필요

- 정답지 없이 학습하기 때문에 완전한 모델이 나오기 어려움

- 분류 알고리즘보다 결과가 더 좋은 경우도 있음

- 때로는 보조 지표로, 때로는 분류 알고리즘 대체용으로 쓰임

 

▶ 악성코드 분류 모델 구현

df.info() 결과

- 기본적으로 모든 머신러닝 모델은 피처를 숫자로만 받을 수 있다.

- object라고 되어 있는 것은 학습에 사용할 수 없다는 의미를 나타낸다.

→ 1) 제외시키고 학습하는 방법, 2) 수치형으로 변환해서 사용하는 방법이 있다.

 

 

 

 

 

 

 

 

 

+ Recent posts