▶ 군집화 알고리즘
→ 주어진 데이터들의 유사성을 분석하여 적절한 개수의 클러스터로 만드는 알고리즘
→ 점들 간의 거리와 밀집도를 종합적으로 판단
▷ K-Means 알고리즘
→ 데이터에서 초기 k개의 점을 선정하여 무작위 휴리스틱 기법
→ 어떤 점이 특정 영역 안에 들어올 확률을 가지고 군집을 만들 수 있음
1) 아무렇게나 그리기
2) 정답 비교하기
3) 영역 조정하기
4) 학습 완료
▷ 차원의 저주(Curse of Dimensionality)
→ 차원(특징 개수)이 증가할 수록 데이터의 분포 분석 또는 모델 추정에 필요한 샘플 데이터 수가 기하급수적으로 증가
☆ 군집화는 비지도 알고리즘이다!
- 영역을 나누는 기준이 필요
- 정답지 없이 학습하기 때문에 완전한 모델이 나오기 어려움
- 분류 알고리즘보다 결과가 더 좋은 경우도 있음
- 때로는 보조 지표로, 때로는 분류 알고리즘 대체용으로 쓰임
▶ 악성코드 분류 모델 구현
- 기본적으로 모든 머신러닝 모델은 피처를 숫자로만 받을 수 있다.
- object라고 되어 있는 것은 학습에 사용할 수 없다는 의미를 나타낸다.
→ 1) 제외시키고 학습하는 방법, 2) 수치형으로 변환해서 사용하는 방법이 있다.
'WINS STUDY > AI 사이버보안' 카테고리의 다른 글
Week06_네트워크 보안과 인공지능 (0) | 2022.07.22 |
---|---|
Week06_인공지능 악성코드 탐지 시스템 (0) | 2022.07.16 |
Week05_악성코드 (0) | 2022.07.13 |
Week04_모델 평가 지표 (0) | 2022.07.13 |
Week04_통계학과 머신러닝 (0) | 2022.07.07 |