7주차 TIL - ML 마스터 클래스의 마지막

카테고리 없음

게임취업하고싶은 사람 2025. 2. 4. 20:43

🔹 1. DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

➡ 해결책: DBSCAN
→ 밀도 기반 접근법으로 데이터가 밀집된 영역을 군집으로 인식하고, 밀도가 낮은 영역을 노이즈(이상치)로 간주하는 방식.

DBSCAN의 주요 개념:

🔎 데이터 포인트 분류

알고리즘K-meansDBSCAN

🔹 DBSCAN이 적합한 경우

차원의 저주 (Curse of Dimensionality)
- 데이터 차원이 증가할수록 분석이 어려워짐 → 필요없는 차원을 제거할 필요가 있음.
다중공선성 문제 (Multicollinearity)
- 독립 변수들 간 상관관계가 높은 경우 → 모델 해석이 어려움.

➡ 해결책: PCA
데이터의 변동성(정보)을 최대한 보존하면서 더 적은 수의 변수(주성분)로 표현하는 차원 축소 기법.

📌 PCA를 여행 가방 싸기로 이해해보자! 🎒

공분산(Covariance)
→ 두 변수가 어떻게 함께 변화하는지를 측정.
- 양의 공분산: 두 변수가 같은 방향으로 변화
- 음의 공분산: 한 변수가 증가할 때 다른 변수는 감소
고유값(Eigenvalue) & 고유벡터(Eigenvector)
- 고유벡터: 데이터의 주요 방향(주성분).
- 고유값: 각 방향(주성분)의 중요도를 나타냄.
PCA 변환 과정
1. 평균 중심화 (Centering): 평균을 빼서 데이터의 절대적인 크기를 제거.
2. 공분산 행렬 계산: 변수 간의 관계를 분석.
3. 고유값 & 고유벡터 계산: 주성분을 찾기 위해.
4. 차원 선택: 가장 큰 고유값을 가진 몇 개의 주성분만 선택.

📌 PCA에서는 왜 상관계수가 아닌 공분산을 사용할까?
→ 공분산은 데이터의 실제 변동성을 보존하지만, 상관계수는 단위를 고려하지 않기 때문.

DBSCAN(밀도 기반 군집화)
- K-means의 한계를 보완한 알고리즘.
- 밀도가 높은 영역을 군집으로 설정하고, 밀도가 낮은 영역은 노이즈(이상치)로 분류.
- 다양한 모양과 크기의 군집을 찾을 수 있음.
PCA(주성분 분석)
- 차원의 저주 해결 & 다중공선성 문제 해결.
- 데이터를 주성분으로 변환해 정보 손실 없이 차원을 축소.
- 공분산 행렬을 이용해 고유값, 고유벡터를 계산하여 주성분을 선택.

📌 정리하면?
✅ 군집화할 때는 DBSCAN(K-means의 한계 보완)
✅ 차원을 줄이고 싶다면 PCA(중요한 정보만 유지하면서 차원 축소)

👉 실제 데이터를 다룰 때, 데이터 구조와 분석 목표에 맞춰 적절한 알고리즘을 선택하는 것이 중요합니다! 🚀