7주차 TIL - 회귀모델 성능비교

카테고리 없음

게임취업하고싶은 사람 2025. 2. 11. 20:54

본 회귀 분석에서는 **선형 모델(OLS 회귀)**을 활용하여 데이터의 관계를 평가하였으나, 여러 가지 문제점이 발견되었습니다.

F-통계량 및 p-value가 NaN으로 나타남
- 이는 선형 모델이 적절하지 않을 가능성이 높음을 시사하며, 회귀 분석이 정상적으로 수행되지 않았을 가능성이 큽니다.
표준 오차(inf) 발생
- 일부 회귀 계수의 표준 오차가 무한대(inf)로 나타나, 다중공선성 문제 또는 데이터 부족으로 인해 모델이 불안정할 가능성이 있습니다.
R² = 1.000 (완벽한 결정계수) → 과적합 가능성
- R² 값이 1.0으로 나타났지만, 이는 모델이 훈련 데이터에 과적합(Overfitting)되었을 가능성이 큽니다.
- 실제 예측력은 떨어질 가능성이 있어, 보다 일반화된 모델링이 필요합니다.
Durbin-Watson 통계량 = 0.701 → 잔차의 자기상관 문제
- Durbin-Watson 값이 2에 가까워야 독립적인 잔차 분포를 의미하는데, 현재 값은 0.701로 낮아 잔차 간 자기상관(Auto-correlation)이 존재할 가능성이 높습니다.
- 이는 모델이 데이터를 적절히 설명하지 못할 수 있음을 의미합니다.

위 문제들을 종합적으로 고려할 때, 현재 사용된 선형 회귀 모델이 적절하지 않을 가능성이 높음을 확인할 수 있습니다. 이를 개선하기 위해 다음과 같은 조치가 필요합니다.

잔차 분석 수행
- 잔차의 패턴을 확인하여 선형성이 유지되는지 검토해야 합니다.
- 잔차가 비선형 패턴을 보인다면 선형 회귀보다 더 적절한 모델을 고려해야 합니다.
다항 회귀(Polynomial Regression) 적용
- 변수 간의 비선형 관계를 반영하기 위해 다항 회귀를 추가하여 비교 분석을 수행할 필요가 있습니다.
비선형 회귀(Non-linear Regression) 모델 검토
- 선형 모델이 적절하지 않을 경우, 랜덤 포레스트, XGBoost 등의 비선형 회귀 모델을 도입하여 성능을 개선할 수 있습니다.

본 분석에서는 환경 요인(독립 변수, X)이 생육 지표(종속 변수, Y)에 미치는 영향을 평가하기 위해 **랜덤 포레스트 회귀 모델(Random Forest Regressor)**을 활용하였습니다.

데이터를 **80% 학습(training), 20% 테스트(testing)**로 분할하여 모델의 일반화 성능을 확보하였으며, random_state=42를 설정하여 실험 결과의 일관성을 유지하였습니다.
랜덤 포레스트 회귀 모델을 활용하여 학습을 진행하였으며, 100개의 결정 트리(n_estimators=100)를 사용하여 보다 안정적인 예측이 가능하도록 설정하였습니다.

학습된 랜덤 포레스트 모델을 통해 독립 변수들이 종속 변수(stemThck)에 미치는 영향을 평가하였으며, 이를 통해 생육에 가장 중요한 환경 요인을 도출하였습니다.
분석 결과를 기반으로 생육 최적화를 위한 주요 환경 요소를 확인할 수 있습니다.