카테고리 없음

7주차 TIL - 회귀모델 성능비교

게임취업하고싶은 사람 2025. 2. 11. 20:54

본 회귀 분석에서는 **선형 모델(OLS 회귀)**을 활용하여 데이터의 관계를 평가하였으나, 여러 가지 문제점이 발견되었습니다.

1️⃣ 모델 문제점 및 비선형성 가능성

  1. F-통계량 및 p-value가 NaN으로 나타남
    • 이는 선형 모델이 적절하지 않을 가능성이 높음을 시사하며, 회귀 분석이 정상적으로 수행되지 않았을 가능성이 큽니다.
  2. 표준 오차(inf) 발생
    • 일부 회귀 계수의 표준 오차가 무한대(inf)로 나타나, 다중공선성 문제 또는 데이터 부족으로 인해 모델이 불안정할 가능성이 있습니다.
  3. R² = 1.000 (완벽한 결정계수) → 과적합 가능성
    • R² 값이 1.0으로 나타났지만, 이는 모델이 훈련 데이터에 과적합(Overfitting)되었을 가능성이 큽니다.
    • 실제 예측력은 떨어질 가능성이 있어, 보다 일반화된 모델링이 필요합니다.
  4. Durbin-Watson 통계량 = 0.701 → 잔차의 자기상관 문제
    • Durbin-Watson 값이 2에 가까워야 독립적인 잔차 분포를 의미하는데, 현재 값은 0.701로 낮아 잔차 간 자기상관(Auto-correlation)이 존재할 가능성이 높습니다.
    • 이는 모델이 데이터를 적절히 설명하지 못할 수 있음을 의미합니다.

2️⃣ 결론 및 개선 방향

위 문제들을 종합적으로 고려할 때, 현재 사용된 선형 회귀 모델이 적절하지 않을 가능성이 높음을 확인할 수 있습니다. 이를 개선하기 위해 다음과 같은 조치가 필요합니다.

  1. 잔차 분석 수행
    • 잔차의 패턴을 확인하여 선형성이 유지되는지 검토해야 합니다.
    • 잔차가 비선형 패턴을 보인다면 선형 회귀보다 더 적절한 모델을 고려해야 합니다.
  2. 다항 회귀(Polynomial Regression) 적용
    • 변수 간의 비선형 관계를 반영하기 위해 다항 회귀를 추가하여 비교 분석을 수행할 필요가 있습니다.
  3. 비선형 회귀(Non-linear Regression) 모델 검토
    • 선형 모델이 적절하지 않을 경우, 랜덤 포레스트, XGBoost 등의 비선형 회귀 모델을 도입하여 성능을 개선할 수 있습니다.

 

 

 

 

랜덤 포레스트 회귀 분석 개요

본 분석에서는 환경 요인(독립 변수, X)이 생육 지표(종속 변수, Y)에 미치는 영향을 평가하기 위해 **랜덤 포레스트 회귀 모델(Random Forest Regressor)**을 활용하였습니다.

1️⃣ 분석 대상 변수

  • 독립 변수(X): 환경 요인
    • 온도(TA), 습도 지수(HI), CO₂ 농도(CI), 광량(IR)
  • 종속 변수(Y): 생육 지표
    • 줄기 두께(stemThck)

2️⃣ 데이터 처리 및 모델 학습

  • 데이터를 **80% 학습(training), 20% 테스트(testing)**로 분할하여 모델의 일반화 성능을 확보하였으며, random_state=42를 설정하여 실험 결과의 일관성을 유지하였습니다.
  • 랜덤 포레스트 회귀 모델을 활용하여 학습을 진행하였으며, 100개의 결정 트리(n_estimators=100)를 사용하여 보다 안정적인 예측이 가능하도록 설정하였습니다.

3️⃣ Feature Importance(변수 중요도) 분석

  • 학습된 랜덤 포레스트 모델을 통해 독립 변수들이 종속 변수(stemThck)에 미치는 영향을 평가하였으며, 이를 통해 생육에 가장 중요한 환경 요인을 도출하였습니다.
  • 분석 결과를 기반으로 생육 최적화를 위한 주요 환경 요소를 확인할 수 있습니다.