본 회귀 분석에서는 **선형 모델(OLS 회귀)**을 활용하여 데이터의 관계를 평가하였으나, 여러 가지 문제점이 발견되었습니다.
1️⃣ 모델 문제점 및 비선형성 가능성
- F-통계량 및 p-value가 NaN으로 나타남
- 이는 선형 모델이 적절하지 않을 가능성이 높음을 시사하며, 회귀 분석이 정상적으로 수행되지 않았을 가능성이 큽니다.
- 표준 오차(inf) 발생
- 일부 회귀 계수의 표준 오차가 무한대(inf)로 나타나, 다중공선성 문제 또는 데이터 부족으로 인해 모델이 불안정할 가능성이 있습니다.
- R² = 1.000 (완벽한 결정계수) → 과적합 가능성
- R² 값이 1.0으로 나타났지만, 이는 모델이 훈련 데이터에 과적합(Overfitting)되었을 가능성이 큽니다.
- 실제 예측력은 떨어질 가능성이 있어, 보다 일반화된 모델링이 필요합니다.
- Durbin-Watson 통계량 = 0.701 → 잔차의 자기상관 문제
- Durbin-Watson 값이 2에 가까워야 독립적인 잔차 분포를 의미하는데, 현재 값은 0.701로 낮아 잔차 간 자기상관(Auto-correlation)이 존재할 가능성이 높습니다.
- 이는 모델이 데이터를 적절히 설명하지 못할 수 있음을 의미합니다.
2️⃣ 결론 및 개선 방향
위 문제들을 종합적으로 고려할 때, 현재 사용된 선형 회귀 모델이 적절하지 않을 가능성이 높음을 확인할 수 있습니다. 이를 개선하기 위해 다음과 같은 조치가 필요합니다.
- 잔차 분석 수행
- 잔차의 패턴을 확인하여 선형성이 유지되는지 검토해야 합니다.
- 잔차가 비선형 패턴을 보인다면 선형 회귀보다 더 적절한 모델을 고려해야 합니다.
- 다항 회귀(Polynomial Regression) 적용
- 변수 간의 비선형 관계를 반영하기 위해 다항 회귀를 추가하여 비교 분석을 수행할 필요가 있습니다.
- 비선형 회귀(Non-linear Regression) 모델 검토
- 선형 모델이 적절하지 않을 경우, 랜덤 포레스트, XGBoost 등의 비선형 회귀 모델을 도입하여 성능을 개선할 수 있습니다.
랜덤 포레스트 회귀 분석 개요
본 분석에서는 환경 요인(독립 변수, X)이 생육 지표(종속 변수, Y)에 미치는 영향을 평가하기 위해 **랜덤 포레스트 회귀 모델(Random Forest Regressor)**을 활용하였습니다.
1️⃣ 분석 대상 변수
- 독립 변수(X): 환경 요인
- 온도(TA), 습도 지수(HI), CO₂ 농도(CI), 광량(IR)
- 종속 변수(Y): 생육 지표
- 줄기 두께(stemThck)
2️⃣ 데이터 처리 및 모델 학습
- 데이터를 **80% 학습(training), 20% 테스트(testing)**로 분할하여 모델의 일반화 성능을 확보하였으며, random_state=42를 설정하여 실험 결과의 일관성을 유지하였습니다.
- 랜덤 포레스트 회귀 모델을 활용하여 학습을 진행하였으며, 100개의 결정 트리(n_estimators=100)를 사용하여 보다 안정적인 예측이 가능하도록 설정하였습니다.
3️⃣ Feature Importance(변수 중요도) 분석
- 학습된 랜덤 포레스트 모델을 통해 독립 변수들이 종속 변수(stemThck)에 미치는 영향을 평가하였으며, 이를 통해 생육에 가장 중요한 환경 요인을 도출하였습니다.
- 분석 결과를 기반으로 생육 최적화를 위한 주요 환경 요소를 확인할 수 있습니다.