가설 1: 난방 에너지 사용량이 증가하면 출하량이 증가할 것이다.
- 근거: 적절한 온도를 유지하면 작물의 생장이 원활하게 진행될 가능성이 높음.
- 검증 방법: heating_energy_usage와 outtrn의 상관관계 및 회귀 분석.
가설 2: CO₂ 사용량이 많을수록 출하량이 감소할 것이다.
- 근거: 앞선 상관관계 분석에서 CO₂ 사용량(CO2_usage)이 출하량과 음의 상관관계를 보임.
- 검증 방법: CO2_usage와 outtrn 간의 관계 분석 및 시각화.
가설 3: 미스트 사용량이 많을수록 출하량이 감소할 것이다.
- 근거: 높은 습도는 병해 발생 위험을 증가시켜 작물 품질에 악영향을 미칠 가능성이 있음.
- 검증 방법: mist_usage_time과 outtrn의 관계를 시계열 분석 및 상관 분석.
가설 4: 물 사용량이 적절할수록 출하량이 증가할 것이다.
- 근거: 과도한 물 공급은 작물의 뿌리 부패를 유발할 수 있으며, 반대로 부족하면 성장 저해 가능성이 있음.
- 검증 방법: water_usage와 outtrn 간의 곡선 적합(비선형 회귀) 분석.
가설 5: 비료 사용량이 많을수록 출하량이 증가할 것이다.
- 근거: 적절한 영양 공급이 이루어질 경우, 작물의 생장과 품질이 향상될 가능성이 큼.
- 검증 방법: fertilizer_usage와 outtrn의 상관 분석 및 다변수 회귀 분석.
가설 6: 특정 농장(farm_cde)에서 환경 요인의 영향을 더 많이 받을 것이다.
- 근거: 농장별로 재배 환경이 다를 수 있으며, 특정 농장은 환경 요인(온도, 습도 등)에 더 민감하게 반응할 가능성이 있음.
- 검증 방법: farm_cde별 환경 요인(heating_energy_usage, CO2_usage 등)과 outtrn의 관계를 비교 분석.
🌱 생육 특성과 관련된 가설
가설 7: 과실 생장(frtstGrupp)이 활발할수록 출하량이 증가할 것이다.
- 근거: 과실이 충분히 성장할수록 수확 가능한 열매의 수가 많아질 가능성이 높음.
- 검증 방법: frtstGrupp과 outtrn의 상관 분석 및 선형 회귀 분석.
가설 8: 줄기 두께(stemThck)가 두꺼울수록 출하량이 증가할 것이다.
- 근거: 튼튼한 줄기는 더 많은 영양소를 운반할 수 있어 과실 성장에 유리할 가능성이 큼.
- 검증 방법: stemThck과 outtrn의 관계 분석 및 시각화.
가설 9: 잎의 개수(lefCunt)가 많을수록 출하량이 증가할 것이다.
- 근거: 잎이 많을수록 광합성이 활발해져 생장이 촉진될 가능성이 있음.
- 검증 방법: lefCunt과 outtrn의 상관 분석.
가설 10: 생장 길이(grwtLt)가 클수록 출하량이 증가할 것이다.
- 근거: 작물이 충분히 성장해야 과실이 제대로 형성될 가능성이 높음.
- 검증 방법: grwtLt과 outtrn의 관계 분석.
📅 시간 요인과 관련된 가설
가설 11: 특정 계절(예: 겨울철)에는 출하량이 감소할 것이다.
- 근거: 계절에 따라 온도 및 생육 조건이 달라지므로 수확량이 달라질 가능성이 있음.
- 검증 방법: measDate를 월별로 그룹화하여 출하량 분석.
가설 12: 특정 시점에서 출하량이 급증하거나 급감하는 패턴이 존재할 것이다.
- 근거: 농장의 재배 주기에 따라 일정한 패턴이 있을 가능성이 큼.
- 검증 방법: 시계열 분석을 통해 출하량 변화 탐색.
📊 농장(farm_cde) 특성과 관련된 가설
가설 13: 특정 농장은 평균적으로 더 많은 출하량을 기록할 것이다.
- 근거: 농장별로 재배 방식, 환경 요인이 다르기 때문에 출하량의 차이가 있을 가능성이 높음.
- 검증 방법: farm_cde별 출하량 평균 비교 분석.
가설 14: 특정 농장은 환경 요인에 더 민감하게 반응할 것이다.
- 근거: 동일한 환경 변화에서도 농장마다 출하량 변화 패턴이 다를 가능성이 있음.
- 검증 방법: 농장별 CO2_usage, heating_energy_usage 등의 변수와 출하량 간의 관계 분석.
- 데이터 병합
- farm_cde와 measDate를 기준으로 세 데이터프레임을 병합.
- 높은 품질 토마토(itemGrade == '1등급')의 생산량 분석
- 높은 품질(1등급)과 관련된 생육 특성 및 에너지 사용량 분석.
- 상관관계 분석
- farm_cde별 생육 및 환경 요인이 1등급 토마토 생산량과 어떤 관계가 있는지 확인.
- 시각화 및 패턴 도출
- 품질 높은 토마토를 많이 생산하는 농장의 특징을 시각적으로 분석.
바로 데이터 병합 및 분석을 진행하겠습니다.
상관관계 분석 결과
outtrnitemCodeflowerTop
outtrn | 1.0 | 0.28800727634781387 | |
itemCode | |||
flowerTop | 0.28800727634781387 | 1.0 | |
grwtLt | 0.4338403063622187 | 0.7791252954176884 | |
lefCunt | -0.1557170586886219 | -0.8410857056130141 |
상관관계 분석 결과를 테이블로 제공했습니다. 주요 패턴을 정리하면 다음과 같습니다.
높은 품질(1등급) 토마토의 생산량(outtrn)과 관련된 주요 변수
- 생육 특성과의 관계
- 꽃대 길이(flowerTop): 0.29 (약한 양의 상관관계)
- 생장 길이(grwtLt): 0.43 (중간 정도의 양의 상관관계)
- 줄기 두께(stemThck): 0.25 (약한 양의 상관관계)
- 과실 생장(frtstGrupp): 0.64 (강한 양의 상관관계)
- 환경 요인과의 관계
- 물 사용량(water_usage): -0.12 (약한 음의 상관관계)
- 비료 사용량(fertilizer_usage): -0.08 (매우 약한 음의 상관관계)
- 난방 에너지 사용량(heating_energy_usage): 0.08 (매우 약한 양의 상관관계)
- CO2 사용량(CO2_usage): -0.24 (약한 음의 상관관계)
- 미스트 사용(mist_usage_time): -0.41 (중간 정도의 음의 상관관계)
해석 및 시사점
- 과실 생장(frtstGrupp)과의 강한 상관관계는 열매가 충분히 성장한 상태에서 출하될수록 높은 품질을 유지할 가능성이 높음을 시사.
- 줄기가 두껍고(stemThck), 생장 길이가 긴(grwtLt) 식물이 1등급 토마토 생산에 유리.
- 반면, CO2와 미스트 사용이 많을수록 품질이 떨어지는 경향. 이산화탄소 농도 조절과 적절한 수분 관리가 중요할 가능성.
분석 방법
- 데이터 전처리
- 결측값 처리 및 불필요한 변수 제거
- 범주형 변수(farm_cde) 인코딩
- 모델 학습
- 랜덤 포레스트(Random Forest) 회귀 모델을 활용하여 생산량(outtrn)을 예측
- 다른 모델(예: 선형 회귀, XGBoost 등)도 비교 가능
- 변수 중요도 분석
- 머신러닝 모델이 학습한 내용을 바탕으로 어떤 변수가 1등급 토마토 생산량을 결정하는지 확인
- 모델 성능 평가
- 예측값과 실제값 비교 (R², RMSE 등
변수 중요도 분석
FeatureImportance
8 | mist_usage_time | 0.35817856491014516 |
6 | heating_energy_usage | 0.2660295116812055 |
9 | farm_cde | 0.12053798660449161 |
5 | fertilizer_usage | 0.09834332003144682 |
4 | water_usage | 0.09702075582438137 |
모델의 성능 평가 결과:
- R² (결정계수): -1.98 (예측력이 매우 낮음)
- RMSE (평균 제곱근 오차): 1.67 (예측 오차가 비교적 큼)
분석 결과
모델이 제대로 학습되지 않은 이유는 다음과 같습니다.
- 데이터의 품질 문제
- outtrn(출하량) 값이 누락된 데이터가 많았을 가능성이 큼.
- 데이터의 분포가 불균형하거나 특정 농장에 집중되어 있을 수 있음.
- 설명 변수 부족
- flowerTop, grwtLt, stemThck, frtstGrupp 등의 변수로는 출하량을 충분히 설명하기 어려울 가능성.
- 추가적인 환경 변수(예: 온도, 습도, 토양 상태)가 필요할 수 있음.
- 데이터 크기
- 머신러닝 모델은 충분한 학습 데이터가 필요함. 학습 데이터가 적거나 편향되어 있을 경우, 모델이 패턴을 제대로 학습하지 못함.
다음 단계
- 데이터 분포 확인 및 전처리 개선
- outtrn이 어떻게 분포하는지 시각화해보고, 이상치(극단적인 값)나 누락 데이터의 영향을 확인.
- 추가적인 설명 변수 검토
- 다른 생육 변수 또는 환경 요인을 포함하여 모델의 성능을 개선.
- 다른 머신러닝 모델 시도
- 랜덤 포레스트 외에도 XGBoost, 선형 회귀 등 다양한 모델을 비교.
1. IQR (Interquartile Range) 분석
- 사분위수를 이용해 이상치를 판별하는 방법.
- 이상치 기준:
- Q1 (1사분위수) = 데이터의 하위 25%
- Q3 (3사분위수) = 데이터의 상위 25%
- IQR (Q3 - Q1) = 사분위 범위
- 이상치 기준: Q1 - 1.5*IQR 보다 작거나 Q3 + 1.5*IQR 보다 큰 값
2. Z-score(표준 점수) 분석
- 평균과 표준편차를 기준으로 이상치를 판별하는 방법.
- 이상치 기준: Z-score 값이 ±3 이상이면 이상치로 간주.
3. 박스플롯 시각화
- 데이터의 분포를 한눈에 확인하며 이상치를 직접 탐색.
이제 이상치를 확인하는 분석을 진행하겠습니다.
출하량 (outtrn) 박스플롯 (이상치 확인)
박스플롯을 통해 출하량(outtrn)의 이상치를 시각적으로 확인할 수 있습니다.
이상치 분석 결과
- IQR 기준 이상치 개수: 0개
- Z-score 기준 이상치 개수: 0개
이번 데이터에서는 IQR 및 Z-score 기준으로 식별된 이상치가 없습니다. 따라서 출하량(outtrn)의 데이터는 극단적으로 벗어나는 값 없이 고르게 분포하고 있다고 볼 수 있습니다.
분석 방법
- 데이터 병합
- farm_cde와 measDate를 기준으로 세 데이터프레임을 병합.
- 높은 품질 토마토(itemGrade == '1등급')의 생산량 분석
- 높은 품질(1등급)과 관련된 생육 특성 및 에너지 사용량 분석.
- 상관관계 분석
- farm_cde별 생육 및 환경 요인이 1등급 토마토 생산량과 어떤 관계가 있는지 확인.
- 시각화 및 패턴 도출
- 품질 높은 토마토를 많이 생산하는 농장의 특징을 시각적으로 분석.
바로 데이터 병합 및 분석을 진행하겠습니다.
상관관계 분석 결과
outtrnitemCodeflowerTop
outtrn | 1.0 | 0.28800727634781387 | |
itemCode | |||
flowerTop | 0.28800727634781387 | 1.0 | |
grwtLt | 0.4338403063622187 | 0.7791252954176884 | |
lefCunt | -0.1557170586886219 | -0.8410857056130141 |
상관관계 분석 결과를 테이블로 제공했습니다. 주요 패턴을 정리하면 다음과 같습니다.
높은 품질(1등급) 토마토의 생산량(outtrn)과 관련된 주요 변수
- 생육 특성과의 관계
- 꽃대 길이(flowerTop): 0.29 (약한 양의 상관관계)
- 생장 길이(grwtLt): 0.43 (중간 정도의 양의 상관관계)
- 줄기 두께(stemThck): 0.25 (약한 양의 상관관계)
- 과실 생장(frtstGrupp): 0.64 (강한 양의 상관관계)
- 환경 요인과의 관계
- 물 사용량(water_usage): -0.12 (약한 음의 상관관계)
- 비료 사용량(fertilizer_usage): -0.08 (매우 약한 음의 상관관계)
- 난방 에너지 사용량(heating_energy_usage): 0.08 (매우 약한 양의 상관관계)
- CO2 사용량(CO2_usage): -0.24 (약한 음의 상관관계)
- 미스트 사용(mist_usage_time): -0.41 (중간 정도의 음의 상관관계)
해석 및 시사점
- 과실 생장(frtstGrupp)과의 강한 상관관계는 열매가 충분히 성장한 상태에서 출하될수록 높은 품질을 유지할 가능성이 높음을 시사.
- 줄기가 두껍고(stemThck), 생장 길이가 긴(grwtLt) 식물이 1등급 토마토 생산에 유리.
- 반면, CO2와 미스트 사용이 많을수록 품질이 떨어지는 경향. 이산화탄소 농도 조절과 적절한 수분 관리가 중요할 가능성.