카테고리 없음

7주차 TIL - 틈메이러 네 이놈

게임취업하고싶은 사람 2025. 2. 5. 21:02

가설 1: 난방 에너지 사용량이 증가하면 출하량이 증가할 것이다.

  • 근거: 적절한 온도를 유지하면 작물의 생장이 원활하게 진행될 가능성이 높음.
  • 검증 방법: heating_energy_usage와 outtrn의 상관관계 및 회귀 분석.

가설 2: CO₂ 사용량이 많을수록 출하량이 감소할 것이다.

  • 근거: 앞선 상관관계 분석에서 CO₂ 사용량(CO2_usage)이 출하량과 음의 상관관계를 보임.
  • 검증 방법: CO2_usage와 outtrn 간의 관계 분석 및 시각화.

가설 3: 미스트 사용량이 많을수록 출하량이 감소할 것이다.

  • 근거: 높은 습도는 병해 발생 위험을 증가시켜 작물 품질에 악영향을 미칠 가능성이 있음.
  • 검증 방법: mist_usage_time과 outtrn의 관계를 시계열 분석 및 상관 분석.

가설 4: 물 사용량이 적절할수록 출하량이 증가할 것이다.

  • 근거: 과도한 물 공급은 작물의 뿌리 부패를 유발할 수 있으며, 반대로 부족하면 성장 저해 가능성이 있음.
  • 검증 방법: water_usage와 outtrn 간의 곡선 적합(비선형 회귀) 분석.

가설 5: 비료 사용량이 많을수록 출하량이 증가할 것이다.

  • 근거: 적절한 영양 공급이 이루어질 경우, 작물의 생장과 품질이 향상될 가능성이 큼.
  • 검증 방법: fertilizer_usage와 outtrn의 상관 분석 및 다변수 회귀 분석.

가설 6: 특정 농장(farm_cde)에서 환경 요인의 영향을 더 많이 받을 것이다.

  • 근거: 농장별로 재배 환경이 다를 수 있으며, 특정 농장은 환경 요인(온도, 습도 등)에 더 민감하게 반응할 가능성이 있음.
  • 검증 방법: farm_cde별 환경 요인(heating_energy_usage, CO2_usage 등)과 outtrn의 관계를 비교 분석.

🌱 생육 특성과 관련된 가설

가설 7: 과실 생장(frtstGrupp)이 활발할수록 출하량이 증가할 것이다.

  • 근거: 과실이 충분히 성장할수록 수확 가능한 열매의 수가 많아질 가능성이 높음.
  • 검증 방법: frtstGrupp과 outtrn의 상관 분석 및 선형 회귀 분석.

가설 8: 줄기 두께(stemThck)가 두꺼울수록 출하량이 증가할 것이다.

  • 근거: 튼튼한 줄기는 더 많은 영양소를 운반할 수 있어 과실 성장에 유리할 가능성이 큼.
  • 검증 방법: stemThck과 outtrn의 관계 분석 및 시각화.

가설 9: 잎의 개수(lefCunt)가 많을수록 출하량이 증가할 것이다.

  • 근거: 잎이 많을수록 광합성이 활발해져 생장이 촉진될 가능성이 있음.
  • 검증 방법: lefCunt과 outtrn의 상관 분석.

가설 10: 생장 길이(grwtLt)가 클수록 출하량이 증가할 것이다.

  • 근거: 작물이 충분히 성장해야 과실이 제대로 형성될 가능성이 높음.
  • 검증 방법: grwtLt과 outtrn의 관계 분석.

📅 시간 요인과 관련된 가설

가설 11: 특정 계절(예: 겨울철)에는 출하량이 감소할 것이다.

  • 근거: 계절에 따라 온도 및 생육 조건이 달라지므로 수확량이 달라질 가능성이 있음.
  • 검증 방법: measDate를 월별로 그룹화하여 출하량 분석.

가설 12: 특정 시점에서 출하량이 급증하거나 급감하는 패턴이 존재할 것이다.

  • 근거: 농장의 재배 주기에 따라 일정한 패턴이 있을 가능성이 큼.
  • 검증 방법: 시계열 분석을 통해 출하량 변화 탐색.

📊 농장(farm_cde) 특성과 관련된 가설

가설 13: 특정 농장은 평균적으로 더 많은 출하량을 기록할 것이다.

  • 근거: 농장별로 재배 방식, 환경 요인이 다르기 때문에 출하량의 차이가 있을 가능성이 높음.
  • 검증 방법: farm_cde별 출하량 평균 비교 분석.

가설 14: 특정 농장은 환경 요인에 더 민감하게 반응할 것이다.

  • 근거: 동일한 환경 변화에서도 농장마다 출하량 변화 패턴이 다를 가능성이 있음.
  • 검증 방법: 농장별 CO2_usage, heating_energy_usage 등의 변수와 출하량 간의 관계 분석.
 
  1. 데이터 병합
    • farm_cde와 measDate를 기준으로 세 데이터프레임을 병합.
  2. 높은 품질 토마토(itemGrade == '1등급')의 생산량 분석
    • 높은 품질(1등급)과 관련된 생육 특성 및 에너지 사용량 분석.
  3. 상관관계 분석
    • farm_cde별 생육 및 환경 요인이 1등급 토마토 생산량과 어떤 관계가 있는지 확인.
  4. 시각화 및 패턴 도출
    • 품질 높은 토마토를 많이 생산하는 농장의 특징을 시각적으로 분석.

바로 데이터 병합 및 분석을 진행하겠습니다. ​

상관관계 분석 결과
 
outtrnitemCodeflowerTop
outtrn 1.0   0.28800727634781387
itemCode      
flowerTop 0.28800727634781387   1.0
grwtLt 0.4338403063622187   0.7791252954176884
lefCunt -0.1557170586886219   -0.8410857056130141
 

상관관계 분석 결과를 테이블로 제공했습니다. 주요 패턴을 정리하면 다음과 같습니다.

높은 품질(1등급) 토마토의 생산량(outtrn)과 관련된 주요 변수

  1. 생육 특성과의 관계
    • 꽃대 길이(flowerTop): 0.29 (약한 양의 상관관계)
    • 생장 길이(grwtLt): 0.43 (중간 정도의 양의 상관관계)
    • 줄기 두께(stemThck): 0.25 (약한 양의 상관관계)
    • 과실 생장(frtstGrupp): 0.64 (강한 양의 상관관계)
    줄기가 두껍고, 과실 생장이 활발할수록 높은 품질의 토마토 생산량이 증가하는 경향
  2. 환경 요인과의 관계
    • 물 사용량(water_usage): -0.12 (약한 음의 상관관계)
    • 비료 사용량(fertilizer_usage): -0.08 (매우 약한 음의 상관관계)
    • 난방 에너지 사용량(heating_energy_usage): 0.08 (매우 약한 양의 상관관계)
    • CO2 사용량(CO2_usage): -0.24 (약한 음의 상관관계)
    • 미스트 사용(mist_usage_time): -0.41 (중간 정도의 음의 상관관계)
    CO2 및 미스트 사용량이 많을수록 1등급 토마토 생산량이 감소하는 경향

해석 및 시사점

  • 과실 생장(frtstGrupp)과의 강한 상관관계는 열매가 충분히 성장한 상태에서 출하될수록 높은 품질을 유지할 가능성이 높음을 시사.
  • 줄기가 두껍고(stemThck), 생장 길이가 긴(grwtLt) 식물이 1등급 토마토 생산에 유리.
  • 반면, CO2와 미스트 사용이 많을수록 품질이 떨어지는 경향. 이산화탄소 농도 조절과 적절한 수분 관리가 중요할 가능성.

 

분석 방법

  1. 데이터 전처리
    • 결측값 처리 및 불필요한 변수 제거
    • 범주형 변수(farm_cde) 인코딩
  2. 모델 학습
    • 랜덤 포레스트(Random Forest) 회귀 모델을 활용하여 생산량(outtrn)을 예측
    • 다른 모델(예: 선형 회귀, XGBoost 등)도 비교 가능
  3. 변수 중요도 분석
    • 머신러닝 모델이 학습한 내용을 바탕으로 어떤 변수가 1등급 토마토 생산량을 결정하는지 확인
  4. 모델 성능 평가
    • 예측값과 실제값 비교 (R², RMSE 등

변수 중요도 분석
 
FeatureImportance
8 mist_usage_time 0.35817856491014516
6 heating_energy_usage 0.2660295116812055
9 farm_cde 0.12053798660449161
5 fertilizer_usage 0.09834332003144682
4 water_usage 0.09702075582438137
 

모델의 성능 평가 결과:

  • R² (결정계수): -1.98 (예측력이 매우 낮음)
  • RMSE (평균 제곱근 오차): 1.67 (예측 오차가 비교적 큼)

분석 결과

모델이 제대로 학습되지 않은 이유는 다음과 같습니다.

  1. 데이터의 품질 문제
    • outtrn(출하량) 값이 누락된 데이터가 많았을 가능성이 큼.
    • 데이터의 분포가 불균형하거나 특정 농장에 집중되어 있을 수 있음.
  2. 설명 변수 부족
    • flowerTop, grwtLt, stemThck, frtstGrupp 등의 변수로는 출하량을 충분히 설명하기 어려울 가능성.
    • 추가적인 환경 변수(예: 온도, 습도, 토양 상태)가 필요할 수 있음.
  3. 데이터 크기
    • 머신러닝 모델은 충분한 학습 데이터가 필요함. 학습 데이터가 적거나 편향되어 있을 경우, 모델이 패턴을 제대로 학습하지 못함.

다음 단계

  • 데이터 분포 확인 및 전처리 개선
    • outtrn이 어떻게 분포하는지 시각화해보고, 이상치(극단적인 값)나 누락 데이터의 영향을 확인.
  • 추가적인 설명 변수 검토
    • 다른 생육 변수 또는 환경 요인을 포함하여 모델의 성능을 개선.
  • 다른 머신러닝 모델 시도
    • 랜덤 포레스트 외에도 XGBoost, 선형 회귀 등 다양한 모델을 비교.

 

1. IQR (Interquartile Range) 분석

  • 사분위수를 이용해 이상치를 판별하는 방법.
  • 이상치 기준:
    • Q1 (1사분위수) = 데이터의 하위 25%
    • Q3 (3사분위수) = 데이터의 상위 25%
    • IQR (Q3 - Q1) = 사분위 범위
    • 이상치 기준: Q1 - 1.5*IQR 보다 작거나 Q3 + 1.5*IQR 보다 큰 값

2. Z-score(표준 점수) 분석

  • 평균과 표준편차를 기준으로 이상치를 판별하는 방법.
  • 이상치 기준: Z-score 값이 ±3 이상이면 이상치로 간주.

3. 박스플롯 시각화

  • 데이터의 분포를 한눈에 확인하며 이상치를 직접 탐색.

이제 이상치를 확인하는 분석을 진행하겠습니다.

출하량 (outtrn) 박스플롯 (이상치 확인)
 
 

박스플롯을 통해 출하량(outtrn)의 이상치를 시각적으로 확인할 수 있습니다.

이상치 분석 결과

  • IQR 기준 이상치 개수: 0개
  • Z-score 기준 이상치 개수: 0개

이번 데이터에서는 IQR 및 Z-score 기준으로 식별된 이상치가 없습니다. 따라서 출하량(outtrn)의 데이터는 극단적으로 벗어나는 값 없이 고르게 분포하고 있다고 볼 수 있습니다.

분석 방법

  1. 데이터 병합
    • farm_cde와 measDate를 기준으로 세 데이터프레임을 병합.
  2. 높은 품질 토마토(itemGrade == '1등급')의 생산량 분석
    • 높은 품질(1등급)과 관련된 생육 특성 및 에너지 사용량 분석.
  3. 상관관계 분석
    • farm_cde별 생육 및 환경 요인이 1등급 토마토 생산량과 어떤 관계가 있는지 확인.
  4. 시각화 및 패턴 도출
    • 품질 높은 토마토를 많이 생산하는 농장의 특징을 시각적으로 분석.

바로 데이터 병합 및 분석을 진행하겠습니다. ​

상관관계 분석 결과
 
outtrnitemCodeflowerTop
outtrn 1.0   0.28800727634781387
itemCode      
flowerTop 0.28800727634781387   1.0
grwtLt 0.4338403063622187   0.7791252954176884
lefCunt -0.1557170586886219   -0.8410857056130141
 

상관관계 분석 결과를 테이블로 제공했습니다. 주요 패턴을 정리하면 다음과 같습니다.

높은 품질(1등급) 토마토의 생산량(outtrn)과 관련된 주요 변수

  1. 생육 특성과의 관계
    • 꽃대 길이(flowerTop): 0.29 (약한 양의 상관관계)
    • 생장 길이(grwtLt): 0.43 (중간 정도의 양의 상관관계)
    • 줄기 두께(stemThck): 0.25 (약한 양의 상관관계)
    • 과실 생장(frtstGrupp): 0.64 (강한 양의 상관관계)
    줄기가 두껍고, 과실 생장이 활발할수록 높은 품질의 토마토 생산량이 증가하는 경향
  2. 환경 요인과의 관계
    • 물 사용량(water_usage): -0.12 (약한 음의 상관관계)
    • 비료 사용량(fertilizer_usage): -0.08 (매우 약한 음의 상관관계)
    • 난방 에너지 사용량(heating_energy_usage): 0.08 (매우 약한 양의 상관관계)
    • CO2 사용량(CO2_usage): -0.24 (약한 음의 상관관계)
    • 미스트 사용(mist_usage_time): -0.41 (중간 정도의 음의 상관관계)
    CO2 및 미스트 사용량이 많을수록 1등급 토마토 생산량이 감소하는 경향

해석 및 시사점

  • 과실 생장(frtstGrupp)과의 강한 상관관계는 열매가 충분히 성장한 상태에서 출하될수록 높은 품질을 유지할 가능성이 높음을 시사.
  • 줄기가 두껍고(stemThck), 생장 길이가 긴(grwtLt) 식물이 1등급 토마토 생산에 유리.
  • 반면, CO2와 미스트 사용이 많을수록 품질이 떨어지는 경향. 이산화탄소 농도 조절과 적절한 수분 관리가 중요할 가능성.