데이터셋에는 총 1005개의 항목과 31개의 열이 포함되어 있습니다. 주요 열은 다음과 같습니다:
- 지역(Region), 국가(Country.of.Origin), 고도(Altitude), 연도(Harvest.Year) 등과 같은 커피 생산과 관련된 메타데이터.
- 그라인딩 점수(Aroma, Flavor, Aftertaste, Acidity 등), 전체 컵 점수(Cupper.Points, Total.Cup.Points) 등과 같은 품질 관련 지표.
- **결함(Category.One.Defects, Category.Two.Defects, Quakers)**과 같은 품질 문제.
이 데이터를 바탕으로 설정할 수 있는 구체적인 가설 몇 가지는 다음과 같습니다:
- 고도가 커피 품질에 미치는 영향
- 고도가 높은 지역에서 재배된 커피가 더 높은 컵 점수를 받을 가능성이 있다.
- 가설: "고도가 높은 지역에서 생산된 커피는 낮은 고도의 커피보다 총 컵 점수가 높을 것이다."
- 가공 방법과 커피 품질
- 다른 가공 방법이 커피의 품질(아로마, 맛 등)에 영향을 미친다.
- 가설: "가공 방법에 따라 커피의 맛 점수(Flavor)가 차이가 있을 것이다."
- 생산 연도와 품질
- 커피 생산 연도에 따라 품질이 달라질 수 있다.
- 가설: "커피 생산 연도가 오래될수록 품질 점수(특히 Total.Cup.Points)가 낮아질 것이다."
- 지역별 품질 차이
- 커피가 재배되는 지역이 품질에 영향을 미친다.
- 가설: "Ethiopia에서 생산된 커피는 다른 나라에서 생산된 커피보다 평균적으로 높은 품질 점수를 받을 것이다."
이러한 가설들은 데이터의 여러 변수 간 상관관계를 분석함으로써 검증할 수 있습니다. 특정 변수 간 관계를 살펴보거나 통계적 방법을 사용하여 가설을 테스트할 수 있어요