카테고리 없음
9주차 TIL - 아라비카 커피에 대한 도메인 지식
게임취업하고싶은 사람
2025. 2. 27. 20:35
저희가 다루게 된 데이터에는
아라비카 커피와 관련된 품질 및 생산 정보를 포함하고 있고
주요 컬럼을 분석한 결과, 다음과 같은 정보를 포함하고 있어용.
- 생산 관련 정보
- Species: 커피 품종
- Owner, Company, Producer: 소유자 및 생산자 정보
- Country.of.Origin, Region, Farm.Name: 생산 국가 및 지역 정보
- Altitude, altitude_low_meters, altitude_high_meters, altitude_mean_meters: 재배지의 해발 고도
- Processing.Method: 가공 방법 (예: Washed, Natural 등)
- 품질 평가 관련 정보
- Aroma, Flavor, Aftertaste, Acidity, Body, Balance: 커피의 주요 관능적 특성 점수
- Uniformity, Clean.Cup, Sweetness, Cupper.Points, Total.Cup.Points: 품질 평가 관련 세부 점수
- Moisture: 수분 함량
- Category.One.Defects, Category.Two.Defects, Quakers: 결점두(Defects) 정보
- 거래 및 인증 관련 정보
- Number.of.Bags, Bag.Weight: 수출·유통 관련 정보
- Certification.Body, Certification.Address, Certification.Contact: 인증 기관 정보
- Expiration: 인증 만료일
- 기타 정보
- Grading.Date, Harvest.Year: 커피의 평가 연도 및 수확 연도
- Color: 생두의 색상
가설 설정 아이디어
이 데이터를 활용하여 여러 가설을 정할 수 있습니다. 몇 가지 예시를 들면:
- 고도와 커피 품질의 관계
- 가설: 해발 고도가 높은 지역에서 생산된 커피는 품질 점수(Total.Cup.Points)가 높을 것이다.
- 분석 방법: altitude_mean_meters와 Total.Cup.Points 간의 상관 관계 분석
- 가공 방식과 커피의 향미 특성
- 가설: 가공 방식(Processing.Method)에 따라 커피의 Aroma, Flavor, Aftertaste 등 감각적 평가 점수가 달라질 것이다.
- 분석 방법: Processing.Method별 Aroma, Flavor 등의 평균 비교(ANOVA 또는 t-검정)
- 국가별 커피 품질 차이
- 가설: 특정 국가(예: 에티오피아, 콜롬비아)의 커피는 다른 국가에 비해 높은 Total.Cup.Points를 가진다.
- 분석 방법: Country.of.Origin을 기준으로 점수 분포 비교(박스플롯, 통계 검정)
- 결점두(Defects)와 커피 품질의 관계
- 가설: 결점두(Category.One.Defects, Category.Two.Defects, Quakers)의 수가 많을수록 커피 품질 점수(Total.Cup.Points)가 낮아질 것이다.
- 분석 방법: 결점두 개수와 Total.Cup.Points의 회귀 분석
- 수분 함량(Moisture)과 커피의 품질
- 가설: 적정 수분 함량(예: 10-12%)을 가진 커피가 더 높은 점수를 받을 것이다.
- 분석 방법: Moisture 구간별 Total.Cup.Points의 차이 비교
이 외에도 특정 국가나 특정 품종의 커피가 더 좋은 품질을 나타내는지 분석하거나,
특정 연도별 트렌드를 분석할 수도 있습니다.