카테고리 없음

6주차 - 데이터 숙련 종료!

게임취업하고싶은 사람 2025. 2. 3. 20:44

과제를 진행하면서 느낀 점과 성찰해야 할 부분

이번 과제를 통해 Breast Cancer 데이터셋을 분석하며 기초 통계 분석, 가설 검정, ANOVA 분석, 그리고 머신러닝 모델 구축까지 전반적인 데이터 분석 과정을 경험할 수 있었습니다.

1. 데이터 분석 과정의 중요성 재확인

각 특성(radius, perimeter, area 등)이 종양의 악성 여부에 미치는 영향을 다양한 방법으로 분석하면서, 단순한 평균 비교만으로는 데이터의 패턴을 완전히 이해하기 어렵다는 점을 다시 한번 깨달았습니다.

  • 기초 통계를 통해 데이터의 전반적인 특성을 파악하는 것이 중요하지만,
  • 가설 검정과 ANOVA를 통해 실제로 변수 간 차이가 유의미한지 통계적으로 검증하는 과정이 필수적이라는 점을 배웠습니다.

2. 머신러닝 모델 적용의 직관적 해석

선형 회귀 분석을 통해 반지름과 면적 간의 관계를 수식으로 나타내는 경험을 하면서, 데이터의 패턴을 수치적으로 설명할 수 있는 능력의 중요성을 실감했습니다.

  • 결정계수(R²)가 매우 높아 반지름이 면적을 설명하는 데 매우 효과적인 변수임을 확인할 수 있었으며,
  • 이처럼 회귀 모델이 단순히 예측하는 도구가 아니라, 데이터의 구조를 이해하는 데에도 강력한 역할을 한다는 점을 배웠습니다.

3. 스스로 성찰해야 할 부분

  1. 데이터 전처리 및 시각화의 중요성
    • 실습 과정에서 여러 변수를 분석하며, 시각화(예: 히스토그램, 박스플롯)를 통해 데이터의 분포를 먼저 살펴보는 과정이 필요하다는 점을 깨달았습니다.
    • 앞으로는 EDA(탐색적 데이터 분석)를 더 체계적으로 진행한 후 본격적인 분석을 시작해야겠다는 생각이 들었습니다.
  2. 통계적 해석 능력 강화 필요
    • p-value나 F-statistic을 단순히 계산하는 것뿐만 아니라,
    • 이 값이 어떤 의미를 가지는지, 데이터의 실제 특성과 어떻게 연결되는지를 더 깊이 고민해야 한다는 점을 느꼈습니다.
  3. 머신러닝 모델에 대한 직관적인 이해 부족
    • 선형 회귀 외에도 다른 머신러닝 모델(예: 랜덤 포레스트, 로지스틱 회귀 등)을 적용해 비교하는 과정이 있었다면 더욱 의미 있는 실습이 되었을 것 같습니다.
    • 앞으로는 다양한 모델을 활용해보고, 각 모델이 데이터에서 어떤 패턴을 학습하는지 비교 분석하는 연습이 필요하다고 느꼈습니다.

결론

이번 실습을 통해 단순한 데이터 분석을 넘어, 통계적 검정과 머신러닝을 활용하여 데이터의 패턴을 체계적으로 분석하는 과정의 중요성을 배울 수 있었습니다.
다만, 더 다양한 모델을 실험해보고, 시각화 및 해석을 보강하는 연습이 필요하며, 이를 보완해 나간다면 보다 깊이 있는 데이터 분석을 수행할 수 있을 것이라 생각합니다. 😊