카테고리 없음

5주차 TIL - 통계

게임취업하고싶은 사람 2025. 1. 17. 20:59

2. 필수 라이브러리

통계 작업에서 주로 사용하는 Python 라이브러리는 다음과 같습니다:

  • 기본 데이터 처리 및 시각화:
    • numpy: 수학 및 배열 연산
    • pandas: 데이터 프레임 및 CSV, Excel 파일 처리
    • matplotlib: 기본적인 데이터 시각화
    • seaborn: 고급 시각화 (통계적 그래프)
  • 통계 분석:
    • scipy: 통계 및 과학 계산 함수
    • statsmodels: 통계 모델 및 추정
    • pingouin: 쉬운 통계 테스트 제공
    • researchpy: 데이터 분석 및 결과 해석 보조
  • 머신러닝 및 고급 분석 (선택):
    • scikit-learn: 머신러닝 모델 및 데이터 전처리
    • tensorflow 또는 pytorch: 딥러닝 (통계적 분석 외 추가적으로 학습 가능)

3. 통계 기본 지식

Python으로 통계를 다루기 전에 다음 개념에 익숙해지는 것이 좋습니다:

  • 기초 통계:
    • 평균, 중앙값, 최빈값
    • 분산, 표준편차
    • 상관관계 및 공분산
  • 통계적 가설 검정:
    • T-검정 (t-test)
    • ANOVA (분산 분석)
    • 카이제곱 검정
  • 확률분포:
    • 정규분포, 이항분포, 포아송분포
    • 누적분포함수 (CDF), 확률밀도함수 (PDF)
  • 회귀 분석:
    • 단순/다중 선형회귀
    • 로지스틱 회귀

4. 데이터셋 활용

  • 기본 통계 공부를 위해 사용 가능한 샘플 데이터셋:
    • seaborn의 내장 데이터셋 (e.g., iris, tips)
    • scikit-learn의 내장 데이터셋 (e.g., boston, diabetes)
    • Kaggle이나 UCI 머신러닝 데이터셋에서 무료 데이터셋 다운로드

5. 학습 리소스

  • 온라인 튜토리얼: Python 통계 및 데이터 분석 강좌를 찾아보세요 (e.g., Coursera, Udemy, YouTube).
  • 문서 및 공식 가이드:
  • 책 추천:
    • Python for Data Analysis (Wes McKinney)
    • Think Stats (Allen B. Downey)