카테고리 없음
5주차 TIL - 통계
게임취업하고싶은 사람
2025. 1. 17. 20:59
2. 필수 라이브러리
통계 작업에서 주로 사용하는 Python 라이브러리는 다음과 같습니다:
- 기본 데이터 처리 및 시각화:
- numpy: 수학 및 배열 연산
- pandas: 데이터 프레임 및 CSV, Excel 파일 처리
- matplotlib: 기본적인 데이터 시각화
- seaborn: 고급 시각화 (통계적 그래프)
- 통계 분석:
- scipy: 통계 및 과학 계산 함수
- statsmodels: 통계 모델 및 추정
- pingouin: 쉬운 통계 테스트 제공
- researchpy: 데이터 분석 및 결과 해석 보조
- 머신러닝 및 고급 분석 (선택):
- scikit-learn: 머신러닝 모델 및 데이터 전처리
- tensorflow 또는 pytorch: 딥러닝 (통계적 분석 외 추가적으로 학습 가능)
3. 통계 기본 지식
Python으로 통계를 다루기 전에 다음 개념에 익숙해지는 것이 좋습니다:
- 기초 통계:
- 평균, 중앙값, 최빈값
- 분산, 표준편차
- 상관관계 및 공분산
- 통계적 가설 검정:
- T-검정 (t-test)
- ANOVA (분산 분석)
- 카이제곱 검정
- 확률분포:
- 정규분포, 이항분포, 포아송분포
- 누적분포함수 (CDF), 확률밀도함수 (PDF)
- 회귀 분석:
- 단순/다중 선형회귀
- 로지스틱 회귀
4. 데이터셋 활용
- 기본 통계 공부를 위해 사용 가능한 샘플 데이터셋:
- seaborn의 내장 데이터셋 (e.g., iris, tips)
- scikit-learn의 내장 데이터셋 (e.g., boston, diabetes)
- Kaggle이나 UCI 머신러닝 데이터셋에서 무료 데이터셋 다운로드