카테고리 없음

6주차 TIL - 머신러닝 입문했습니다

게임취업하고싶은 사람 2025. 1. 22. 20:23

그전에 통계학에서 배운 카이제곱 검정과

선형회귀가 이해가 되질 않아 나름대로 정리해보았다

1. 카이제곱검정

  • 목적: 두 범주형 변수 간의 관계가 있는지 검정.
  • 데이터 유형: 범주형 데이터(예: 성별, 취미, 설문 응답 결과 등).
    • 데이터를 교차표(contingency table)로 정리하여 변수 간의 독립 여부를 확인.
  • 주로 사용하는 경우:
    • 독립성 검정: 두 범주형 변수(예: 성별과 흡연 여부)가 서로 독립적인지 확인할 때.
    • 적합도 검정: 관찰된 빈도(Observed frequency)가 기대 빈도(Expected frequency)와 얼마나 차이가 나는지 확인할 때.
  • 예시:
    • 질문: 성별(남성/여성)과 취미(독서/운동/영화감상) 간에 관계가 있을까?
    • 데이터: 교차표독서운동영화감상
      남성 30 50 40
      여성 70 20 60
    • 해석: 카이제곱검정을 사용해 성별과 취미의 관계를 분석.

2. 선형회귀

  • 목적: 한 연속형 종속 변수(타겟 변수, Y)를 하나 이상의 독립 변수(X)로 예측하거나 변수 간의 선형적 관계를 설명.
  • 데이터 유형: 연속형 데이터가 포함되어 있어야 함.
    • 독립 변수(X): 연속형 또는 범주형(더미 변수로 변환 필요).
    • 종속 변수(Y): 연속형.
  • 주로 사용하는 경우:
    • 변수 간의 선형적 관계를 파악하고 예측 모델을 만들고자 할 때.
    • 다중 변수의 영향을 통제하며 결과를 분석할 때.
  • 예시:
    • 질문: 공부 시간(X)에 따라 시험 점수(Y)가 얼마나 달라질까?
    • 데이터:공부 시간(X)시험 점수(Y)
      2 60
      4 75
      6 85
      • 모델: Y=β0+β1X+ϵY = \beta_0 + \beta_1 X + \epsilon
        (시험 점수 = 상수 + 공부 시간 × 계수 + 오차)
    • 해석: 공부 시간이 증가하면 점수가 선형적으로 증가하는지 확인.

요약

기법데이터 유형주 목적예시

카이제곱검정 범주형 데이터 변수 간 독립 여부 또는 빈도 적합도 검정 성별과 흡연 여부의 관계 검정
선형회귀 연속형(종속 변수), 범주형/연속형(독립 변수) 변수 간 선형적 관계 분석 및 예측 모델 생성 공부 시간과 시험 점수의 관계 분석 및 예측

 


 

머신러닝의 주요 특징

  1. 데이터 기반 학습: 규칙을 사람이 직접 설계하는 대신, 데이터로부터 규칙과 패턴을 자동으로 학습.
  2. 반복적 개선: 새로운 데이터가 추가되면 모델을 계속 학습시켜 성능을 향상시킬 수 있음.
  3. 다양한 적용 분야: 머신러닝은 이미지 인식, 음성 처리, 자연어 처리, 추천 시스템, 의료 진단 등 다양한 분야에 적용 가능.

머신러닝의 정의를 간단히 표현한 문구들

  1. Tom M. Mitchell의 정의:
    “컴퓨터 프로그램이 어떤 작업(T)에서 성능(P)을 데이터(D)를 사용하여 스스로 개선시키는 능력”
    예: 이메일 스팸 필터가 더 많은 데이터를 학습하여 스팸 이메일을 더 정확히 분류.
  2. Arthur Samuel의 정의:
    "명시적으로 프로그래밍하지 않고 컴퓨터가 학습할 수 있는 능력."
    예: 체스 프로그램이 스스로 게임 전략을 배우는 것.

머신러닝의 분류

머신러닝은 학습 방법에 따라 세 가지로 분류됩니다:

  1. 지도 학습(Supervised Learning):
    • 특징: 입력 데이터와 함께 정답(레이블)이 제공됨.
    • 목표: 입력 데이터(X)에서 정답(Y)을 예측하는 모델을 학습.
    • 예시:
      • 스팸 메일 분류(스팸/비스팸)
      • 주택 가격 예측
  2. 비지도 학습(Unsupervised Learning):
    • 특징: 정답(레이블) 없이 데이터만 제공.
    • 목표: 데이터의 구조나 패턴을 파악.
    • 예시:
      • 고객 세분화(비슷한 고객 그룹 찾기)
      • 데이터 압축(PCA)
  3. 강화 학습(Reinforcement Learning):
    • 특징: 에이전트가 환경과 상호작용하며 보상을 최대화하도록 학습.
    • 목표: 행동(Policy)을 학습하여 장기적인 보상을 극대화.
    • 예시:
      • 자율주행차
      • 게임 AI(체스, 바둑)

머신러닝의 활용 사례

  • 이미지 및 음성 인식: 얼굴 인식, 음성 명령 처리.
  • 추천 시스템: 유튜브, 넷플릭스, 아마존의 개인화 추천.
  • 의료 진단: 질병 예측 및 분석.
  • 금융: 사기 탐지, 주식 가격 예측.
  • 자율주행: 차량의 센서 데이터를 기반으로 주행 제어.

 

 

통계학과 머신러닝의 차이와 보완적 활용

특징통계학머신러닝

목표 가설 검정, 데이터 이해 예측, 패턴 발견, 자동화
주요 기법 회귀 분석, t-검정, ANOVA, 카이제곱검정 신경망, 의사결정나무, 서포트 벡터 머신(SVM) 등
데이터 규모 소규모 데이터에 적합 대규모 데이터 처리에 유리
결과 해석 결과의 통계적 유의성과 신뢰성 강조 결과를 예측하는 데 초점(설명 가능성은 상대적으로 낮음)
활용 분야 의료 통계, 사회 과학, 경제학 자율주행, 이미지 인식, 추천 시스템 등

보완적 활용:

  • 통계학은 데이터의 특성과 관계를 파악해 머신러닝 모델 설계에 도움을 줄 수 있음.
  • 머신러닝은 통계적 기법으로 처리하기 어려운 대규모 데이터를 분석하고 실시간 처리에 강점.

#통계학과 머신러닝의 실제 사례

  1. 의료:
    • 통계학: 약물 실험 결과가 유의미한지 검증.
    • 머신러닝: 환자 데이터를 바탕으로 질병 발생 가능성 예측.
  2. 마케팅:
    • 통계학: 특정 캠페인의 효과를 가설 검정을 통해 평가.
    • 머신러닝: 고객의 구매 행동을 예측하고 개인화된 추천 제공.
  3. 금융:
    • 통계학: 경제 지표와 수익률 간의 관계 분석.
    • 머신러닝: 실시간 거래 데이터로 사기 탐지.