2025/02 20

8주차 TIL - 태블로의 데이터 시각화 방법

1. 학습 목표Tableau를 활용한 데이터 시각화 익히기다양한 그래프 유형별 특징과 활용법 이해효과적인 차트 선택법 및 데이터 분석 기법 학습2. 데이터 시각화 개요2-1. 데이터 사우루스데이터의 패턴이 동일해 보여도 시각화 방법에 따라 해석이 달라질 수 있음을 보여주는 예제.2-2. 효과적인 차트 선택법데이터를 효과적으로 전달하기 위해 적절한 차트 유형을 선택하는 방법을 설명.참고 자료: Chart Suggestions A Thought Scatter (Andrew Abela)2-3. Tableau 차트 소개Tableau에서 제공하는 다양한 차트 유형(24개) 및 활용법 정리.예시 차트 유형:막대 그래프(Bar Chart)선 그래프(Line Plot)파이 차트(Pie Chart)트리맵(Treemap)..

카테고리 없음 2025.02.14

8주차 TIL - 태블로 소개~

Tableau 소개2-1. Tableau 구조Tableau Prep: 데이터 전처리 담당Tableau Desktop: 데이터 시각화 수행Tableau Cloud (Online): SaaS 기반으로 Tableau Server 기능 제공Tableau Server: 대시보드 게시 및 배포 기능2-2. 실무에서 누가 사용할까?Creator: 원본 데이터 편집, 대시보드 편집 및 게시 가능Explorer: 대시보드 편집 및 게시 가능Viewer: 공유된 대시보드 보기만 가능주요 사용자는 데이터 분석가, BI 분석가, 데이터 엔지니어 등3. 실습 환경 준비Tableau 평가판 다운로드 가능Tableau Public vs Tableau Desktop 비교 (공유 방식 차이)Tableau Cloud 로그인 및 실습 진..

카테고리 없음 2025.02.13

8주차 TIL - 타블로 태블로 타블루

태블로(Tableau)를 처음 배우는 경우, 다음과 같은 핵심 개념과 기능을 중점적으로 익히면 효과적으로 활용할 수 있을 것 같다.1. 기본 개념 이해데이터 연결: 엑셀, CSV, 데이터베이스(SQL 등)와 연결하는 방법 익히기데이터 변환: 차원(Dimension)과 측정값(Measure)의 차이 이해하기필터(Filter)와 정렬(Sort): 데이터 시각화를 위한 필터링과 정렬 방식 학습2. 데이터 시각화 및 차트 유형기본 차트: 바 차트, 라인 차트, 히트맵, 트리맵, 스캐터 플롯 등 만들기맵 시각화: 지리적 데이터 활용한 지도(Map) 만들기테이블 & 하이라이트: 데이터 강조 및 테이블 형식 활용혼합 차트: 듀얼축 차트, 스택형 차트 등 결합된 시각화 기법3. 계산 및 분석 기능계산 필드(Calcul..

카테고리 없음 2025.02.12

7주차 TIL - 회귀모델 성능비교

본 회귀 분석에서는 **선형 모델(OLS 회귀)**을 활용하여 데이터의 관계를 평가하였으나, 여러 가지 문제점이 발견되었습니다.1️⃣ 모델 문제점 및 비선형성 가능성F-통계량 및 p-value가 NaN으로 나타남이는 선형 모델이 적절하지 않을 가능성이 높음을 시사하며, 회귀 분석이 정상적으로 수행되지 않았을 가능성이 큽니다.표준 오차(inf) 발생일부 회귀 계수의 표준 오차가 무한대(inf)로 나타나, 다중공선성 문제 또는 데이터 부족으로 인해 모델이 불안정할 가능성이 있습니다.R² = 1.000 (완벽한 결정계수) → 과적합 가능성R² 값이 1.0으로 나타났지만, 이는 모델이 훈련 데이터에 과적합(Overfitting)되었을 가능성이 큽니다.실제 예측력은 떨어질 가능성이 있어, 보다 일반화된 모델링이 ..

카테고리 없음 2025.02.11

7주차 TIL - 예측모델 성능 평가

# 필요한 함수 다시 정의 def evaluate_model(y_test, y_pred, model_name):     r2 = r2_score(y_test, y_pred)     mae = mean_absolute_error(y_test, y_pred)     rmse = mean_squared_error(y_test, y_pred, squared=False)     return {'Model': model_name, 'R² Score': r2, 'MAE': mae, 'RMSE': rmse} # Random Forest 모델 학습 (다시 정의 후 실행) rf = RandomForestRegressor(n_estimators=100, random_state=42) rf.fit(X_train, y_trai..

카테고리 없음 2025.02.10

7주차 TIL - 이산화탄소?

환경 변수와 생육 변수 간의 상관관계 히트맵을 생성했다. 이를 통해 다음과 같은 인사이트를 얻을 수 있다.CO₂ 사용량과 생육 변수:CO2_usage는 flowerTop(꽃 개수), grwtLt(생장 길이), hvstGrupp(수확 그룹 수)와 유의미한 양의 상관관계를 보인다.이는 CO₂ 공급이 토마토 생육 촉진에 긍정적인 영향을 미칠 가능성이 있음을 시사한다.난방 에너지 사용량과 생육 변수:heating_energy_usage는 stemThck(줄기 두께)와 약한 상관관계를 가지며, 일정 수준의 온도 조절이 생육에 영향을 줄 가능성이 있음.수확량과 에너지 사용량:hvstGrupp(수확 그룹 수)와 heating_energy_usage, CO2_usage 간의 연관성이 나타남.에너지를 적절히 투입할 경우..

카테고리 없음 2025.02.07

7주차 TIL - 변수와 가설을 넘어서~

해당 환경정보의 최적조건을 찾기 위해 머신러닝을 실시 결론적으로 최적조건을 적용하면 1등급 토마토 생산량이 늘어날 것이다.라는 가설을 토대로 프로젝트 데이터 분석📌 과실 생장(frtstGrupp)과 출하량(outtrn)의 관계 분석 결과시각적 분석: 과실 생장(frtstGrupp)이 증가할수록 출하량(outtrn)도 증가하는 경향이 뚜렷하게 나타남.상관계수: 0.6421 (강한 양의 상관관계)→ 과실 생장이 활발할수록 출하량이 증가할 가능성이 높음.# 다시 데이터 불러오기 import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # 데이터 로드 prod_df = pd.read_csv(prod_path, encoding="cp94..

카테고리 없음 2025.02.06

7주차 TIL - 틈메이러 네 이놈

가설 1: 난방 에너지 사용량이 증가하면 출하량이 증가할 것이다.근거: 적절한 온도를 유지하면 작물의 생장이 원활하게 진행될 가능성이 높음.검증 방법: heating_energy_usage와 outtrn의 상관관계 및 회귀 분석.가설 2: CO₂ 사용량이 많을수록 출하량이 감소할 것이다.근거: 앞선 상관관계 분석에서 CO₂ 사용량(CO2_usage)이 출하량과 음의 상관관계를 보임.검증 방법: CO2_usage와 outtrn 간의 관계 분석 및 시각화.가설 3: 미스트 사용량이 많을수록 출하량이 감소할 것이다.근거: 높은 습도는 병해 발생 위험을 증가시켜 작물 품질에 악영향을 미칠 가능성이 있음.검증 방법: mist_usage_time과 outtrn의 관계를 시계열 분석 및 상관 분석.가설 4: 물 사용..

카테고리 없음 2025.02.05

7주차 TIL - ML 마스터 클래스의 마지막

🔹 1. DBSCAN (Density-Based Spatial Clustering of Applications with Noise)💡 왜 필요한가? (K-means의 한계)K-means는 군집을 원형(Spherical)으로 가정 → 복잡한 형태의 군집(강처럼 구불구불한 군집 등)은 잘 분류하지 못함.모든 클러스터 크기가 비슷하다고 가정 → 실제 데이터에서는 밀도가 다양한 군집이 존재.모든 데이터가 군집에 포함되어야 함 → 이상치(Outlier)를 처리하는 기능이 부족함.➡ 해결책: DBSCAN→ 밀도 기반 접근법으로 데이터가 밀집된 영역을 군집으로 인식하고, 밀도가 낮은 영역을 노이즈(이상치)로 간주하는 방식.🔹 2. DBSCAN 작동 원리DBSCAN의 주요 개념:epsilon (ε): "이웃"을 ..

카테고리 없음 2025.02.04

6주차 - 데이터 숙련 종료!

과제를 진행하면서 느낀 점과 성찰해야 할 부분이번 과제를 통해 Breast Cancer 데이터셋을 분석하며 기초 통계 분석, 가설 검정, ANOVA 분석, 그리고 머신러닝 모델 구축까지 전반적인 데이터 분석 과정을 경험할 수 있었습니다.1. 데이터 분석 과정의 중요성 재확인각 특성(radius, perimeter, area 등)이 종양의 악성 여부에 미치는 영향을 다양한 방법으로 분석하면서, 단순한 평균 비교만으로는 데이터의 패턴을 완전히 이해하기 어렵다는 점을 다시 한번 깨달았습니다.기초 통계를 통해 데이터의 전반적인 특성을 파악하는 것이 중요하지만,가설 검정과 ANOVA를 통해 실제로 변수 간 차이가 유의미한지 통계적으로 검증하는 과정이 필수적이라는 점을 배웠습니다.2. 머신러닝 모델 적용의 직관적 ..

카테고리 없음 2025.02.03