반응형 IT&게임27 빅데이터분석기사 제2유형 : ④ 머신러닝 (분류) 머신러닝의 기본 프로세스 문제정의, 라이브러리/데이터 불러오기탐색적 데이터 분석 (EDA)데이터 전처리피처엔지니어링(Train/Validation 나누기)모델 선택/훈련/평가/최적화예측(csv 생성) 이번에 코딩 할 베이스라인1문제정의, 라이브러리 및 데이터 불러오기데이터 전처리 (단순 일괄 처리)모델 선택(, 훈련평가이번에 코딩 할 베이스라인2훈련/검증용 데이터 분리모델 선택, 훈련의사결정나무랜덤포레스트XGBoost평가문제1" 0""> 50K -> 1"평가: 정확도- 성인 인구 조사 소득 예측(분류)- 50K보다 상위 모델은 1 (상위소득) 이하는 0(하위소득) 으로 측정하라 데이터 불러오기, 샘플 체크, 크기 확인하기 # 라이브러리 및 데이터 불러오기import pandas as pdX_train=p.. 2024. 6. 6. 빅데이터분석기사 제2유형 : ③ 피처엔지니어 (스케일/인코딩) 데이터 불러오기와 전처리(2번에서 활용한 전처리)# 데이터 불러오기import pandas as pdX_train = pd.read_csv("X_train.csv")y_train =pd.read_csv("y_train.csv")X_test = pd.read_csv("X_test.csv")# 전처리# X_train데이터X_train['workclass'] = X_train['workclass'].fillna(X_train['workclass'].mode()[0])X_train['native.country'] = X_train['native.country'].fillna(X_train['native.country'].mode()[0])X_train['occupation'] = X_train['occupati.. 2024. 6. 6. 빅데이터분석기사 제2유형 : ② 데이터 전처리 (결측치/이상치) 👍데이터 3개 불러오기import pandas as pdX_train = pd.read_csv("X_train.csv")y_train = pd.read_csv("y_train.csv")X_test = pd.read_csv("X_test.csv") 👍결측치 찾기 아래 함수를 통해 개수를 파악한다X_train.isnull().sum() 사진 삭제사진 설명을 입력하세요.👍결측치의 데이터 타입 확인하기 -> X_train.info()수치형(age, hous.per.week) 과 범주형(workclass,occupation,native.country)를 알 수 있다. 사진 삭제사진 설명을 입력하세요.👍결측값의 컬럼 고유 개수 확인하기 X_train['workclass].value_counts() # 이 .. 2024. 6. 4. 빅데이터분석기사 제2유형 : ① EDA 👍2유형 맛보기 머신러닝은 지도(분류/회귀), 비지도(군집/차원축소), 강화학습 세가지로 나뉜다. 빅데이터분석기사의 주요 유형은 '지도학습'에서 나온다. 분류 문제는 ➡️ RandomForest, Decision Tree, XGBoost회귀 문제는 ➡️ RandomForest, Linear Regression, XGBoost 👍 분석의 흐름 - 일반적으로 아래 3개면 모든 분석이 끝난다. model = 어떤 모델을 쓸 것인가? // Trainmodel.fit() // Trainmodel.predict() // 예측 validation&test 👍 분석 프로세스 정의(data) ➡️ EDA ➡️ 전처리(결측치/이상치) ➡️피처 엔지니어링(Min-max 스케일링, 인코딩, Z-score 등)➡️ .. 2024. 6. 4. 이전 1 2 3 4 5 6 7 다음 728x90 반응형