본문 바로가기
반응형

전체 글67

빅데이터분석기사 제2유형 : 분류문제 예제1 신용카드서비스를 떠나는 고객을 찾아라나이, 급여, 결혼 상태, 신용 카드 한도, 신용 카드 카테고리 등의 컬럼이 있음평가: ROC-AUC, 정확도(Accuracy), F1, 정밀도(Precision), 재현율(Recall)을 구하시오target : Attrition_Flag (1:이탈, 0:유지)csv파일 생성 : 수험번호.csv (예시 아래 참조)CLIENTNUM,Attrition_Flag 788544108,0.633 719356008,0.123 712142733,0.355 데이터불러오기 import pandas as pdtrain = pd.read_csv('train.csv')test= pd.read_csv('test.csv')train.head(5)#데이터의 크기를 확인했더니, train에는 타겟값.. 2024. 6. 7.
빅데이터분석기사 제2유형 : ⑥ 평가지표 이진분류 평가지표# 머신러닝 예시 코드import pandas as pdfrom sklearn.ensemble import RandomForestClassifier# traintrain = pd.DataFrame({ 'f1': [2, 3, 5, 7, 11, 13, 17, 19, 23, 29], 'f2': [30, 28, 26, 24, 22, 20, 18, 16, 14, 12], 'target': ['A', 'A', 'A', 'B', 'B', 'A', 'A', 'A', 'A', 'B']})# testtest = pd.DataFrame({ 'f1': [7, 9, 15], 'f2': [23, 18, 26]})# target 데이터 분리target = train.pop('target'.. 2024. 6. 6.
빅데이터분석기사 제2유형 : ④ 머신러닝 (분류) 머신러닝의 기본 프로세스 문제정의, 라이브러리/데이터 불러오기탐색적 데이터 분석 (EDA)데이터 전처리피처엔지니어링(Train/Validation 나누기)모델 선택/훈련/평가/최적화예측(csv 생성) 이번에 코딩 할 베이스라인1문제정의, 라이브러리 및 데이터 불러오기데이터 전처리 (단순 일괄 처리)모델 선택(, 훈련평가이번에 코딩 할 베이스라인2훈련/검증용 데이터 분리모델 선택, 훈련의사결정나무랜덤포레스트XGBoost평가문제1" 0""> 50K -> 1"평가: 정확도- 성인 인구 조사 소득 예측(분류)- 50K보다 상위 모델은 1 (상위소득) 이하는 0(하위소득) 으로 측정하라 데이터 불러오기, 샘플 체크, 크기 확인하기 # 라이브러리 및 데이터 불러오기import pandas as pdX_train=p.. 2024. 6. 6.
빅데이터분석기사 제2유형 : ③ 피처엔지니어 (스케일/인코딩) 데이터 불러오기와 전처리(2번에서 활용한 전처리)# 데이터 불러오기import pandas as pdX_train = pd.read_csv("X_train.csv")y_train =pd.read_csv("y_train.csv")X_test = pd.read_csv("X_test.csv")# 전처리# X_train데이터X_train['workclass'] = X_train['workclass'].fillna(X_train['workclass'].mode()[0])X_train['native.country'] = X_train['native.country'].fillna(X_train['native.country'].mode()[0])X_train['occupation'] = X_train['occupati.. 2024. 6. 6.
728x90
반응형