본문 바로가기
반응형

IT&게임/빅데이터분석기사(빅분기)20

빅데이터분석기사 제2유형 : ③ 피처엔지니어 (스케일/인코딩) 데이터 불러오기와 전처리(2번에서 활용한 전처리)# 데이터 불러오기import pandas as pdX_train = pd.read_csv("X_train.csv")y_train =pd.read_csv("y_train.csv")X_test = pd.read_csv("X_test.csv")# 전처리# X_train데이터X_train['workclass'] = X_train['workclass'].fillna(X_train['workclass'].mode()[0])X_train['native.country'] = X_train['native.country'].fillna(X_train['native.country'].mode()[0])X_train['occupation'] = X_train['occupati.. 2024. 6. 6.
빅데이터분석기사 제2유형 : ② 데이터 전처리 (결측치/이상치) 👍데이터 3개 불러오기import pandas as pdX_train = pd.read_csv("X_train.csv")y_train = pd.read_csv("y_train.csv")X_test = pd.read_csv("X_test.csv")  👍결측치 찾기 아래 함수를 통해 개수를 파악한다X_train.isnull().sum() 사진 삭제사진 설명을 입력하세요.👍결측치의 데이터 타입 확인하기 -> X_train.info()수치형(age, hous.per.week) 과 범주형(workclass,occupation,native.country)를 알 수 있다. 사진 삭제사진 설명을 입력하세요.👍결측값의 컬럼 고유 개수 확인하기 X_train['workclass].value_counts() # 이 .. 2024. 6. 4.
빅데이터분석기사 제2유형 : ① EDA 👍2유형 맛보기 머신러닝은 지도(분류/회귀), 비지도(군집/차원축소), 강화학습 세가지로 나뉜다. 빅데이터분석기사의 주요 유형은 '지도학습'에서 나온다.  분류 문제는 ➡️ RandomForest, Decision Tree, XGBoost회귀 문제는 ➡️ RandomForest, Linear Regression, XGBoost 👍 분석의 흐름 - 일반적으로 아래 3개면 모든 분석이 끝난다. model = 어떤 모델을 쓸 것인가? // Trainmodel.fit()  // Trainmodel.predict() // 예측 validation&test  👍 분석 프로세스 정의(data) ➡️ EDA ➡️ 전처리(결측치/이상치) ➡️피처 엔지니어링(Min-max 스케일링, 인코딩, Z-score 등)➡️ .. 2024. 6. 4.
빅데이터 분석기사 - 1유형 예제문제 학습하기(결측치2) 문제4주어진 데이터에서 자료형(type)이 object인 컬럼은 삭제하고, 결측치는 0으로 대체한다.행 단위로 합한 다음 그 값이 3000보다 큰 값의 데이터 수를 구하시오 ('age', 'f1', 'f2', 'f5', 'views'의 각 행별 합)👍object 타입의 데이터만 추출하는 방법 + 컬럼명을 갖고옴 ➡️ df.select_dtypes(include='object').columns  👍데이터의 열과 행을 바꾸는 방법 ➡️ df= df.T# your codeimport pandas as pd import numpy as npdf=pd.read_csv("members.csv")#해설 --------------#object 타입을 선택하는 방법 > columns를 안적으면 모든 데이터를 갖고옴 .. 2024. 6. 3.
728x90
반응형