반응형 분류 전체보기67 빅데이터분석기사 제2유형 : ② 데이터 전처리 (결측치/이상치) 👍데이터 3개 불러오기import pandas as pdX_train = pd.read_csv("X_train.csv")y_train = pd.read_csv("y_train.csv")X_test = pd.read_csv("X_test.csv") 👍결측치 찾기 아래 함수를 통해 개수를 파악한다X_train.isnull().sum() 사진 삭제사진 설명을 입력하세요.👍결측치의 데이터 타입 확인하기 -> X_train.info()수치형(age, hous.per.week) 과 범주형(workclass,occupation,native.country)를 알 수 있다. 사진 삭제사진 설명을 입력하세요.👍결측값의 컬럼 고유 개수 확인하기 X_train['workclass].value_counts() # 이 .. 2024. 6. 4. 빅데이터분석기사 제2유형 : ① EDA 👍2유형 맛보기 머신러닝은 지도(분류/회귀), 비지도(군집/차원축소), 강화학습 세가지로 나뉜다. 빅데이터분석기사의 주요 유형은 '지도학습'에서 나온다. 분류 문제는 ➡️ RandomForest, Decision Tree, XGBoost회귀 문제는 ➡️ RandomForest, Linear Regression, XGBoost 👍 분석의 흐름 - 일반적으로 아래 3개면 모든 분석이 끝난다. model = 어떤 모델을 쓸 것인가? // Trainmodel.fit() // Trainmodel.predict() // 예측 validation&test 👍 분석 프로세스 정의(data) ➡️ EDA ➡️ 전처리(결측치/이상치) ➡️피처 엔지니어링(Min-max 스케일링, 인코딩, Z-score 등)➡️ .. 2024. 6. 4. 빅데이터 분석기사 - 1유형 예제문제 학습하기(결측치2) 문제4주어진 데이터에서 자료형(type)이 object인 컬럼은 삭제하고, 결측치는 0으로 대체한다.행 단위로 합한 다음 그 값이 3000보다 큰 값의 데이터 수를 구하시오 ('age', 'f1', 'f2', 'f5', 'views'의 각 행별 합)👍object 타입의 데이터만 추출하는 방법 + 컬럼명을 갖고옴 ➡️ df.select_dtypes(include='object').columns 👍데이터의 열과 행을 바꾸는 방법 ➡️ df= df.T# your codeimport pandas as pd import numpy as npdf=pd.read_csv("members.csv")#해설 --------------#object 타입을 선택하는 방법 > columns를 안적으면 모든 데이터를 갖고옴 .. 2024. 6. 3. 빅데이터 분석기사 - 1유형 예제문제 학습하기(결측치) 문제1f1컬럼의 결측치는 중앙 값으로 대체하고나머지 결측치가 있는 데이터(행)을 모두 제거하고,앞에서부터 70% 데이터 중 views 컬럼의 3사분위 수에서 1사분위 수를 뺀 값을 구하시오(단, 데이터 70% 지점은 정수형(int) 변환) 👍결측치를 확인하는 방법 ➡️ df.isnull().sum() 👍 결측치 처리 후 확인 개수 확인하기 ➡️ print(df.shape) 👍 결측치가 있는 행 모두 삭제하기 ➡️ df.dropna() 👍 사분위수 구하기 ➡️ df.quantile(.25) 👍 데이터의 70% 선택하기 ➡️ df = df[:len(df)*0.7] # your codeimport pandas as pd import numpy as npdf = pd.read_csv("members... 2024. 6. 2. 이전 1 ··· 6 7 8 9 10 11 12 ··· 17 다음 728x90 반응형