본문 바로가기
반응형

IT&게임/빅데이터분석기사(빅분기)20

빅분기 작업형2 기출 정리 ※ 본 내용은 퇴근후딴짓 강의를 학습하며 참고하여 작성된 내용입니다.  이진분류(기출3회)# 1. 문제정의# 평가: roc-auc# target: TravelInsurance# 최종파일: result.csv(컬럼 1개 pred, 1확률값)# 2. 라이브러리 및 데이터 불러오기import pandas as pdtrain = pd.read_csv("3_train.csv")test = pd.read_csv("3_test.csv")# 3. 탐색적 데이터 분석(EDA)# 우리가 예측해야하는것도 491개라는걸 기억하print("===== 데이터 크기 =====")print("Train Shape:", train.shape)print("Test Shape:", test.shape)print("===== train 데.. 2024. 6. 18.
인코딩 정리(원핫인코딩/레이블인코딩) ※ 본내용은 퇴근후딴짓 강의를 참고하였습니다 인코딩 정리전에는 타겟을 미리 pop으로 빼줌  개인적인 의견원핫 인코딩: 카테고리 10개 미만레이블 인코딩: 카테고리 10개 이상 1. train과 test 데이터에서 범주형 컬럼의 카테고리가 같을 때- 원핫 or 레이블 둘 다 상관없음 import pandas as pdtrain = pd.DataFrame({ '과일': ['사과', '배', '포도'], '색상': ['빨강', '노랑', '보라'], '가격': [5000, 7000, 10000], 'target': ['a', 'a', 'b']})test = pd.DataFrame({ '과일': ['사과', '배', '포도'], '색상': ['빨강', '노랑', '보라'], .. 2024. 6. 18.
작업형2 유형 참고(lightBGM-분류/회귀) light BGM은 인코딩이 필요없음 ! 결측치도 처리 안해도 됨 (오류나면 해주셈)파라미터 튜닝은 max_depth =5 n_estimators=400, learning_rate=0.02 https://dataq.goorm.io/exam/116674/%EC%B2%B4%ED%97%98%ED%95%98%EA%B8%B0/quiz/2(체험) 제1유형 (풀이용) - 빅데이터분석기사 실기 체험제공된 데이터(data/mtcars.csv)의 qsec 칼럼을 최소-최대 척도(Min-Max Scale)로 변환한 후 0.5보다 큰 값을 가지는 레코드 수를【제출 형식】에 맞춰 답안 작성 페이지에 입력하시오.【제출 형식】 ㉠정수(integer)로 입력 (단, 소수점을 포함한 경우 소수점 첫째 자리에서 반올림하여 계산) ㉡ 정.. 2024. 6. 18.
[빅분기] 여러가지 에러 케이스 ※ 본내용은 퇴근후딴짓 강의를 참고하였습니다. # 라이브러리 및 데이러 불러오기import pandas as pd# 와인 데이터 로드from sklearn.datasets import load_winewine = load_wine()df = pd.DataFrame(wine.data, columns=wine.feature_names)df['target'] = wine.targetdf.head()https://bit.ly/3H64wpG  에러1. 스케일링# 에러 코드import pandas as pdfrom sklearn.datasets import load_winewine = load_wine()df = pd.DataFrame(wine.data, columns=wine.feature_names)df['ta.. 2024. 6. 18.
728x90
반응형