AI 4

2024 생명연구자원 AI활용 경진대회 후기 2 (코드작성기)

결론적으론 곽봉팔님의 xgboost가 f1 score 0.23점으로 팀 내에서 성능이 가장 좋았고,제 코드는 0.17점이 최대였습니다. 미삭님의 전처리파일이 성능을 높이는데 큰 도움을 주셨고, 최종 코드만 업로드합니다. import pandas as pdimport numpy as npfrom sklearn.preprocessing import LabelEncoder, OrdinalEncoder, StandardScalerfrom sklearn.model_selection import KFold, GridSearchCVfrom sklearn.metrics import accuracy_scorefrom sklearn.ensemble import VotingClassifierfrom sklearn.linea..

말하는 감자 2024.10.25

2024 생명연구자원 AI활용 경진대회 후기 1 (feat.맨땅에 도메인지식 습득하기)

안녕하세요.처음으로 실황 해커톤에 참여하고 완전히 모르는 도메인 지식을 습득하는 과정을 겪었는데,결과적으로 성능은 나오지 않았지만 도메인 지식을 습득하는 과정이 유의미했다고 보기에 기록을 남깁니다. 대회 목표는 유전체 데이터 변이 정보를 활용해 암종을 분류하는 알고리즘을 개발하는 것입니다.저희 팀은1. 유전체 데이터라는 말을 처음 들었고2. 암종에 대해서도 모르는 상태였으며3. 데이터를 봐도 전처리에 대해 감을 잡지 못하는도메인지식이 전무한 상황이였습니다. 그래서 우선 유전체 데이터에 관해 간략한 검색을 해봤고, WT(Wild Type)데이터는 변이가 없는 유전체이므로 제거해도 된다고 판단해 1차 전처리로 모든 행이 WT인 94개의 컬럼을 제거한 후 전처리 방법과 데이터 분석에 대해 알아보기 시작했습니다..

말하는 감자 2024.10.25

쇼핑몰 지점별 매출액 예측 AI 해커톤

13번의 리셋과 셀 수 없는 자잘한 수정을 거친 애증의 코드입니다.결과적으로 프라이빗 점수가 충격 그 자체였기때문에 13개의 파일을 다 정리해서 올리지 않고 최고점수를 보여줬던 코드만 공개합니다. 이 코드가 나오기까지의 과정은 창피하니까 깨끗하게 정리된 코드만 올려둡니다. import pandas as pdimport numpy as npimport warningswarnings.filterwarnings("ignore")from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScalerfrom sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearch..

말하는 감자 2024.10.15

고객 대출등급 분류 AI 해커톤

데이콘 트랙 하면서 했던 해커톤인데 자꾸 시험성적 미달로 떨어져서 결국 연습만 한 해커톤...train.csv [파일] 고객 관련 금융 정보ID : 대출 고객의 고유 ID대출등급 : 예측 목표test.csv [파일]고객 관련 금융 정보ID : 대출 고객의 고유 ID대출등급이 존재하지 않음sample_submission.csv [파일] - 제출 양식ID : 대출 고객의 고유 ID대출등급 : test.csv에서 제공된 고객의 대출등급을 예측하여 기입데이터 정보입니다. import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import LabelEncoder, StandardScalerfro..

말하는 감자 2024.10.15