[데이터 셋] → 데이터셋 업로드하기 선택
(NASA 소행성 유해 여부 데이터 다운로드 - https://www.kaggle.com/datasets/sameepvani/nasa-nearest-earth-objects )
→ CSV파일을 zip 파일로 압축하여 업로드 → 데이터셋 이름과 설명 추가
[데이터 셋] → NASA 데이터셋 선택
→ 우측 상단 ‘전처리 하기' 선택 (도움말 참고)
논리형 변수는 입력 변수로 사용가능하지만 출력 변수는 정수형만 가능하기 때문에 출력 변수로 사용할 논리형 변수는 전처리 과정을 거쳐야합니다.
문자형과 논리형(False, Ture)들은 Label encoding 과정을 거려줍니다.
orbiting_body, sentry_object 변수는 내부 항목이 다양하지 않기 때문에 One-hot-encoding으로 전처리 할 수 있지만 hazardous 변수는 출력 변수로 활용해야하므로 Label encoding을 해주어야 합니다.
변수들의 범위 차이를 줄이기 위해 값을 조정해주는 스케일링 과정이 필요합니다.
전처리 완료 후 우측 상단에 ‘학습 데이터로 내보내기’ 선택
학습 하기
입력 변수 : est_diameter_min, est_diameter_max, relative_velocity, absolute_magnitude, orbiting_body_LabelEncoder, sentry_object_LabelEncoder
결과 변수 : hazardous_LabelEncoder
결과 비교