1. NASA.cvs.zip 파일 업로드하기

[데이터 셋] → 데이터셋 업로드하기 선택

(NASA 소행성 유해 여부 데이터 다운로드 - https://www.kaggle.com/datasets/sameepvani/nasa-nearest-earth-objects )

→ CSV파일을 zip 파일로 압축하여 업로드 → 데이터셋 이름과 설명 추가

스크린샷 2022-08-03 오후 3.21.16.png

스크린샷 2022-08-03 오후 3.20.47.png

  1. 전처리 하기

[데이터 셋] → NASA 데이터셋 선택

→ 우측 상단 ‘전처리 하기' 선택 (도움말 참고)

스크린샷 2022-08-03 오후 3.27.59.png

  1. 스캐일링

스크린샷 2022-08-03 오후 3.24.43.png

논리형 변수는 입력 변수로 사용가능하지만 출력 변수는 정수형만 가능하기 때문에 출력 변수로 사용할 논리형 변수는 전처리 과정을 거쳐야합니다.

문자형과 논리형(False, Ture)들은 Label encoding 과정을 거려줍니다.

orbiting_body, sentry_object 변수는 내부 항목이 다양하지 않기 때문에 One-hot-encoding으로 전처리 할 수 있지만 hazardous 변수는 출력 변수로 활용해야하므로 Label encoding을 해주어야 합니다.

  1. 스케일링

스크린샷 2022-08-03 오후 3.26.35.png

변수들의 범위 차이를 줄이기 위해 값을 조정해주는 스케일링 과정이 필요합니다.

전처리 완료 후 우측 상단에 ‘학습 데이터로 내보내기’ 선택

  1. 학습 하기

    스크린샷 2022-08-03 오후 3.29.41.png

입력 변수 : est_diameter_min, est_diameter_max, relative_velocity, absolute_magnitude, orbiting_body_LabelEncoder, sentry_object_LabelEncoder

결과 변수 : hazardous_LabelEncoder

  1. 결과 비교

    스크린샷 2022-08-04 오전 10.15.58.png