1. WineQT.csv.zip 압축 파일 업로드하기

[데이터 셋] → 데이터셋 업로드하기 선택

(와인 Quality 데이터셋 다운로드 - https://www.kaggle.com/datasets/yasserh/wine-quality-dataset)

→ CSV파일을 zip 파일로 압축하여 업로드 → 데이터셋 이름과 설명 추가

스크린샷 2022-08-03 오후 3.21.16.png

스크린샷 2022-08-02 오전 9.21.19.png

  1. 전처리 하기

[데이터 셋] → WineQT 데이터셋 선택

→ 우측 상단 ‘전처리 하기' 선택 (도움말 참고)

스크린샷 2022-08-02 오전 9.29.36.png

  1. 스케일링

스크린샷 2022-08-02 오전 9.33.07.png

실수 형은 모두 단위가 다른 값이므로 스케일링 값을 필요로합니다. 하지만 출력 변수인 quality는 이미 정수값으로 분류가 되어있으므로 전처리 단계를 거칠 필요가 없습니다.

Id 역시 결과 변수에 영향을 주는 값이 아니므로 학습 단계에서 사용하는 항목이 아닙니다. 그렇기 때문에 이 역시 전처리 단계를 거칠 필요가 없습니다.

전처리 완료 후 우측 상단에 ‘학습 데이터로 내보내기’ 선택

  1. 학습 하기

    스크린샷 2022-08-02 오전 9.42.39.png

입력 변수 : fixed acidity, volatile acidity, citric acid, residual sugar, chlorides, free sulfur dioxide, total sulfur dioxide, density

출력 변수 : quality

스크린샷 2022-08-02 오전 9.45.18.png

위의 사진처럼 본인이 원하는 여러 모델을 선택하여 학습을 시작할 수 있습니다.

  1. 결과 비교

    스크린샷 2022-08-02 오후 12.46.17.png

위 세 개의 모델 중에서 MAE, MSE, RMSE 값은 작고 r2 값은 가장 큰 AdaBoost Regressor 모델이 성능이 가장 좋다고 볼 수 있습니다.