CSV : 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일입니다.
원천 데이터 : 운영 업무 데이터의 원천이 되는 현실 세계의 데이터로, 일반 문서, PC에 저장된 데이터 원천 파일, 이메일 및 팩스 등을 말하며, 통합적 시스템에 의한 관리보다는 원천 업무 데이터 소유주인 개인이나 단체에 의하여 관리되는 데이터를 의미합니다.
학습 데이터 : 알고리즘이 학습할 데이터로 모델 학습에 주가 되는 역할을 하며 검증 데이터는 학습 중간에 모델의 예측·분류 정확도를 계산하는 역할을 합니다.
IRIS 데이터(CSV)
데이터 설명 : 아이리스(붓꽃) 데이터에 대한 데이터입니다. 꽃잎의 각 부분의 너비와 길이등을 측정한 데이터 이며 150개의 레코드로 구성되어 있습니다. 아이리스의 뜻은 프랑스의 국화라고 합니다.
목표 : 붓꽃4가지 특성을 가지고 아이리스의 종류를 예측하여라.
variety : 꽃의 종류 정보입니다. setosa / versicolor / virginica 의 3종류로 구분됩니다.
4가지 특성
데이터 분석 : 여러개의 변수(4가지특성)을 분석하여, 사전의 정해진 범주(variety)로 분류하기 때문에 분류분석을 사용합니다. ****
데이터 업로드