EDA 는 Exploratory Data Analysis의 약자로 탐색적 자료 분석을 가리키는 말입니다.

EDA 페이지에서는 데이터와 y축 변수를 사용자가 직접 설정하여, 원천데이터와 학습 데이터의 통계자료를 확인할 수 있는 환경을 제공하고 있습니다. 또한, 뉴럴 스튜디오는 빈도, 분포, 막대 등의 다양한 그래프 형식을 제공하고 있으며, 사용자는 이렇게 시각화 된 자료를 통해 데이터 중의 오류나 패턴을 파악하거나 변수들의 관계를 이해하는 등의 다양한 방법으로 활용 할 수 있습니다.

1. 탐색적 데이터 분석 시작하기

스크린샷 2022-08-18 오전 9.51.46.png

EDA 페이지에서 자료를 분석하기 위해서는 데이터, y축 변수, 그래프 형태 이 세가지를 필수적으로 선택해야합니다. 데이터는 원천데이터나 학습데이터를 선택할 수 있으며, 세가지를 모두 선택하게 되면 그래프 우측에 변수와 관련된 통계 자료가 제공됩니다. (x축 변수와 색상 변수는 점 그래프에서 선택하신 후 이용하실 수 있습니다.)

2. 그래프 해석

2 - 1. 빈도

스크린샷 2022-08-18 오전 10.03.38.png

y축 변수 : 사용자 설정

x축 : ‘y축 변수’ 값의 범위

y축 : x축 범위에 속하는 ‘y축 변수’의 개수

빈도 그래프의 x축은 y축 변수들의 값의 구간을 나타내고, y축은 해당 x축의 범위에 속하는 y축의 변수 개수를 나타냅니다. 그러므로 그래프의 y축 값을 모두 더하면 통계자료의 count(y축 변수의 총 개수)와 동일한 값이 됩니다. 또한, 원하는 구간의 그래프를 클릭하시면 구간의 범위와 그에 따른 y축 값을 확인할 수 있습니다.

스크린샷 2022-08-18 오전 10.05.21.png

변수 중 4.5 ~ 4.9까지의 범위를 가지는 ‘y축 변수’의 개수가 총 18개라는 의미입니다.

스크린샷 2022-08-18 오전 10.05.35.png

변수 중 5.5 ~ 5.8까지의 범위를 가지는 ‘y축 변수’의 개수가 총 31개라는 의미입니다.

2-2. 분포

스크린샷 2022-08-23 오전 11.46.39.png