반응형
EDA가 뭔가요❓
며칠전 EDA가 무엇인가? 라는 질문을 들었다
기계적으로 결측치나 분포등을 파악해보고 이를 활용하는 것이다 대답을 하였는데 문득 EDA란 진짜 무엇일까라는 생각을 갖게되었다.
단순히 파이썬이나 R을 통해 결측치를 파악하고 화려하고 예쁜 데이터 분포 그래프를 그려보는게 EDA의 목적일까?
왜 하나요❓
근본적인 생각으로 돌아가서 과연 EDA가 대체 무엇이고 왜 하는지부터 생각해보면 좋을 것 같다
EDA는 Exploratory Data Analysis(탐색적 데이터 분석)의 약자로 데이터를 이해하려는 과정이다
이과정 속에서는
- 주어진 수 많은 데이터에서 실제로 데이터가 어떻게 생겼는지?
- 주어진 데이터 타입의 특성은 무엇인지?
- 메타데이터의 분포는 어떻게 되는지?
- 그게 과연 어떤 특징과 어떤 의미를 가지는지?
와 같은 과정을 가진다, 즉 거창한 코드나 화려한 그래프를 만드는게 목적이 아니라 결국 주어진 데이터 내에서 내가 궁금한 내용들을 확인해 보는 과정이 EDA이다
파이썬을 사용해서 예쁜 그래프를 그리고 통계를 내보고 하는 것은 내가 원하는 것들을 얻기 위한 도구이자 과정이지 이에 너무 치우쳐 정작 필요한 본질을 잊지말자!
반응형
'👨💻Data Science' 카테고리의 다른 글
데이터 시각화(Data Visualization) (0) | 2022.02.04 |
---|