Intro
길게 나열된 줄글이나 엄청난 정보량이 담긴 표를 한 번에 보기는 쉽지 않다, 아니 어렵다
이 때 한 눈에 보기 편하게 시각화를 시킨다면 데이터의 특성을 파악하는데 큰 도움이 된다
시각화
Q. 시각화란 무엇일까?
데이터 시각화란 데이터를 그래픽 요소로 매핑하여 시각적으로 표현하는 것을 말한다
그러나 단순히 그래픽 요소로 매핑만 한다고 하면 그다지 좋은 시각화 방법이 아닐 것 이다
당연히 여러가지 요소를 고려하여 적절한 시각화를 해야한다, 크게 아래와 같은 내용들을 생각해 볼 수 있다
- 왜 시각화 하는지?
- 가장 근본적인 이유이다 어떤 목적하에 시각화를 하는지 생각해야 한다
- 누가 볼 것 인지?
- 나만 볼 수 있게 간단히 정리된 도표일 수도, 고객을 설득하기 위한 지표로 사용될 수도있다. 누구를 대상으로 하는지 생각해봐야 한다
- 어떤 데이터를 사용하는지?
- 사용되는 데이터에 따라 여러 종류의 시각화 방법이 있으니 이를 고려해야 한다
- 어떤 흐름과 어떤 방법으로 제공할 것인가?
- 밑도 끝도 없이 도표만 제공하거나 생뚱맞은 방법을 펼치면 아무런 의미가 없다, 주장하고자 하는 바에 맞게 효과적인 방법과 흐름이 필요하다
시각화를 위해 어떤 것들이 필요한지는 알았다, 그러나 이 것만 가지고는 당연히 모두가 원하는 멋진 결과를 뚝딱뚝딱 도꺠비 방망이 뚝딱마냥 만들 수 없다, 먼저 데이터를 이해해야 효과적인 시각화에 도움이 된다 !
- 데이터를 살펴 볼 때 크게 데이터셋 관점(global)과 개별 데이터의 관점(local)로 관찰할 수 있다
- 무엇이 더 중요하다는 의미가 아니고 숲과 나무 둘 다 잘 살펴보아야 한다
수 많은 데이터셋의 종류 중 대표적인 몇 가지를 살펴 보면 아래와 같다
- 정형 데이터
- 시계열 데이터
- 지리(지도) 데이터
- 관계형(네트워크) 데이터
- 계층적 데이터
- 기타 다양한 비정형 데이터
여기서 데이터 종류에 따라 또 시각화 할 수 있는 방법들이 바뀐다!
대표적으로 4가지로 분류 한다
- 수치형(numerical)
- 연속형 : 키, 온도, 몸무게
- 이산형 : 주사위 눈금, 사탕 갯수
- 범주형(categorical)
- 명목형(nominal) : 혈액형, 종교
- 순서형(ordinal) : 학년, 등급
파이썬에선 matplotlib, seaborn, folium 등등의 시각화 tool을 제공한다.
이에 관해서는 아래의 링크를 참조!(는 이후에 작성예쩡)
반응형
'👨💻Data Science' 카테고리의 다른 글
EDA란? (0) | 2022.06.16 |
---|