DAILY

[코드스테이츠 PMB 9기] 데이터 시각화

Ellaso 2021. 12. 30. 13:50
W6D4 학습목표
- 실무에서 데이터 분석을 수행하기 위해 필요한 리소스를 선택할 수 있다.
- 데이터가 주어졌을 때 고객 인사이트를 추출하기 위한 과정을 설계할 수 있다.

개념 정리
- 데이터 시각화 
- 파이썬
- 머신러닝

이후 답변 가능한 질문
- 효과적인 데이터 분석에서 데이터 시각화가 필요한 이유는 무엇인가?
- 고객 데이터 분석 포트폴리오를 만들기 위해 준비해야 할 것은 무엇인가?

데이터 시각화 이해하기

데이터 시각화란?

- 데이터  분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정

- 수치 데이터를 시각 형태로 전환하여 이해할 수 있도록 하는 것을 데이터 시각화라고 한다.

 

PM에게 데이터 시각화가 중요한 이유

- 분석한 결과를 빠르게 이해해 제품의 개선점을 쉽게 발견 가능

- 제품팀에게 제품 분석결과를 빠르게 공유해 제품의 문제를 빠르게 개선 가능

 

데이터 시각화 도구의 종류

Google Analytics, Amplitude 등 분석 도구의 내장 대시보드
시각화 전문 도구 Tableau
파이썬 용 시각화 라이브러리 Matplotlib, seaborn 등

 

데이터 시각화를 할 때 주의할 점

1. 데이터의 특성에 맞는 적당한 시각화 선택

- 앞서 살펴본 도표들처럼 데이터에서 원하는 결론을 쉽게 이해할 수 있도록 시각화의 종류를 선택하는 것이 중요하다. 원하는 인사이트를 빠르게 발견할 수 있는 적절한 시각화를 선택할 수 있도록 다양한 종류의 시각화를 고려해야 한다.

 

2. 좋은 색상과 디자인 보다 원하는 정보를 한 눈에 확인할 수 있는가

- 예쁘고 화려하게 꾸밀줄 아는 것이 반드시 좋은 시각화는 아니다. 시각화의 목적은 정보를 빠르게 이해할 수 있도록 가공하는 것이다. 미적 수준도 중요하지만, 내가 선택한 표현이 원하는 정보를 빠르게 이해하는 데 도움이 되는지를 기준으로 시각화를 선정해야 한다.

 

3. 많은 데이터를 담는 것 보다 핵심 지표를 잘 보이게 하는 것이 중요

- 정확한 결론 도출을 위해 근거 데이터는 많을수록 좋지만 많은 분석결과를 보여준다고 해서 반드시 좋은 인사이트를 발견할 수 있는 것은 아니다. 제품 목표를 달성하는 데 필요한 핵심 지표를 잘 이해할 수 있는 것을 최우선 목표로 시각화를 구성할 필요가 있다.

 

파이썬을 사용한 데이터 분석 이해하기

파이썬의 특징과 장점

특징 장점
스크립트 언어 간결하고 쉬운 문법
동적 타이핑 빠른 개발 속도
플랫폼 독립적 높은 확장성 및 이식성
  활발한 생태계

파이썬 공부 이후 데이터 분석 위해 알아야 할 것

Pandas, NumPy 데이터를 다루고 기본적인 분석을 진행하는데 사용하는 라이브러리
Matplolib, Seaborn 파이썬을 사용해 시각화를 구성할 수 있는 라이브러리
scikit-learn 간단한 머신러닝 알고리즘을 구현할 수 있는 라이브러리

 

데이터 베이스를 쉽게 구현하게 해주는 서비스 - 구글 빅쿼리 (Big Query)

  • Google Cloud에서 돌아가는 데이터 웨어 하우스다.
  • 빅쿼리에 저장한 후 SQL을 사용하여 쿼리할 수 있다.
  • Data Engineering을 몰라도 DB를 구성해 SQL을 사용할 수 있다.

 


Kaggle 이나 Dacon 같은 무료로 데이터를 얻을 수 있는 사이트에서 데이터 시각화 연습해보도록 합시다.
Kaggle 이나 Dacon 에 접속하여 본인이 선정한 프로덕트와 가장 유사한 데이터를 찾습니다. (없거나 2의 조건을 만족하지 않는 경우, 다른 데이터를 선정해도 무방합니다)
해당 데이터 파일을 다운 받아 직접 확인해봅니다. (csv 형식 추천을 추천하며, 파일 개수는 1~2개가 적합합니다) (csv 파일은 Excel 에서 열 수 있습니다)
확인한 데이터에서 어떤 추측과 가설이 가능한지 확인하고 가설을 3개 이상 설정합니다.
본인이 세운 가설을 확인할 수 있도록 데이터를 확인하고 시각화합니다.
본인이 세운 가설과 실제 결과를 비교합니다.
(선택) 본인이 세운 가설이 왜 결과와 일치 또는 불일치하는 결과가 나왔는지 검색 또는 분석해봅니다.
가설
- 날씨가 따뜻할수록 자전거 대여량이 늘어날 것이다.
- 주중 주말 중 주말 자전거 대여량이 많을 것이다.
- 사계절 중 봄이 대여량이 가장 많을 것이다.

 

 

 

주중 주말 중 주중 자전거 대여량이 많을 것이다.

실제 런던에서 주중 주말 중 주말 자전거 대여량이 약 52% 높다.

 

 

 

사계절 중 봄이 대여량이 가장 많을 것이다.

런던에서 사계절 중 여름이 가장 많은 대여가 일어나고 있고 가을, 봄, 겨울 순으로 가설에서 봄이 가장 많은 대여가 일어날 거라는 예측은 틀렸다.

 

날씨가 따뜻할수록 자전거 대여량이 늘어날 것이다.

실제 날씨와 자전거 대여량의 연관성은 없다.