'데이터분석/시각화' 카테고리의 글 목록

[태블로] 날짜의 연속적, 비연속적 표현

날짜 칼럼이 있을 때, 이를 연속적, 비연속적으로 표현하는 법을 알아본다. 1. 연속적 표현 실제 데이터의 전체기간을 선택한 단위(년,분기,월)로 보여준다. 2. 비연속적 표현 데이터의 전체기한을 group by하여 선택한 단위로 보여준다.

데이터분석/시각화 2022.07.05

[태블로] 차원과 측정값

1. 태블로 좌측에 있는 차원과 측정값을 알아본다 2. 차원 정성적 데이터, 분석 기준이 되는 값, 불연속형 데이터로 측정값을 쪼개어 보는 관점 3. 측정값 정량적 수치, 연속형 데이터로 집계되는 데이터 * 집계 : 합계, 평군, 중앙값, 카운트, 최솟값, 최댓값, 백분위수, 표준편차, 분산 등

데이터분석/시각화 2022.07.05

[태블로] 파일 업로드 및 sheet에서 행,열 구성하기

1. 새 비주얼리제이션 만들기 2. 데이터 첨부하기 위 화면에 데이터 드래그 엔 드랍 원본데이터를 확인할 수 있음 3. 시각화하기 왼쪽아래 sheet를 누르고, 원하는 행, 열 구성을 왼쪽 테이블에서 드래그엔 드랍 행을 id, 열을 성별로 했을때 테이블 행을 성별, 열을 생존자 수로 했을 때 그래프 오른쪽 표현방식에서 다른 차트로 변활할 수 있다.

데이터분석/시각화 2022.06.13

[빅데이터분석기사, adp] 데이터 시각화와 정보 시각화 정보디자인

데이터 시각화 1. 같은범주에 많은 양의 데이터에 의미 부여하여 효율적으로 전달 2. 데이터의 시각적 표현의 연구 3. 속성이나 변수를 가진 단위를 포함한 정보 4. 명확하고 정확하게 커뮤니케이션 하기위한 목적 5. 마인드맵, 의사결정트리, 통계그래픽 정보 시각화 1. 큰 범주에 해당하는 정보를 시각화 2. 대규모 비수량 정보를 시각화 3. 트리맵, 분기도, 수지도, 히트맵 정보시각화 (인포그래픽) 1. 사람이 사용할 수 있는 효과적인 정보와 복잡하고 구조적이지 않은 기술데이터를 시각적으로 표현하는 방법 2. 인지(의미만들기) + 지각(형태만들기) + 경험(맥락만들기) 3. 인포그래픽 : 중요한 정보를 한장의 그래픽으로 표현해 이를 보는 사람들이 손쉽게 해당 정보를 이해할 수 있도록 만든 그래픽 ..

데이터분석/시각화 2021.04.15

[빅데이터분석기사, adp] 빅데이터 시각화 프로세스

정보구조화 강조하고싶은 데이터 분석 결과가 무엇인지 파악한 뒤 데이터 표현 규칙과 패턴을 탐색하여 사용자에 따른 시나리오를 작성, 스토리를 구성하는 단계 1. 수집 : 유의미한 데이터 선정, 무의미한 데이터 거르기 2. 분류 : 데이터를 일정형식으로 정리, 분류(csv, tsv, jason, xml) 3. 배열 : LATCH방법(Location, Alphabet, Time, Catagory, Hierachy) 4. 재배열(관계맺기) : 데이터에 의미부여 정보시각화 구조화 단계에서 정의된 요건과 스토리를 기반으로 시각화를 구현하는 단계, 시각화의 목적인 정보전달을 위해 시각적 형태와 모양이 갖춰지게 반복적으로 수행 1. 시간시각화 (1) 막대그래프(누적막대그래프) (2) 점그래프(산점도) (3) 선그래프 ..

데이터분석/시각화 2021.04.15

상관행렬(correlation matrix)과 산점도행렬(scatter matrix)

raw_fe.columns 1. 상관행렬 raw_fe.corr().style.background_gradient(cmap='coolwarm').set_precision(2) #cmap:색깔 스타일, set_precision:소수점 개수 조정 2. 산점도행렬 pd.plotting.scatter_matrix(raw_fe, figsize=(18,18), diagonal='kde') plt.show()

데이터분석/시각화 2020.12.18

cross table 그리기

두 값의 관계를 볼 수 있는 cross table을 그려본다. pd.crosstab(index={dataframe}['{속성1}'], columns={dataframe}['{속성2}'], margins=True) raw_fe.columns - 도수로 표현 # generate cross table sub_table = pd.crosstab(index=raw_fe['count'], columns=raw_fe['weather'], margins=True) sub_table - 퍼센트로 표현 # generate cross table sub_table = pd.crosstab(index=raw_fe['count'], columns=raw_fe['weather'], margins=True) sub_table/sub..

데이터분석/시각화 2020.12.18

scatter(산점도) 그리기

1. x값과 y값의 관계를 파악할 수 있는 산점도 그리기를 코드를 통해 구현한다. dataframe.plot.scatter(y='{att1}', x='{att2}', grid=True, figsize=(12,5)) # att1:x값, att2:y값, grid:그래프 격자선, figsize:그래프크기 raw_fe.columns - 속성2개 raw_fe.plot.scatter(y='count', x='Hour', grid=True, figsize=(12,5)) plt.show() - 속성3개(이산형) #c와 colormap파라미터를 이용하여 속성을 하나더 표시할 수 있다. raw_fe.plot.scatter(y='count', x='Hour', c='temp', grid=True, figsize=(12,5)..

데이터분석/시각화 2020.12.18

히스토그램 그리기

각 값 의 도수 분포를 시각화한 것을 히스토그램이라고 한다(각 값의 개수) 히스토그램을 시각화 하는 코드는 아래와 같다. dataframe.hist(bins=20, grid=True, figsize=(16,12)) #grid:눈금 , bin:클수록 막대 가늘어짐 plt.show() raw_fe.columns # histogram plot raw_fe.hist(bins=20, grid=True, figsize=(16,12)) #grid:눈금 , bin:클수록 막대 가늘어짐 plt.show()

데이터분석/시각화 2020.12.18

[타이타닉 데이터]seaboran의 distplot으로 시각화하기

import seaborn as sns #메틸렙에서 동작하는 시각화 라이브러리 f,ax=plt.subplots(1, 3, figsize=(20, 6)) sns.distplot(train[train['Pclass'] == 1].Fare,ax=ax[0]) ax[0].set_title('Fares in Pclass 1') sns.distplot(train[train['Pclass'] == 2].Fare,ax=ax[1]) ax[1].set_title('Fares in Pclass 2') sns.distplot(train[train['Pclass'] == 3].Fare,ax=ax[2]) ax[2].set_title('Fares in Pclass 3') plt.show()

데이터분석/시각화 2020.10.08

[타이타닉 데이터] 바이올린 플룻

#바이올린 플룻 #왼쪽 그래프 f, ax = plt.subplots(1,2,figsize=(18,8)) #1행 2열, 크기 # x, y, 기준, 데이터, split(생존과 사망을 합칠지 분리할지), 왼쪽그래프 sns.violinplot("Pclass", "Age", hue="Survived", data=train, split=True, ax=ax[0]) ax[0].set_title('Pclass and Age vs Survived') #제목 ax[0].set_yticks(range(0, 110, 10)) #y축의 단위 (최소,최대,단위) #오른쪽 그래프 sns.violinplot("Survived","Age", hue="Sex", data=train, split=True, ax=ax[1]) ax[1].s..

데이터분석/시각화 2020.10.08

[타이타닉 데이터]스웜플롯

스웜플롯으로 시각화 하는 방법 스웜플롯이 뭔지는 설명하기가 어려우니 아래의 실제 그림을 참고한다. import seaborn as sns # 스웜플롯 # x축은 생존여부(0:사망, 1:생존), y축은 나이 sns.swarmplot(x=train['Survived'], y=train['Age']) plt.xlabel("Survived") plt.ylabel("Age") plt.show()

데이터분석/시각화 2020.10.08

판다스의 crosstab을 이용해서 시각화

1.기본구조 pd.crosstab(x, y, margin=?).style.background_gradient(cmap='summer_r') => 일때 x는 행, y는 열, margin은 행과 열의 합을 나타낼것인지를 판단해주는 파라미터. style.background_gradient(cmap='summer_r') 은 배경에 색깔일 입혀주는 파라미터 2. 예시 (1) 배경색 없는것 pd.crosstab(train.Survived, train.Pclass, margins=True) (2) margin이 False일때 pd.crosstab(train.Survived, train.Pclass, margins=False).style.background_gradient(cmap='summer_r') (3) 행렬이 ..

데이터분석/시각화 2020.10.07

[타이타닉 데이터]matplot 라이브러리를 이용한 pie, countplot

# 1행 2열로 그래프가 들어감(즉 가로로 두개) f,ax=plt.subplots(1, 2, figsize=(15, 6)) # pie플롯 train['Survived'].value_counts().plot.pie(explode=[0, 0.1], autopct='%1.1f%%', ax=ax[0], shadow=True) # 제목 ax[0].set_title('Survived') ax[0].set_ylabel('') # 카운터 플롯 sns.countplot('Survived',data=train, ax=ax[1]) ax[1].set_title('Survived') plt.show()

데이터분석/시각화 2020.10.07

데이터 시각화 (그래프 그리기)#pandas#numpy

# [도수분포표] import pandas as pd import numpy as np # drink 데이터 drink = pd.read_csv("drink.csv") # 전체 참석 횟수를 확인하는 도수분포표 drink_tab = pd.crosstab(index = drink["Attend"], columns = "count") print("전체 참석 횟수를 확인하는 도수분포표") print(drink_tab) #누가 몇 번 참석했는지 알 수 있는 도수분포표 drink_who = pd.crosstab(index = drink["Attend"], columns = drink["Name"]) print("누가 몇 번 참석했는지 알 수 있는 도수분포표") print(drink_who) # [원형 그래프] im..

데이터분석/시각화 2020.07.02

시각화 플랫폼, 시각화 라이브러리, 인포그래픽스

1. 시각화 플랫폼 : 다차원적인 데이터 분석 결과를 시각화하고 그 결과를 보고서로 생성하는 기능 지원 (1) 종류 : tableau, Gephi, visual insight, visual intelligence (2) 플렛폼 설치 구축 필요, 플렛폼에서 제공하능 기능, 명령어를 실행해 시각화. (3) 지식 시각화 관점에서 데이터 시가화 기능 지원 (다양한 관점에서 인사이트 얻을 수 있도록) 2. 시각화 라이브러리 (1) 종류 : tangle, google Cahrt, jQuery Visualize (2) 라이브러리 설치 후 라이브러리가 제공하는 api로 코드 작성, 시각화 3. 인포그래픽스 (1) 종류 : icharts, visualize free, visual.ly (2) 웹서비스 형태로 제공..

데이터분석/시각화 2020.06.26

데이터분석/시각화 16

티스토리툴바

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30