데이터분석/시각화 16

[태블로] 파일 업로드 및 sheet에서 행,열 구성하기

1. 새 비주얼리제이션 만들기 2. 데이터 첨부하기 위 화면에 데이터 드래그 엔 드랍 원본데이터를 확인할 수 있음 3. 시각화하기 왼쪽아래 sheet를 누르고, 원하는 행, 열 구성을 왼쪽 테이블에서 드래그엔 드랍 행을 id, 열을 성별로 했을때 테이블 행을 성별, 열을 생존자 수로 했을 때 그래프 오른쪽 표현방식에서 다른 차트로 변활할 수 있다.

[빅데이터분석기사, adp] 데이터 시각화와 정보 시각화 정보디자인

데이터 시각화 1. 같은범주에 많은 양의 데이터에 의미 부여하여 효율적으로 전달 2. 데이터의 시각적 표현의 연구 3. 속성이나 변수를 가진 단위를 포함한 정보 4. 명확하고 정확하게 커뮤니케이션 하기위한 목적 5. 마인드맵, 의사결정트리, 통계그래픽 ​ 정보 시각화 1. 큰 범주에 해당하는 정보를 시각화 2. 대규모 비수량 정보를 시각화 3. 트리맵, 분기도, 수지도, 히트맵 ​ 정보시각화 (인포그래픽) 1. 사람이 사용할 수 있는 효과적인 정보와 복잡하고 구조적이지 않은 기술데이터를 시각적으로 표현하는 방법 2. 인지(의미만들기) + 지각(형태만들기) + 경험(맥락만들기) 3. 인포그래픽 : 중요한 정보를 한장의 그래픽으로 표현해 이를 보는 사람들이 손쉽게 해당 정보를 이해할 수 있도록 만든 그래픽 ..

[빅데이터분석기사, adp] 빅데이터 시각화 프로세스

정보구조화 강조하고싶은 데이터 분석 결과가 무엇인지 파악한 뒤 데이터 표현 규칙과 패턴을 탐색하여 사용자에 따른 시나리오를 작성, 스토리를 구성하는 단계 1. 수집 : 유의미한 데이터 선정, 무의미한 데이터 거르기 2. 분류 : 데이터를 일정형식으로 정리, 분류(csv, tsv, jason, xml) 3. 배열 : LATCH방법(Location, Alphabet, Time, Catagory, Hierachy) 4. 재배열(관계맺기) : 데이터에 의미부여 정보시각화 구조화 단계에서 정의된 요건과 스토리를 기반으로 시각화를 구현하는 단계, 시각화의 목적인 정보전달을 위해 시각적 형태와 모양이 갖춰지게 반복적으로 수행 1. 시간시각화 (1) 막대그래프(누적막대그래프) (2) 점그래프(산점도) (3) 선그래프 ..

cross table 그리기

두 값의 관계를 볼 수 있는 cross table을 그려본다. pd.crosstab(index={dataframe}['{속성1}'], columns={dataframe}['{속성2}'], margins=True) raw_fe.columns - 도수로 표현 # generate cross table sub_table = pd.crosstab(index=raw_fe['count'], columns=raw_fe['weather'], margins=True) sub_table - 퍼센트로 표현 # generate cross table sub_table = pd.crosstab(index=raw_fe['count'], columns=raw_fe['weather'], margins=True) sub_table/sub..

scatter(산점도) 그리기

1. x값과 y값의 관계를 파악할 수 있는 산점도 그리기를 코드를 통해 구현한다. dataframe.plot.scatter(y='{att1}', x='{att2}', grid=True, figsize=(12,5)) # att1:x값, att2:y값, grid:그래프 격자선, figsize:그래프크기 raw_fe.columns - 속성2개 raw_fe.plot.scatter(y='count', x='Hour', grid=True, figsize=(12,5)) plt.show() - 속성3개(이산형) #c와 colormap파라미터를 이용하여 속성을 하나더 표시할 수 있다. raw_fe.plot.scatter(y='count', x='Hour', c='temp', grid=True, figsize=(12,5)..

[타이타닉 데이터]seaboran의 distplot으로 시각화하기

import seaborn as sns #메틸렙에서 동작하는 시각화 라이브러리 f,ax=plt.subplots(1, 3, figsize=(20, 6)) sns.distplot(train[train['Pclass'] == 1].Fare,ax=ax[0]) ax[0].set_title('Fares in Pclass 1') sns.distplot(train[train['Pclass'] == 2].Fare,ax=ax[1]) ax[1].set_title('Fares in Pclass 2') sns.distplot(train[train['Pclass'] == 3].Fare,ax=ax[2]) ax[2].set_title('Fares in Pclass 3') plt.show()

[타이타닉 데이터] 바이올린 플룻

#바이올린 플룻 #왼쪽 그래프 f, ax = plt.subplots(1,2,figsize=(18,8)) #1행 2열, 크기 # x, y, 기준, 데이터, split(생존과 사망을 합칠지 분리할지), 왼쪽그래프 sns.violinplot("Pclass", "Age", hue="Survived", data=train, split=True, ax=ax[0]) ax[0].set_title('Pclass and Age vs Survived') #제목 ax[0].set_yticks(range(0, 110, 10)) #y축의 단위 (최소,최대,단위) #오른쪽 그래프 sns.violinplot("Survived","Age", hue="Sex", data=train, split=True, ax=ax[1]) ax[1].s..

판다스의 crosstab을 이용해서 시각화

1.기본구조 pd.crosstab(x, y, margin=?).style.background_gradient(cmap='summer_r') => 일때 x는 행, y는 열, margin은 행과 열의 합을 나타낼것인지를 판단해주는 파라미터. style.background_gradient(cmap='summer_r') 은 배경에 색깔일 입혀주는 파라미터 2. 예시 (1) 배경색 없는것 pd.crosstab(train.Survived, train.Pclass, margins=True) (2) margin이 False일때 pd.crosstab(train.Survived, train.Pclass, margins=False).style.background_gradient(cmap='summer_r') (3) 행렬이 ..

데이터 시각화 (그래프 그리기)#pandas#numpy

# [도수분포표] import pandas as pd import numpy as np # drink 데이터 drink = pd.read_csv("drink.csv") # 전체 참석 횟수를 확인하는 도수분포표 drink_tab = pd.crosstab(index = drink["Attend"], columns = "count") print("전체 참석 횟수를 확인하는 도수분포표") print(drink_tab) #누가 몇 번 참석했는지 알 수 있는 도수분포표 drink_who = pd.crosstab(index = drink["Attend"], columns = drink["Name"]) print("누가 몇 번 참석했는지 알 수 있는 도수분포표") print(drink_who) # [원형 그래프] im..

시각화 플랫폼, 시각화 라이브러리, 인포그래픽스

1. 시각화 플랫폼 : 다차원적인 데이터 분석 결과를 시각화하고 그 결과를 보고서로 생성하는 기능 지원 (1) 종류 : tableau, Gephi, visual insight, visual intelligence (2) 플렛폼 설치 구축 필요, 플렛폼에서 제공하능 기능, 명령어를 실행해 시각화. (3) 지식 시각화 관점에서 데이터 시가화 기능 지원 (다양한 관점에서 인사이트 얻을 수 있도록) ​ 2. 시각화 라이브러리 (1) 종류 : tangle, google Cahrt, jQuery Visualize (2) 라이브러리 설치 후 라이브러리가 제공하는 api로 코드 작성, 시각화 ​ 3. 인포그래픽스 (1) 종류 : icharts, visualize free, visual.ly (2) 웹서비스 형태로 제공..