'데이터분석' 카테고리의 글 목록 (4 Page)

[빅데이터분석기사, adp] 데이터 시각화와 정보 시각화 정보디자인

데이터 시각화 1. 같은범주에 많은 양의 데이터에 의미 부여하여 효율적으로 전달 2. 데이터의 시각적 표현의 연구 3. 속성이나 변수를 가진 단위를 포함한 정보 4. 명확하고 정확하게 커뮤니케이션 하기위한 목적 5. 마인드맵, 의사결정트리, 통계그래픽 정보 시각화 1. 큰 범주에 해당하는 정보를 시각화 2. 대규모 비수량 정보를 시각화 3. 트리맵, 분기도, 수지도, 히트맵 정보시각화 (인포그래픽) 1. 사람이 사용할 수 있는 효과적인 정보와 복잡하고 구조적이지 않은 기술데이터를 시각적으로 표현하는 방법 2. 인지(의미만들기) + 지각(형태만들기) + 경험(맥락만들기) 3. 인포그래픽 : 중요한 정보를 한장의 그래픽으로 표현해 이를 보는 사람들이 손쉽게 해당 정보를 이해할 수 있도록 만든 그래픽 ..

데이터분석/시각화 2021.04.15

[빅데이터분석기사, adp] 빅데이터 시각화 프로세스

정보구조화 강조하고싶은 데이터 분석 결과가 무엇인지 파악한 뒤 데이터 표현 규칙과 패턴을 탐색하여 사용자에 따른 시나리오를 작성, 스토리를 구성하는 단계 1. 수집 : 유의미한 데이터 선정, 무의미한 데이터 거르기 2. 분류 : 데이터를 일정형식으로 정리, 분류(csv, tsv, jason, xml) 3. 배열 : LATCH방법(Location, Alphabet, Time, Catagory, Hierachy) 4. 재배열(관계맺기) : 데이터에 의미부여 정보시각화 구조화 단계에서 정의된 요건과 스토리를 기반으로 시각화를 구현하는 단계, 시각화의 목적인 정보전달을 위해 시각적 형태와 모양이 갖춰지게 반복적으로 수행 1. 시간시각화 (1) 막대그래프(누적막대그래프) (2) 점그래프(산점도) (3) 선그래프 ..

데이터분석/시각화 2021.04.15

[빅데이터분석기사, ADSP]소셜네트워크분석(사회연결망 분석 SNA)

분류 1. 집단론적 방법 : 각 개체간 관계를 쌍으로표현 2. 그래프이론 이용 : 객체는 점(node)으로, 연결은 두 점을 연결하는 선(edge)으로 3. 행렬을 이용한 방법 (1원자료 : 행과 열에 같은 개체, 2원자료 : 행과 열에 다른 개체) 중심성 전체네트워크에서 한 개체가 중심에 위치하는 정도를 표현한 지표 1. 연결정도 중심성 : 한 노드에 직접 연결된 다른 노드수의 합 2. 근접 중심성 : 한 노드로 다른 노드에 도달하기까지 필요한 최소단계의 합 (간접연결된 노드까지의 거리를 고려, 다른 경로들 사이에 최다 경로위에 위치 ) 3. 매개중심성 : 중계자,매개자 역할의 정도로 중심성 파악 4. 위세중심성 : 자신의 연결정도 중심성으로 부터 발생하는 영향력과 자신과 연결된 타인의 영향력 합해 결..

데이터분석/[ 이론 ] 2021.04.15

[빅데이터분석기사] 검증방법

1. 홀드아웃 (학습:검증:테스트)=(6:2:2)로 랜덤하게 설정. 데이터의 수가 적을 경우 데이터셋이 전체데이터를 대표하지 못할 수 있음 2. 부트스트랩 재표본추출, 복원추출, 데이터의 수가 많을 때 효과적 3. k-fold 교차검증 데이터를 k개의 셋으로 나누고 하나의 셋을 검증데이터로 총 K번 학습과 검증을 반복하는것 4. stratified k-fold 교차검증 레이블의 비율이 유사하도록 선정하여 k-폴드 교차검증을 진행하는것

데이터분석/[ 이론 ] 2021.04.15

[빅데이터분석기사, adp] 표본추출 (확률표본, 비확률표본)

확률표본추출 1. 단순무작위표본추출(단순랜덤추출 simple random sampling) : 랜덤하게 추출 2. 체계표본추출(계통추출 systemic sampling) : 일정한 간격으로 표본추출(매 3번째마다, 매 시간마다) ex) n번째 마다의 개체를 추출 3. 층화표본추출(stratified random sampling) : 이질적으로 구성된 모집단에서 각 계층 대표하는 표본 추출(일단 계층나눔) ex) 남과 여로 나누고 남에서 하나 여에서 하나 추출 4. 군집표본추출(집락추출 : cluster random sampling) : 군집을 구분하고 군집별로 단순랜덤추출 or 해당 군집을 모두 추출 ex) 남과 여로 나누고 남만 추출 or 여만 추출 비확률표본추출 1. 편의표본추출 : 조사자 마음대로 ..

데이터분석/[ 이론 ] 2021.04.15

[빅데이터분석기사,adsp] 스피어만, 피어슨 상관계수

스피어만 피어슨 척도 순서형 등간이상 검정 비모수검정 모수검정 변수형태 이산형변수 연속형변수 선형여부 비선형 선형

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사, ADP] EDA의 의미 및 4R

EDA(Explotary Data Analysis)의 의미 데이터를 이해하고 의미있는 분석을 찾아내기 위해 통계값과 분포를 시각화 하는것 4R(4가지 주제) 1. 저항성(Resistance) 강조 2. 잔차(Residual) 계산 3. 변수의 재표현(Re-expression) 4. 그래프를 통한 현시성(Representation)

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사] 왜도와 첨도

왜도(skewness) 데이터분포의 비대칭을 나타내는 지표 => 꼬리가 긴쪽에 왜도가 위치한다고 생각.(왼쪽으로 꼬리가 길면 왜도

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사] 클래스 불균형

정의 클래스가 가지고 있는 데이터의 양에 불균형이 있는 경우 해결 1. 과소표집 : 정상데이터의 일부만 선택해 유의한 데이터만 남기기 (=> 정상데이터의 손실우려 존재) 2. 과대표집 : 소수데이터를 복제해서 많은 클래스의 수만큼 증가시키기 (ex. SMOTE(Synthetic Minority Oversampling TEchnique) : 다수의 클래스는 샘플링하고 소수의 클래스는 KNN기법으로 보간하여 늘림 => 과대표집의 예시)

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사] 이상값확인

1. 사분위수 : Q3+1.5QR 이상값 or Q1-1.5QR 이하값 2. 분산 : 2.5%~97.5% 정규분포를 벗어난 값 3. 우도함수 : 우도함수의 우도값 범위 밖 4. 근접이웃기반 이상치 탐지 : 정산값의 중심으로 부터 거리가 임계치 이상인 값들 5. 밀도기반 : 밀도있는 데이터에서 떨어져 위치한 데이터 6. 군집 : 굴집으로 묶을 때 어떤 군집에서도 포함되지 않는 값

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사] 결측값의 종류 및 해결

종류 1. 완전무작위(MCAR : Missing Completly At Random) : 결측값이 결과값 혹은 다른 변수와 상관이 없음 (ex 관측치가 완전 랜덤함) 2. 무작위(MAR : Missing At Random) : 결측값이 결과엔 상관 없으나 다른 변수와는 상관있음 (ex 보수진영 투표자들의 응답률(결측치)이 낮으나 그렇다고 보수의 득표율(결과)이 낮은것은 아니다) 2. 비무작위(NMAR : Not Missing At Random) : 결측값이 결과에 상관이 있음 (ex 소득이 낮은 사람들의 응답률이 낮다) 처리 1. 삭제 (1) 특정 단일값 삭제 (2) 목록 삭제 : 무작위 결측에 적절 2. 대체(보완) (1) 평균대체법 : 평균, 중앙, 최빈값 등으로 대체. 빠른속도로 처리할 수 있으나 ..

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사, adp]시급성과 중요도에 따른 우선순위 평가

난이도에 우선순위를 두었을 때와 시급성에 우선순위를 두었을 때가 다르다.

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사, adsp]분석과제 발굴방법

하양식 접근법(top down) * 분석대상을 알고 있을때 사용 1. 문제탐색단계 (1) 비지니스 모델 탐색 기법 (2) 분석기회발굴의 범위 확장 - 역량의 변화 : 내부역량, 파트너 네트워크 (나) - 경쟁자확대 : 대체제, 경쟁자, 신규진입자 (너) - 시장니즈탐색 : 고객, 채널, 영향자 (외부) - 거시적관점 : 사회,기술,경제,환경,정치 (세계) (3) 참조 모델기반 문제 탐색 : quick and easy, 업무서비스별 (4) 분석유스케이스 : 현재 유사 및 동종사례 탐색 2. 문제정의단계 : 식별된 비지니스 문제를 데이터 문제로 3. 해결탐색단계 : 데이터분석 문제 해결 4. 타당성 검토 단계 : 경제적 타당성, 기술적 타당성, 데이터 존제 여부 상향식 접근법(bottom up) 1. 분석대..

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사,adsp]분석대상과 방법에 따른 4가지 분류

종류 - 분석대상 알고 방법 알때 => 최적화 - 분석대상 알고 방법 모를때 => 솔루션 - 분석대상 모르고 방법 알때 => 통찰 - 분석대상 모르고 방법 모를때 => 발견 그림

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사,adsp] 분석조직유형

1. 집중형 조직구조 : 조직내 별도의 독립적 분석전담조직 구성 2. 분산된 조직구조 : 분석조직의 인력을 현업부서 배치 3. 기능중심의 조직구조 : 해당업무부서에서 직접 운영(전사적 관점 핵심 분석 x)

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사,adsp] 데이터분석 거버넌스

개요 전사차원의 모든 데이터에 대해 정책 및 지침, 표준화, 운영조직 및 책임등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는것. 거버넌스 3대 구성요소 1. 원칙 : 데이터를 유지, 관리하기위한 지침, 가이드 2. 조직 : 데이터를 관리할 조직의 역할, 책임 3. 운영 : 데이터관리를 위한 활동과 체계 거버넌스 체계 1. 데이터 표준화 : 명명규칙, 메타데이터, 데이터사전 2. 데이터관리체계 : 데이터관리원칙 수립 3. 데이터저장소관리 : 메타 및 표준데이터 관리를 위한 전사차원의 저장소 구성 4. 표준화활동 : 거버넌스 체계 구축 후 표준준수여부 점검 분석준비도,성숙도, 결과진단 1. 분석준비도 (1) 분석인력 및 조직 (2) 분석문화 (3) 분석업무파악 (4) it인프..

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사,adsp] 빅데이터의 비유 4가지

1. 산업혁명의 석탄과 철 : 제조업, 서비스 분야 생산성 급증 2. 21세기 원유 : 필요한 정보를 제공 3. 생물학의 현미경 : 현미경이 생물학 발전에 끼쳤던 영향만큼 다양한 영항 끼치고 새로운 것을 발견하게함 (ex : 구글 ngram viewer) 4. 플렛폼 : 공동활용의 목적으로 구축된 유무형의 구조물 (ex: 페이스북, 카카오)

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사,adsp] 빅데이터의 특징 3V

1. Volumn : 대량데이터 증가발생 2. Variety : 비정형데이터의 발생으로 다양한 형식 3. Velocity : 실시간정보발생, 데이터유입, 처리속도 요구 * 4V? (Value : 데이터의 가치중요, Veracity : 예측분석결과에 대한 신뢰성 중요)

데이터분석/[ 이론 ] 2021.04.14

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

데이터분석 203

티스토리툴바