데이터분석 139

[빅데이터분석기사, adp] 빅데이터 시각화 프로세스

정보구조화 강조하고싶은 데이터 분석 결과가 무엇인지 파악한 뒤 데이터 표현 규칙과 패턴을 탐색하여 사용자에 따른 시나리오를 작성, 스토리를 구성하는 단계 1. 수집 : 유의미한 데이터 선정, 무의미한 데이터 거르기 2. 분류 : 데이터를 일정형식으로 정리, 분류(csv, tsv, jason, xml) 3. 배열 : LATCH방법(Location, Alphabet, Time, Catagory, Hierachy) 4. 재배열(관계맺기) : 데이터에 의미부여 정보시각화 구조화 단계에서 정의된 요건과 스토리를 기반으로 시각화를 구현하는 단계, 시각화의 목적인 정보전달을 위해 시각적 형태와 모양이 갖춰지게 반복적으로 수행 1. 시간시각화 (1) 막대그래프(누적막대그래프) (2) 점그래프(산점도) (3) 선그래프 ..

[빅데이터분석기사, ADSP]소셜네트워크분석(사회연결망 분석 SNA)

분류 1. 집단론적 방법 : 각 개체간 관계를 쌍으로표현 2. 그래프이론 이용 : 객체는 점(node)으로, 연결은 두 점을 연결하는 선(edge)으로 3. 행렬을 이용한 방법 (1원자료 : 행과 열에 같은 개체, 2원자료 : 행과 열에 다른 개체) 중심성 전체네트워크에서 한 개체가 중심에 위치하는 정도를 표현한 지표 1. 연결정도 중심성 : 한 노드에 직접 연결된 다른 노드수의 합 2. 근접 중심성 : 한 노드로 다른 노드에 도달하기까지 필요한 최소단계의 합 (간접연결된 노드까지의 거리를 고려, 다른 경로들 사이에 최다 경로위에 위치 ) 3. 매개중심성 : 중계자,매개자 역할의 정도로 중심성 파악 4. 위세중심성 : 자신의 연결정도 중심성으로 부터 발생하는 영향력과 자신과 연결된 타인의 영향력 합해 결..

[빅데이터분석기사] 검증방법

1. 홀드아웃 (학습:검증:테스트)=(6:2:2)로 랜덤하게 설정. 데이터의 수가 적을 경우 데이터셋이 전체데이터를 대표하지 못할 수 있음 2. 부트스트랩 재표본추출, 복원추출, 데이터의 수가 많을 때 효과적 3. k-fold 교차검증 데이터를 k개의 셋으로 나누고 하나의 셋을 검증데이터로 총 K번 학습과 검증을 반복하는것 4. stratified k-fold 교차검증 레이블의 비율이 유사하도록 선정하여 k-폴드 교차검증을 진행하는것

[빅데이터분석기사, adp] 표본추출 (확률표본, 비확률표본)

확률표본추출 1. 단순무작위표본추출(단순랜덤추출 simple random sampling) : 랜덤하게 추출 2. 체계표본추출(계통추출 systemic sampling) : 일정한 간격으로 표본추출(매 3번째마다, 매 시간마다) ex) n번째 마다의 개체를 추출 3. 층화표본추출(stratified random sampling) : 이질적으로 구성된 모집단에서 각 계층 대표하는 표본 추출(일단 계층나눔) ex) 남과 여로 나누고 남에서 하나 여에서 하나 추출 4. 군집표본추출(집락추출 : cluster random sampling) : 군집을 구분하고 군집별로 단순랜덤추출 or 해당 군집을 모두 추출 ex) 남과 여로 나누고 남만 추출 or 여만 추출 비확률표본추출 1. 편의표본추출 : 조사자 마음대로 ..

[빅데이터분석기사] 클래스 불균형

정의 클래스가 가지고 있는 데이터의 양에 불균형이 있는 경우 해결 1. 과소표집 : 정상데이터의 일부만 선택해 유의한 데이터만 남기기 (=> 정상데이터의 손실우려 존재) 2. 과대표집 : 소수데이터를 복제해서 많은 클래스의 수만큼 증가시키기 (ex. SMOTE(Synthetic Minority Oversampling TEchnique) : 다수의 클래스는 샘플링하고 소수의 클래스는 KNN기법으로 보간하여 늘림 => 과대표집의 예시)

[빅데이터분석기사] 이상값확인

1. 사분위수 : Q3+1.5QR 이상값 or Q1-1.5QR 이하값 2. 분산 : 2.5%~97.5% 정규분포를 벗어난 값 3. 우도함수 : 우도함수의 우도값 범위 밖 4. 근접이웃기반 이상치 탐지 : 정산값의 중심으로 부터 거리가 임계치 이상인 값들 5. 밀도기반 : 밀도있는 데이터에서 떨어져 위치한 데이터 6. 군집 : 굴집으로 묶을 때 어떤 군집에서도 포함되지 않는 값

[빅데이터분석기사] 결측값의 종류 및 해결

종류 1. 완전무작위(MCAR : Missing Completly At Random) : 결측값이 결과값 혹은 다른 변수와 상관이 없음 (ex 관측치가 완전 랜덤함) 2. 무작위(MAR : Missing At Random) : 결측값이 결과엔 상관 없으나 다른 변수와는 상관있음 (ex 보수진영 투표자들의 응답률(결측치)이 낮으나 그렇다고 보수의 득표율(결과)이 낮은것은 아니다) 2. 비무작위(NMAR : Not Missing At Random) : 결측값이 결과에 상관이 있음 (ex 소득이 낮은 사람들의 응답률이 낮다) 처리 1. 삭제 (1) 특정 단일값 삭제 (2) 목록 삭제 : 무작위 결측에 적절 2. 대체(보완) (1) 평균대체법 : 평균, 중앙, 최빈값 등으로 대체. 빠른속도로 처리할 수 있으나 ..

[빅데이터분석기사, adsp]분석과제 발굴방법

하양식 접근법(top down) * 분석대상을 알고 있을때 사용 1. 문제탐색단계 (1) 비지니스 모델 탐색 기법 (2) 분석기회발굴의 범위 확장 - 역량의 변화 : 내부역량, 파트너 네트워크 (나) - 경쟁자확대 : 대체제, 경쟁자, 신규진입자 (너) - 시장니즈탐색 : 고객, 채널, 영향자 (외부) - 거시적관점 : 사회,기술,경제,환경,정치 (세계) (3) 참조 모델기반 문제 탐색 : quick and easy, 업무서비스별 (4) 분석유스케이스 : 현재 유사 및 동종사례 탐색 2. 문제정의단계 : 식별된 비지니스 문제를 데이터 문제로 3. 해결탐색단계 : 데이터분석 문제 해결 4. 타당성 검토 단계 : 경제적 타당성, 기술적 타당성, 데이터 존제 여부 상향식 접근법(bottom up) 1. 분석대..

[빅데이터분석기사,adsp] 데이터분석 거버넌스

개요 전사차원의 모든 데이터에 대해 정책 및 지침, 표준화, 운영조직 및 책임등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는것. 거버넌스 3대 구성요소 1. 원칙 : 데이터를 유지, 관리하기위한 지침, 가이드 2. 조직 : 데이터를 관리할 조직의 역할, 책임 3. 운영 : 데이터관리를 위한 활동과 체계 거버넌스 체계 1. 데이터 표준화 : 명명규칙, 메타데이터, 데이터사전 2. 데이터관리체계 : 데이터관리원칙 수립 3. 데이터저장소관리 : 메타 및 표준데이터 관리를 위한 전사차원의 저장소 구성 4. 표준화활동 : 거버넌스 체계 구축 후 표준준수여부 점검 분석준비도,성숙도, 결과진단 1. 분석준비도 (1) 분석인력 및 조직 (2) 분석문화 (3) 분석업무파악 (4) it인프..

[빅데이터분석기사,adsp] 빅데이터의 비유 4가지

1. 산업혁명의 석탄과 철 : 제조업, 서비스 분야 생산성 급증 2. 21세기 원유 : 필요한 정보를 제공 3. 생물학의 현미경 : 현미경이 생물학 발전에 끼쳤던 영향만큼 다양한 영항 끼치고 새로운 것을 발견하게함 (ex : 구글 ngram viewer) 4. 플렛폼 : 공동활용의 목적으로 구축된 유무형의 구조물 (ex: 페이스북, 카카오)