전체 702

군집분석의 종류

계층적군집 1. 합병형 2. 분리형 : 합쳐진걸 하나씩 분리 - 다이에나 방법 분할적 군집 1. 프로토타입 (1) k평균군집 (2) k중심군집 (3) k중앙값군집 (4) k메도이도 군집 (5) 퍼지군집 2. 밀도기반 (1) 중심밀도군집 (2) OPTICS : 부가적 순생성 (3) DBSCAN : 밀도한계점 따라 (4) DENCLUE : 밀도분포함수 기초 군집방법 3. 격자기반 (1) STING : 격자셀에 저장되어 있는 통계정보탐색 (2) Wavecluster : warelet 변환기법사용 (3) CLIQUE : 고차원데이터 군집화 4. 분포기반(모형기반) 혼합분포군집 : k개의 모수적 모형가중치 합으로 표현

회귀분석의 가정

1. 선형성 독립변수가 변화할 때 종속변수가 일정한 크기로 변화=> 선형성을 만족한다고 볼 수 있다. 2. 독립성 잔차와 독립변수의 값이 서로 독립해야함 3. 등분산성 잔차의 분산이 독립변수와 무관하게 일정 4. 정규성 잔차항이 정규분포를 띠어야 한다 (Q-Q플랏에서 우상향 하는 직선의 형태 띠어야함) 5. 비상관성 잔차끼리 독립이면 비상관성 (durbin-watson 통계량으로 확인)

비모수 통계

1. 부호검정 중앙값을 통해 가설을 검정하는 방법. 표본의 값이 중앙값과 동일한 경우에는 0을 부여해 전체 표본에서 제외시킨다. 2. 만-위트니 검정(=윌콕슨의 순위 합 검정) 독립된 두 집단의 중심위치를 비교 3. 크루스칼 왈리스 검정 세 개 이상 집단의 중앙값을 비교하기 위해 사용하는 검정. 순위합 검정 4. 런검정 각 표본이 서로 독립적이라는 가설 검정

[빅데이터분석기사,adp] 서포트벡터머신

용어 1. 서포트벡터 : 결정경계와가장 가까운 데이터 2 마진 : 결정경계와 군집별 서포트벡터 사이의 거리의 합(각 군집의 서포트벡터와 결정경계사이의 거리는 모두 같다) 3. 여유변수 E(입실론) : 1보다 크면 결정경계 넘어감, 0~1이면 결정경계와 서포터벡터사이, 0이면 서포터벡터 4. c : 엄격한 정도 => c가 클수록 하드마진 커널기법 선형적으로 구분할 수 없는 데이터를 고차원으로 보내서 구분할 수 있게 하는것 장단점 1. 장점 (1) 데이터가 희소할 때 효과적 (2) 연산량 적음 (3) 비선형도 커널기법을 이용하여 분류 2. 단점 (1) 해석어려움 (2) 파라미터 조절위해 많은 테스트 필요 (3) 전처리가 매우 중요

[빅데이터분석기사, adp] 테스트마이닝 주요기능, TDM,DTM,TF-IDF

주요기능 1. 문서분류 2. 문서군집 3. 특징추출 4. 문서요약 TDM, DTM 1. TDM : 단어문서행렬 (단어가 행, 문서가 열) 2. DTM : 문서단어행렬 (문서가 행, 단어가 열) TF-IDF TF-IDF = (특정단어 t가 특정문서에서 등장한 횟수) / (특정단어 t가 등장한 문서의 수) => 전체문서에서는 많이 나오지 않지만 특정문서에서 많이 나올수록 TF-IDF값 상승 => 해당 단어가 특정문서에서 핵심단어일 가능성 상승 * 참조 : sosoeasy.tistory.com/309 DTM, TF-IDF * 출처 : 딥러닝을 이용한 자연어처리 입문 https://wikidocs.net/31698 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net sosoeasy.tist..

[빅데이터분석기사, adp] 데이터 시각화와 정보 시각화 정보디자인

데이터 시각화 1. 같은범주에 많은 양의 데이터에 의미 부여하여 효율적으로 전달 2. 데이터의 시각적 표현의 연구 3. 속성이나 변수를 가진 단위를 포함한 정보 4. 명확하고 정확하게 커뮤니케이션 하기위한 목적 5. 마인드맵, 의사결정트리, 통계그래픽 ​ 정보 시각화 1. 큰 범주에 해당하는 정보를 시각화 2. 대규모 비수량 정보를 시각화 3. 트리맵, 분기도, 수지도, 히트맵 ​ 정보시각화 (인포그래픽) 1. 사람이 사용할 수 있는 효과적인 정보와 복잡하고 구조적이지 않은 기술데이터를 시각적으로 표현하는 방법 2. 인지(의미만들기) + 지각(형태만들기) + 경험(맥락만들기) 3. 인포그래픽 : 중요한 정보를 한장의 그래픽으로 표현해 이를 보는 사람들이 손쉽게 해당 정보를 이해할 수 있도록 만든 그래픽 ..

[빅데이터분석기사, adp] 빅데이터 시각화 프로세스

정보구조화 강조하고싶은 데이터 분석 결과가 무엇인지 파악한 뒤 데이터 표현 규칙과 패턴을 탐색하여 사용자에 따른 시나리오를 작성, 스토리를 구성하는 단계 1. 수집 : 유의미한 데이터 선정, 무의미한 데이터 거르기 2. 분류 : 데이터를 일정형식으로 정리, 분류(csv, tsv, jason, xml) 3. 배열 : LATCH방법(Location, Alphabet, Time, Catagory, Hierachy) 4. 재배열(관계맺기) : 데이터에 의미부여 정보시각화 구조화 단계에서 정의된 요건과 스토리를 기반으로 시각화를 구현하는 단계, 시각화의 목적인 정보전달을 위해 시각적 형태와 모양이 갖춰지게 반복적으로 수행 1. 시간시각화 (1) 막대그래프(누적막대그래프) (2) 점그래프(산점도) (3) 선그래프 ..

[빅데이터분석기사, ADSP]소셜네트워크분석(사회연결망 분석 SNA)

분류 1. 집단론적 방법 : 각 개체간 관계를 쌍으로표현 2. 그래프이론 이용 : 객체는 점(node)으로, 연결은 두 점을 연결하는 선(edge)으로 3. 행렬을 이용한 방법 (1원자료 : 행과 열에 같은 개체, 2원자료 : 행과 열에 다른 개체) 중심성 전체네트워크에서 한 개체가 중심에 위치하는 정도를 표현한 지표 1. 연결정도 중심성 : 한 노드에 직접 연결된 다른 노드수의 합 2. 근접 중심성 : 한 노드로 다른 노드에 도달하기까지 필요한 최소단계의 합 (간접연결된 노드까지의 거리를 고려, 다른 경로들 사이에 최다 경로위에 위치 ) 3. 매개중심성 : 중계자,매개자 역할의 정도로 중심성 파악 4. 위세중심성 : 자신의 연결정도 중심성으로 부터 발생하는 영향력과 자신과 연결된 타인의 영향력 합해 결..

[빅데이터분석기사] 검증방법

1. 홀드아웃 (학습:검증:테스트)=(6:2:2)로 랜덤하게 설정. 데이터의 수가 적을 경우 데이터셋이 전체데이터를 대표하지 못할 수 있음 2. 부트스트랩 재표본추출, 복원추출, 데이터의 수가 많을 때 효과적 3. k-fold 교차검증 데이터를 k개의 셋으로 나누고 하나의 셋을 검증데이터로 총 K번 학습과 검증을 반복하는것 4. stratified k-fold 교차검증 레이블의 비율이 유사하도록 선정하여 k-폴드 교차검증을 진행하는것

[빅데이터분석기사, adp] 표본추출 (확률표본, 비확률표본)

확률표본추출 1. 단순무작위표본추출(단순랜덤추출 simple random sampling) : 랜덤하게 추출 2. 체계표본추출(계통추출 systemic sampling) : 일정한 간격으로 표본추출(매 3번째마다, 매 시간마다) ex) n번째 마다의 개체를 추출 3. 층화표본추출(stratified random sampling) : 이질적으로 구성된 모집단에서 각 계층 대표하는 표본 추출(일단 계층나눔) ex) 남과 여로 나누고 남에서 하나 여에서 하나 추출 4. 군집표본추출(집락추출 : cluster random sampling) : 군집을 구분하고 군집별로 단순랜덤추출 or 해당 군집을 모두 추출 ex) 남과 여로 나누고 남만 추출 or 여만 추출 비확률표본추출 1. 편의표본추출 : 조사자 마음대로 ..

[빅데이터분석기사] 클래스 불균형

정의 클래스가 가지고 있는 데이터의 양에 불균형이 있는 경우 해결 1. 과소표집 : 정상데이터의 일부만 선택해 유의한 데이터만 남기기 (=> 정상데이터의 손실우려 존재) 2. 과대표집 : 소수데이터를 복제해서 많은 클래스의 수만큼 증가시키기 (ex. SMOTE(Synthetic Minority Oversampling TEchnique) : 다수의 클래스는 샘플링하고 소수의 클래스는 KNN기법으로 보간하여 늘림 => 과대표집의 예시)

[빅데이터분석기사] 이상값확인

1. 사분위수 : Q3+1.5QR 이상값 or Q1-1.5QR 이하값 2. 분산 : 2.5%~97.5% 정규분포를 벗어난 값 3. 우도함수 : 우도함수의 우도값 범위 밖 4. 근접이웃기반 이상치 탐지 : 정산값의 중심으로 부터 거리가 임계치 이상인 값들 5. 밀도기반 : 밀도있는 데이터에서 떨어져 위치한 데이터 6. 군집 : 굴집으로 묶을 때 어떤 군집에서도 포함되지 않는 값

[빅데이터분석기사] 결측값의 종류 및 해결

종류 1. 완전무작위(MCAR : Missing Completly At Random) : 결측값이 결과값 혹은 다른 변수와 상관이 없음 (ex 관측치가 완전 랜덤함) 2. 무작위(MAR : Missing At Random) : 결측값이 결과엔 상관 없으나 다른 변수와는 상관있음 (ex 보수진영 투표자들의 응답률(결측치)이 낮으나 그렇다고 보수의 득표율(결과)이 낮은것은 아니다) 2. 비무작위(NMAR : Not Missing At Random) : 결측값이 결과에 상관이 있음 (ex 소득이 낮은 사람들의 응답률이 낮다) 처리 1. 삭제 (1) 특정 단일값 삭제 (2) 목록 삭제 : 무작위 결측에 적절 2. 대체(보완) (1) 평균대체법 : 평균, 중앙, 최빈값 등으로 대체. 빠른속도로 처리할 수 있으나 ..

[빅데이터분석기사, adsp]분석과제 발굴방법

하양식 접근법(top down) * 분석대상을 알고 있을때 사용 1. 문제탐색단계 (1) 비지니스 모델 탐색 기법 (2) 분석기회발굴의 범위 확장 - 역량의 변화 : 내부역량, 파트너 네트워크 (나) - 경쟁자확대 : 대체제, 경쟁자, 신규진입자 (너) - 시장니즈탐색 : 고객, 채널, 영향자 (외부) - 거시적관점 : 사회,기술,경제,환경,정치 (세계) (3) 참조 모델기반 문제 탐색 : quick and easy, 업무서비스별 (4) 분석유스케이스 : 현재 유사 및 동종사례 탐색 2. 문제정의단계 : 식별된 비지니스 문제를 데이터 문제로 3. 해결탐색단계 : 데이터분석 문제 해결 4. 타당성 검토 단계 : 경제적 타당성, 기술적 타당성, 데이터 존제 여부 상향식 접근법(bottom up) 1. 분석대..