'데이터분석/[ 이론 ]' 카테고리의 글 목록

정형 반정형 비정형

정형 - 고정된 필드에 저장되는 데이터 반정형 - 고정된 필드로 저장되지는 않지만, XML이나 HTML처럼 메타데이터나 스키마 등을 포함하는 데이터 - XML, HTML, JSON 등 비정형 - 고정된 필드에 저장되어 있지 않은 데이터 - 문서, 그림, 동영상 오디오 등

데이터분석/[ 이론 ] 2022.03.11

[빅데이터분석기사] 적합도검정

적합도검정 실험에서 얻은 결과가 이론 분포와 일치하는 정도를 의미한다. 즉, 적합도검정은 데이터가 특정 이론분포를 따르는지 검정하는것 종류 1. 카이제곱 검정 : 범주형데이터를 대상으로 관측된 값들의 빈도수와 기대 빈도수가 의미있게 다른지를 비교 2. 콜모고르프 스미르노프 검정 : 데이터의 누적분포함수와 임의 분포의 누적분포함수 간의 최대차이 D를 검정통계량으로 하는 비모수 검정 => 정규성검정, 표본개수 2000개 이상 3. 샤피로 윌크 검정 : 데이터가 정규분포로부터 추출된 표본인지 검정 => 정규성검정, 표본개수 2000개 이하 4. Q-Q플롯 : 그래픽적으로 데이터의 정규성을 확인하는 가장 간단한 방법. 대각선 참조선을 따라 값들이 분포하면 정규성 만족 => 정규성검정, 그림으로

데이터분석/[ 이론 ] 2021.04.17

[빅데이터분석기사] 다변량 데이터탐색(차원축소)

1. PCA : 분산은 최대한 보존하며 차원축소 2. 선형판별분석(LDA:Linear Discriminant Analysis) : 다변량데이터에 판별함수를 적용하여 클래스를 최적으로 분석할 수 있게 축소=>결정경계를 만들어 데이터를 분류. 클래스별 분산은 작게 클래스간 평균은 멀리 만듦3. T-SNE : PCA로 차원이 줄어들 때 군집화된 데이터가 합쳐지면서 어느 군집에 포함되는지 구분이 어려워지는 단점을 보완하기 위해 생김. 기준점을 t분포 가운데 두고 거리의 차이만큼 t분포에 찍는다.4. SVD : 특잇값 분해 (정방행렬 -> 고유값 분해, 직사각행렬 -> 특이값 분해)5. 다차원척도법(MDS) : 객체사이의 유사성 수준을 2차원 or 3차원 공간에 점으로 시각화(ex. 계량형 MDS: 데이터간의 실..

데이터분석/[ 이론 ] 2021.04.16

최적화 기법

1. 확률적 경사하강법(Stochastic Gradient Descent) 무작위 샘플링된 하나의 샘플로 그레디언트를 계산하고 매개변수를 업데이트. 배치의 크기가 1인 경사하강법 2. 미니배치 확률적 경사하강법(Batch Gradient Descent) 한번 매개변수를 업데이트 할 때마다 전체 데이터셋을 사용 3. 모멘텀(Momentum) SGD가 가는 방향에 가속도를 부여, 진동을 줄이고 더 빠르게 학습 4. Adagrad 매개변수별 적응 학습률 사용. 업데이트가 빈번히 수행된 매개변수들은 낮은 학습률, 그렇지 않은 매개변수들은 높은 학습률 5. Adam 오래된 기울기의 영향력을 지수적으로 줄여 adagrad + 모멘텀 더한것.

데이터분석/[ 이론 ] 2021.04.16

추정량의 결정기준

1. 불편성 모수를 구체적으로 추정한 값. 모든 가능한 통계량 값의 평균이 모수와 같아지는것 => 불편추정량 2. 효율성 분산이 가장 작은것 3. 일치성 표본의 크기가 클수록 추정량의 값과 모수에 근접하는 것

데이터분석/[ 이론 ] 2021.04.16

비모수 통계

1. 부호검정 중앙값을 통해 가설을 검정하는 방법. 표본의 값이 중앙값과 동일한 경우에는 0을 부여해 전체 표본에서 제외시킨다. 2. 만-위트니 검정(=윌콕슨의 순위 합 검정) 독립된 두 집단의 중심위치를 비교 3. 크루스칼 왈리스 검정 세 개 이상 집단의 중앙값을 비교하기 위해 사용하는 검정. 순위합 검정 4. 런검정 각 표본이 서로 독립적이라는 가설 검정

데이터분석/[ 이론 ] 2021.04.15

[빅데이터분석기사, adp] 테스트마이닝 주요기능, TDM,DTM,TF-IDF

주요기능 1. 문서분류 2. 문서군집 3. 특징추출 4. 문서요약 TDM, DTM 1. TDM : 단어문서행렬 (단어가 행, 문서가 열) 2. DTM : 문서단어행렬 (문서가 행, 단어가 열) TF-IDF TF-IDF = (특정단어 t가 특정문서에서 등장한 횟수) / (특정단어 t가 등장한 문서의 수) => 전체문서에서는 많이 나오지 않지만 특정문서에서 많이 나올수록 TF-IDF값 상승 => 해당 단어가 특정문서에서 핵심단어일 가능성 상승 * 참조 : sosoeasy.tistory.com/309 DTM, TF-IDF * 출처 : 딥러닝을 이용한 자연어처리 입문 https://wikidocs.net/31698 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net sosoeasy.tist..

데이터분석/[ 이론 ] 2021.04.15

[빅데이터분석기사, ADSP]소셜네트워크분석(사회연결망 분석 SNA)

분류 1. 집단론적 방법 : 각 개체간 관계를 쌍으로표현 2. 그래프이론 이용 : 객체는 점(node)으로, 연결은 두 점을 연결하는 선(edge)으로 3. 행렬을 이용한 방법 (1원자료 : 행과 열에 같은 개체, 2원자료 : 행과 열에 다른 개체) 중심성 전체네트워크에서 한 개체가 중심에 위치하는 정도를 표현한 지표 1. 연결정도 중심성 : 한 노드에 직접 연결된 다른 노드수의 합 2. 근접 중심성 : 한 노드로 다른 노드에 도달하기까지 필요한 최소단계의 합 (간접연결된 노드까지의 거리를 고려, 다른 경로들 사이에 최다 경로위에 위치 ) 3. 매개중심성 : 중계자,매개자 역할의 정도로 중심성 파악 4. 위세중심성 : 자신의 연결정도 중심성으로 부터 발생하는 영향력과 자신과 연결된 타인의 영향력 합해 결..

데이터분석/[ 이론 ] 2021.04.15

[빅데이터분석기사] 검증방법

1. 홀드아웃 (학습:검증:테스트)=(6:2:2)로 랜덤하게 설정. 데이터의 수가 적을 경우 데이터셋이 전체데이터를 대표하지 못할 수 있음 2. 부트스트랩 재표본추출, 복원추출, 데이터의 수가 많을 때 효과적 3. k-fold 교차검증 데이터를 k개의 셋으로 나누고 하나의 셋을 검증데이터로 총 K번 학습과 검증을 반복하는것 4. stratified k-fold 교차검증 레이블의 비율이 유사하도록 선정하여 k-폴드 교차검증을 진행하는것

데이터분석/[ 이론 ] 2021.04.15

[빅데이터분석기사, adp] 표본추출 (확률표본, 비확률표본)

확률표본추출 1. 단순무작위표본추출(단순랜덤추출 simple random sampling) : 랜덤하게 추출 2. 체계표본추출(계통추출 systemic sampling) : 일정한 간격으로 표본추출(매 3번째마다, 매 시간마다) ex) n번째 마다의 개체를 추출 3. 층화표본추출(stratified random sampling) : 이질적으로 구성된 모집단에서 각 계층 대표하는 표본 추출(일단 계층나눔) ex) 남과 여로 나누고 남에서 하나 여에서 하나 추출 4. 군집표본추출(집락추출 : cluster random sampling) : 군집을 구분하고 군집별로 단순랜덤추출 or 해당 군집을 모두 추출 ex) 남과 여로 나누고 남만 추출 or 여만 추출 비확률표본추출 1. 편의표본추출 : 조사자 마음대로 ..

데이터분석/[ 이론 ] 2021.04.15

[빅데이터분석기사,adsp] 스피어만, 피어슨 상관계수

스피어만 피어슨 척도 순서형 등간이상 검정 비모수검정 모수검정 변수형태 이산형변수 연속형변수 선형여부 비선형 선형

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사, ADP] EDA의 의미 및 4R

EDA(Explotary Data Analysis)의 의미 데이터를 이해하고 의미있는 분석을 찾아내기 위해 통계값과 분포를 시각화 하는것 4R(4가지 주제) 1. 저항성(Resistance) 강조 2. 잔차(Residual) 계산 3. 변수의 재표현(Re-expression) 4. 그래프를 통한 현시성(Representation)

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사] 왜도와 첨도

왜도(skewness) 데이터분포의 비대칭을 나타내는 지표 => 꼬리가 긴쪽에 왜도가 위치한다고 생각.(왼쪽으로 꼬리가 길면 왜도

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사] 클래스 불균형

정의 클래스가 가지고 있는 데이터의 양에 불균형이 있는 경우 해결 1. 과소표집 : 정상데이터의 일부만 선택해 유의한 데이터만 남기기 (=> 정상데이터의 손실우려 존재) 2. 과대표집 : 소수데이터를 복제해서 많은 클래스의 수만큼 증가시키기 (ex. SMOTE(Synthetic Minority Oversampling TEchnique) : 다수의 클래스는 샘플링하고 소수의 클래스는 KNN기법으로 보간하여 늘림 => 과대표집의 예시)

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사] 이상값확인

1. 사분위수 : Q3+1.5QR 이상값 or Q1-1.5QR 이하값 2. 분산 : 2.5%~97.5% 정규분포를 벗어난 값 3. 우도함수 : 우도함수의 우도값 범위 밖 4. 근접이웃기반 이상치 탐지 : 정산값의 중심으로 부터 거리가 임계치 이상인 값들 5. 밀도기반 : 밀도있는 데이터에서 떨어져 위치한 데이터 6. 군집 : 굴집으로 묶을 때 어떤 군집에서도 포함되지 않는 값

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사] 결측값의 종류 및 해결

종류 1. 완전무작위(MCAR : Missing Completly At Random) : 결측값이 결과값 혹은 다른 변수와 상관이 없음 (ex 관측치가 완전 랜덤함) 2. 무작위(MAR : Missing At Random) : 결측값이 결과엔 상관 없으나 다른 변수와는 상관있음 (ex 보수진영 투표자들의 응답률(결측치)이 낮으나 그렇다고 보수의 득표율(결과)이 낮은것은 아니다) 2. 비무작위(NMAR : Not Missing At Random) : 결측값이 결과에 상관이 있음 (ex 소득이 낮은 사람들의 응답률이 낮다) 처리 1. 삭제 (1) 특정 단일값 삭제 (2) 목록 삭제 : 무작위 결측에 적절 2. 대체(보완) (1) 평균대체법 : 평균, 중앙, 최빈값 등으로 대체. 빠른속도로 처리할 수 있으나 ..

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사, adp]시급성과 중요도에 따른 우선순위 평가

난이도에 우선순위를 두었을 때와 시급성에 우선순위를 두었을 때가 다르다.

데이터분석/[ 이론 ] 2021.04.14

[빅데이터분석기사, adsp]분석과제 발굴방법

하양식 접근법(top down) * 분석대상을 알고 있을때 사용 1. 문제탐색단계 (1) 비지니스 모델 탐색 기법 (2) 분석기회발굴의 범위 확장 - 역량의 변화 : 내부역량, 파트너 네트워크 (나) - 경쟁자확대 : 대체제, 경쟁자, 신규진입자 (너) - 시장니즈탐색 : 고객, 채널, 영향자 (외부) - 거시적관점 : 사회,기술,경제,환경,정치 (세계) (3) 참조 모델기반 문제 탐색 : quick and easy, 업무서비스별 (4) 분석유스케이스 : 현재 유사 및 동종사례 탐색 2. 문제정의단계 : 식별된 비지니스 문제를 데이터 문제로 3. 해결탐색단계 : 데이터분석 문제 해결 4. 타당성 검토 단계 : 경제적 타당성, 기술적 타당성, 데이터 존제 여부 상향식 접근법(bottom up) 1. 분석대..

데이터분석/[ 이론 ] 2021.04.14

데이터분석/[ 이론 ] 34

티스토리툴바

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31