전체 글 708

[빅데이터분석기사] 클래스 불균형

정의 클래스가 가지고 있는 데이터의 양에 불균형이 있는 경우 해결 1. 과소표집 : 정상데이터의 일부만 선택해 유의한 데이터만 남기기 (=> 정상데이터의 손실우려 존재) 2. 과대표집 : 소수데이터를 복제해서 많은 클래스의 수만큼 증가시키기 (ex. SMOTE(Synthetic Minority Oversampling TEchnique) : 다수의 클래스는 샘플링하고 소수의 클래스는 KNN기법으로 보간하여 늘림 => 과대표집의 예시)

[빅데이터분석기사] 이상값확인

1. 사분위수 : Q3+1.5QR 이상값 or Q1-1.5QR 이하값 2. 분산 : 2.5%~97.5% 정규분포를 벗어난 값 3. 우도함수 : 우도함수의 우도값 범위 밖 4. 근접이웃기반 이상치 탐지 : 정산값의 중심으로 부터 거리가 임계치 이상인 값들 5. 밀도기반 : 밀도있는 데이터에서 떨어져 위치한 데이터 6. 군집 : 굴집으로 묶을 때 어떤 군집에서도 포함되지 않는 값

[빅데이터분석기사] 결측값의 종류 및 해결

종류 1. 완전무작위(MCAR : Missing Completly At Random) : 결측값이 결과값 혹은 다른 변수와 상관이 없음 (ex 관측치가 완전 랜덤함) 2. 무작위(MAR : Missing At Random) : 결측값이 결과엔 상관 없으나 다른 변수와는 상관있음 (ex 보수진영 투표자들의 응답률(결측치)이 낮으나 그렇다고 보수의 득표율(결과)이 낮은것은 아니다) 2. 비무작위(NMAR : Not Missing At Random) : 결측값이 결과에 상관이 있음 (ex 소득이 낮은 사람들의 응답률이 낮다) 처리 1. 삭제 (1) 특정 단일값 삭제 (2) 목록 삭제 : 무작위 결측에 적절 2. 대체(보완) (1) 평균대체법 : 평균, 중앙, 최빈값 등으로 대체. 빠른속도로 처리할 수 있으나 ..

[빅데이터분석기사, adsp]분석과제 발굴방법

하양식 접근법(top down) * 분석대상을 알고 있을때 사용 1. 문제탐색단계 (1) 비지니스 모델 탐색 기법 (2) 분석기회발굴의 범위 확장 - 역량의 변화 : 내부역량, 파트너 네트워크 (나) - 경쟁자확대 : 대체제, 경쟁자, 신규진입자 (너) - 시장니즈탐색 : 고객, 채널, 영향자 (외부) - 거시적관점 : 사회,기술,경제,환경,정치 (세계) (3) 참조 모델기반 문제 탐색 : quick and easy, 업무서비스별 (4) 분석유스케이스 : 현재 유사 및 동종사례 탐색 2. 문제정의단계 : 식별된 비지니스 문제를 데이터 문제로 3. 해결탐색단계 : 데이터분석 문제 해결 4. 타당성 검토 단계 : 경제적 타당성, 기술적 타당성, 데이터 존제 여부 상향식 접근법(bottom up) 1. 분석대..

[빅데이터분석기사,adsp] 데이터분석 거버넌스

개요 전사차원의 모든 데이터에 대해 정책 및 지침, 표준화, 운영조직 및 책임등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는것. 거버넌스 3대 구성요소 1. 원칙 : 데이터를 유지, 관리하기위한 지침, 가이드 2. 조직 : 데이터를 관리할 조직의 역할, 책임 3. 운영 : 데이터관리를 위한 활동과 체계 거버넌스 체계 1. 데이터 표준화 : 명명규칙, 메타데이터, 데이터사전 2. 데이터관리체계 : 데이터관리원칙 수립 3. 데이터저장소관리 : 메타 및 표준데이터 관리를 위한 전사차원의 저장소 구성 4. 표준화활동 : 거버넌스 체계 구축 후 표준준수여부 점검 분석준비도,성숙도, 결과진단 1. 분석준비도 (1) 분석인력 및 조직 (2) 분석문화 (3) 분석업무파악 (4) it인프..

[빅데이터분석기사,adsp] 빅데이터의 비유 4가지

1. 산업혁명의 석탄과 철 : 제조업, 서비스 분야 생산성 급증 2. 21세기 원유 : 필요한 정보를 제공 3. 생물학의 현미경 : 현미경이 생물학 발전에 끼쳤던 영향만큼 다양한 영항 끼치고 새로운 것을 발견하게함 (ex : 구글 ngram viewer) 4. 플렛폼 : 공동활용의 목적으로 구축된 유무형의 구조물 (ex: 페이스북, 카카오)

[빅데이터분석기사] 부문별 데이터베이스 발전과정

1. 제조부문 (1) 실시간 기업(RTE)이 대표적 화두 (2) 제조부문 ERP(전사자원관리, Enterprise Resource Planning) 시스템 도입과 dw, crm, bi등 기술 적용 2. 유통부문 (1) KMS(Knowledge Management System)를 위한 별도의 백업시스템 3. 물류부문 (1) CALS(commerce at light speed) : 제품생산, 설계, 개발, 유통에 이르기 까지 제품라이프사이클 전반의 데이터를 통합 (2) port-MIS : 항만운영정보시스템 (3) KROIS : 철도운영정보시스템 4. 지리부문 (1) GIS(Geograpic Information System) : 지리정보시스템 (2) LBS(Location-Based System) : 위치정..

DB/[이론] 2021.04.14

파이썬 매직메소드

메직메소드란? 특정 클래스의 객체가 builtin 함수(혹은 사칙연산)의 input값으로 사용될 때 그 output값을 정의하는것. 예를 들어 string의 객체인 a,b가 아래와 같이 있다고 하자. a="hi" b="bye" 이때 print()를 사용하면(print(a),print(b)) hi bye 위와 같이 나오고 a+b를 하면 hi bye 위와같은 결과를 얻는다. 그렇다면 우리가 직접 클래스를 정의하고 그 클래스의 객체가 print, +, add등의 built in 함수에 사용되었을 때 결과값을 정의해보자. 클래스 정의 및 매직메소드 정의 class Myclass: def __init__(self,name,tall): self.name=name self.tall=tall def __repr__(s..

데이터베이스 클러스터

정의 하나의 DB를 여러개의 서버상 구축(데이터 파티셔닝 : DB를 여러부분으로 분할) 데이터 통합시 성능, 가용성위해 DB차원의 파티셔닝 클러스터링 사용 장점 1. 병렬처리 : 빠른 데이터처리 검색 2. 고가용성 : 파티션에 장애생겨도 중단안됨 3. 선응향상 : 선형적 성능향상 리스크 공유 관점에서 구분 1. 무공유 (1) 완전히 분리된 데이터의 서브집합에 대한 소유권 갖음 (2) 각 데이터는 소유권 갖는 인스턴스가 처리 (3) 대부분 DB클러스터가 무공유 방식 (4) 장점 : 노드확장 제한없음 (5) 단점 : 별도의 폴트톨로런스 필요 2. 공유 (1) 각인스턴스는 모든 데이터에 접근 가능 (2) 데이터공유시 sah네트워크 필요 (3) 장점 : 폴트톨로런스 제공 (4) 단점 : 클러스터 커지면 병목현상..

DB/[이론] 2021.03.28

[ADP] CDC(Change Data Capture)

개념 1. DB내 데이터에 대한 변경 식별, 후속처리 자동화 2. 실시간 또는 근접 실시간 데이터 통합을 기반으로 DW구축 3. 스토리지 ~ 어플리케이션 등 다양한 계층, 다양한 기술로 구현 구현방법 1. time stamp on row : 변경이 반드시 인지되어야 하는 테이블 내 마지막 변경 시점을 기록하는 타임스템프 칼럼두고 변경 식별 2. version number on row : 변경이 인지되어야 하는 테이블 해당 레코드의 버전기록 칼럼을 두고 식별 3. status on rows : 1, 2의 보안용도. 데이터변경여부를 T/F로 저장 4. Time/version/status on rows : 1, 2, 3 모두 사용 5. triggers on tables : 트리거 이용하여 변경, 배포 6. e..

DB/[이론] 2021.03.22