씩씩한 IT블로그

케라스(keras) 함수적 api

keras의 계층적 구성은 input을 유연하게 쓰는데(계층별로 다르게 쓰는데) 한계가 있다.따라서 함수적 api 사용을 통해서 계층별로 필요한 input값을 넣어서 모델을 구성할 수 있다.다음과 같은 모델을 구성하여 보자.1. input은 세개 (title,body,tags)가 있다2. title과 body는 embedding,LSTM의 과정을 거친 후 tags input과 concatenate한다.3. output layer를 각기다른 2개로 구성하여 priority, department 두개로 만든다. 1. 모델 함수화from tensorflow.keras import layersfrom tensorflow import keras'''input의 구성: (input,output,첫번째인풋의 차원,..

데이터분석/딥러닝 2020.06.27

DNN이용하여 thin, normal, fat 분류

1. 데이터 전처리import numpy as npimport pandas as pdimport tensorflow as tffrom tensorflow.keras import layers #모듈(변수나 함수를 포함)만 불러오기# BMI 데이터를 읽어 들이고 정규화하기csv = pd.read_csv("bmi.csv")# 몸무게와 키 데이터(정규화)csv["weight"] /= 100 csv["height"] /= 200 X = csv[["weight", "height"]].as_matrix()print(csv)# 레이블bclass = {"thin":[1,0,0], "normal":[0,1,0], "fat":[0,0,1]}y = np.empty((20000,3)) # 2000x3 크기의 다..

데이터분석/딥러닝 2020.06.27

[백준]1036 36진수 #그리디#자릿수#정렬

1. 풀이 (1) 각 숫자별(0~35) 자릿수에 의한 값을 저장해놓는 배열을 만든다. ex) AB 3C 수 (i) 0 1 2 3 4 5 6 7 8 9 10 A B c ... Z 자릿수 값(v[i]) 0 0 0 36 0 0 0 0 0 0 0 36 1 1 0 0 (2) 35로 바꿨을 때 가장 차이가 큰 수부터 차례대로 35로 바꾼다. 즉 수가 i이고, 그 수의 자릿수 값이 v[i]일때, (35-i)*v[i] 가 큰 순서대로 값을 바꾼다. * 그냥 v[i]가 작은것 부터 해서 틀렸음! 2. 소스코드 N=int(input()) L=[] for i in range(N): L.append(input()) K=int(input()) digit=[[i,0] for i in range(36)] def toThree(nu..

알고리즘/수학 2020.06.27

[백준]1016 제곱ㄴㄴ수 #에라토스테네스의 체 응용

1. 풀이 에라토스테네스의 체를 풀 때 처럼 처음에 검사할 숫자만큼 배열을 만들고 제곱 ㅇㅇ수를 삭제하는 식으로 문제를 해결하면된다. 이때 수의 크기 자체는 크고(1,000,000,000,000), min과 max사이의 차이(1,000,000)는 작기때문에 검사를 1부터 하는게 아니라 min부터 한다. ex) min=1001, max=5015 일때 isNoNo=[1,1,1,1....1] (길이는 5015-1001+1) 배열을 만든다. (1) 이후 가장 작은 제곱수인 4(=2^2)부터 차례대로 탐색. 이때 1부터가 아닌 min에 가장 가까운수부터 탐색. (=1004) 제곱수 제곱 ㅇㅇ수 4 1004 1008 1012 1016 1020 1024 1028 ... 5012 (2) 그 다음 가장 작은 제곱수 9(..

알고리즘/수학 2020.06.27

분산 데이터베이스

분산데이터 베이스란? 물리적으로 떨어진 DB에 네트워크연결. 단일이미지를 모두에게 보여주고 분산작업 수행가능 투명성 : 사용자가 데이터베이스가 분산되어있는지 여부 인식 못함 1. 분할투명성 : 분할됨을 알지못함 2. 위치투명성 : 저장장소 알지못함 3. 지역 사상 투명성 : 지역 사상 보장, 무관한 이름 사용가능 4. 중복 투명성 : 중복되어 존재해도 일관성 유지 5. 장애 투명성 : 각 지역의 통신망 이상발생시에도 일관성 유지 6. 병행 투명성 : 여러 고객의 응용 프로그램이 동시에 분산 데이터 베이스에 대한 트랜잭션 수행하여도 이상x 장단점 1. 장점 : 신뢰성 가용성 높음(한 곳에서 접근이 불가능해도 다른 곳에서 가능), 빠른응답, 용량확장 용이 2. 단점 : 관리,통제 어려움, 보안관리 어려움, ..

DB/[이론] 2020.06.26

분석의 종류

1. Descriptive Analytics : 무엇인지? - clustering, association rule 2. Diagnostic Analytics : 왜그런지? 3. Predictive Analytics : 어떻게 될것인지? - classification, regression, anomaly detection 4. Prescriptive Analytics : 어떻게 할것인지?

데이터분석/[ 이론 ] 2020.06.26

군집분석

1. 계층적군집 : 가까운 개체끼리 묶거냐 멀리 떨어진 개체를 분리 (1) 합병(병합형)형 : 가장 가까운 두개를 하나의 그룹으로 묶는것을 반복하여 하나의 군집만듦 - 최단연결법 : 묶인것들중 가장 짧은것을 해당그룹의 길이로 - 평균연결법 - 와드연결법 - 중심연결법 - 완전연결법 (2) 분할군집(partitonal clustering) : 전체를 두개의 군집으로 분할하는 것을 시작으로 계속 나누어감 - 다이아나 2. 분할적(최적분화, partitional clustering) : 다변량 자료의 산포를 나타내는 여러 측도를 이용하여 최적화하여 군집 (1) k 클러스터링 - k-means - k-median... (2) 밀도기반 - DBSCAN - OPTICS - DENCLUE (3) 격자기반 - STIN..

데이터분석/분석-비지도학습 2020.06.26

[ERD] 엔티티

엔티티란 - 실 세계에 존재하는 의미있는 하나의 정보 단위 - ex) 회원(이름, 성별, 아이디, 주소, 전화번호) 특징 (1) 식별자 : 유일한 식별자가 있어야 한다 (2) 인스턴스 집합 : 2개 이상의 인스턴스가 있어야 한다 (3) 속성 : 반드시 속성을 가지고 있어야 한다 (4) 관계 : 다른 엔티티와 최소한 한개 이상의 관계가 있어야 한다 (5) 업무 : 업무에서 관리되어야 하는 집합이다. 종류 1. 유무형에 따라 - 유형 엔티티 : 업무에서 도출되며 지속적으로 사용되는 엔티티 (EX: 고객, 강사, 사원...) - 개념 엔티티 : 물리적 형태가 없는 엔티티 (EX: 거래소 종목, 코스닥 종목, 보험상품) - 사건 엔티티 : 비즈니스 프로세스를 실행하면 생성되는 엔티티 (EX: 주문,체결,취소..

DB/[이론] 2020.06.26

ERD 작성 순서

1. 엔티티를 그린다 2. 엔티티를 배치한다 3. 엔티티의 관계를 설정한다 4. 관계명을 기술한다 5. 관계의 참여도를 기술한다 6. 관계의 필수 여부를 기술한다.

DB/[이론] 2020.06.26

정규화와 반정규화

정규화 반정규화 성능 저하(join으로 인한) 데이터 성능향상(select 속도 향상) 데이터 중복제거 데이터 중복허용 유연성,독립성 높음 유연성,독립성 낮음 데이터 용량 최소화

DB/[이론] 2020.06.26

모수검정과 비모수검정

1. 비모수검정 (1) 정의 : 자료가 추출된 모집단의 분포에 아무 제약을 가하지 않고 검정을 실시하는 방법 (2) 추출된 모집단의 분포에 아무 제약을 가하지 않고 검정 실시 (3) 관측된 자료의 수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우. (4) 비모수 검정의 예 - 부호검정 - 윌콕슨의 순위합 검정 - 만 위트니의 u검정 - 런 검정 - 스피어만의 순위상관계수 스피어만 - 서열척도 피어슨 - 등간척도 2. 모수적 검정 (1) 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에 검정 통계량과 분포를 유도해 검정 실시

데이터분석/통계 2020.06.26

맵리듀스(MapReduce)

1. 개념 - 구글에서 분산 병렬 컴퓨팅을 이용해 대용량 데이터를 처리하기 위한 목적으로 제작한 소프트웨어 프래임워크 - map mask 하나가 1개의 블록을 대상으로 연산을 수행 - 사용자가 지정한 개수에 해당되는 reduce task들이 받아와서 정렬 및 필터링 작업 후 최종 결과물 만들어냄 2. 폴트톨러런스 - 각 프로세스에서는 master에게 task진행 상태를 주기적으로 보낸다

DB/[이론] 2020.06.26

오류의 종류

1. 제 1종 오류 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류 => 맞는데 틀렸다고 하는 경우! 2. 제 2종 오류 귀무가설이 옳지 않은데도 귀무가설을 채택하게 되는 오류 => 틀렸는데 맞다고 하는 경우!

데이터분석/통계 2020.06.26

시각화 플랫폼, 시각화 라이브러리, 인포그래픽스

1. 시각화 플랫폼 : 다차원적인 데이터 분석 결과를 시각화하고 그 결과를 보고서로 생성하는 기능 지원 (1) 종류 : tableau, Gephi, visual insight, visual intelligence (2) 플렛폼 설치 구축 필요, 플렛폼에서 제공하능 기능, 명령어를 실행해 시각화. (3) 지식 시각화 관점에서 데이터 시가화 기능 지원 (다양한 관점에서 인사이트 얻을 수 있도록) 2. 시각화 라이브러리 (1) 종류 : tangle, google Cahrt, jQuery Visualize (2) 라이브러리 설치 후 라이브러리가 제공하는 api로 코드 작성, 시각화 3. 인포그래픽스 (1) 종류 : icharts, visualize free, visual.ly (2) 웹서비스 형태로 제공..

데이터분석/시각화 2020.06.26

[ADP] EAI(ESB)

개념 및 특징 1. EAI : Enterprise Application Integration 2. 비지니스 프로세스를 중심으로 기업 내 각종 어플리케이션간 상호연동이 가능하도록 통합하는 솔루션, 실시간 , 근십실시간 처리 3. 프로세스를 매세지 차원에서 통합관리 4. 실시간, 근접 실시간 5. 허브 앤 스포크 방식 : hub (다수 정보 시스템의 데이터를 중앙의 hub가 연계), spoke (각 연결의 대상이 되는 노드들) point to point : 기존의 연계방식, 시스템의 데이터를 중앙의 복잡성발생, 관리비용상승, 유지 보수성 감소 구성 요소 1. 어뎁터 : 각 정보 eai허브간 연결성 확보 2. 버스 : 어댑터를 매개로 연결된 각 정보 시스템들 간의 데이터 연동 경로 3. 브로커 : 데이터 연..

데이터분석/[ 이론 ] 2020.06.26

분석 프로젝트 관리 5가지 주요영역

1. datasize 분서하고자 하는 데이터 양 2. data complexity 데이터에 잘 적용될 수 있는 분석모델 선정 3. speed 분석결과 도출 시 이를 활용하는 시나리오 측면에서 속도 고려, 분석 모델의 성능 및 속도 고려한 개발 4. analytic complextiy 복잡도와 정확도는 트레이드오프관계, 해석이 가능하면서도 정확도 올릴 수 있는 최적 모델 찾기 5. accuracy&precision accuracy : 정확도, precision : 일관성(탄착군)

DB/[이론] 2020.06.25

분산데이터 저장기술 (구글파일시스템, 하둡분산파일시스템, 러스터)

구글파일시스템(GFS) 1. 정의: 파일을 고정된 크기의 청크들로 나누고 각 chunk에 대한 여러개의 복사본과 chunk를 청크서버에 분산 저장 2. 해시테이블 주로 사용, 효율적 메타데이터 처리 3. 마스터에 의해 생성, 삭제가능, 식별자로 유일하게 구분 4. 서버고장 빈번(저가형 서버) 5. 낮은 응답지연시간 보다 높은처리율이 중요 6. 구성요소 (1) 클라이언트 : 파일 읽기쓰기 동작 요청 어플리케이션 (2) 마스터 : 단일마스터구조, 모든메타데이터를 메모리에서 관리 (3) 청크서버 : 청크를 저장, 관리하며 클라이언트로 부터 chunk 입출력 요청 7. 동작 : 클라이언트는 마스터로 부터 chunk서버의 위치와 핸들을 받아온 뒤 직접 파일데이터에 요청 하둡 분산파일 시스템(HDFS) 1. 아..

DB/[이론] 2020.06.25

[ADP] 하둡(Hadoop)

하둡이란 대규모 분산 병렬 처리의 업계 표준인 맵리듀스 시스템과 분산 파일시스템인 HDFS를 핵심 구성요소로 가지는 플랫폼 기술. 여러 대의 컴퓨터를 마치 하나의 시스템인 것처럼 묶어 분산환경에서 빅데이터를 저장 및 처리 할 수 있도록 하는 자바 기반의 오픈소스 프레임워크 특징1. 비공유분산아키텍처 - 여러대의 서버(제한이 없음)로 클러스터를 만듦- 서버를 추가하면 연산기능과 저장 기능이 서버의 대수에 비례하여 증가2. 고장감내성- 저장되는 데이터가 3중복제, 데이터의 유실을 방지할 수 있음- 장애 발생시 특정 태스크만 다른 서버에서 재실행 가능3. 루씬의 서브프로젝트로 시작. 각종 개발자 커뮤니티에서 활발히 참여하며 크게 개선4. 맵+리듀스 2개의 함수만 구현하며 동작 에코시스템1. 워크플로관리- Zo..

DB/[이론] 2020.06.25

전체 글 708

티스토리툴바

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28