ITPE & ADP

글

7월, 2016의 게시물 표시

계량적 MDS(Metric MDS)

개념 데이터가 구간척도이거나 비율척도인 경우에 활용 [cmdscale] > library(MASS) > eurodist Athens Barcelona Brussels Calais Cherbourg Cologne Copenhagen Geneva Gibraltar Barcelona 3313 Brussels 2963 1318 Calais 3175 1326 204 Cherbourg 3339 1294 583 460 Cologne 2762 1498 206 409 785 Copenhagen 3276 2218 966 1136 1545 760 Geneva 2610 803 677 747 853 1662 1418 Gibraltar 4485 1172 2256 2224 2047 2436 3196 1975 Hamburg 2977 2018 597 714 1115 ...

자세한 내용 보기

특정 컬럼 데이터 선택하기

> library(boot) > data(nodal) > head(nodal) m r aged stage grade xray acid 1 1 1 0 1 1 1 1 2 1 1 0 1 1 1 1 3 1 1 0 1 1 1 1 4 1 1 0 1 1 1 1 5 1 1 0 1 1 1 1 6 1 0 0 1 1 1 1 > a <- c(2,4,6,7) > data <- nodal[,a] > head(data) r stage xray acid 1 1 1 1 1 2 1 1 1 1 3 1 1 1 1 4 1 1 1 1 5 1 1 1 1 6 0 1 1 1

자세한 내용 보기

회귀분석

개념 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위한 분석 방법

자세한 내용 보기

기술통계(descriptive statistics)

개념 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것 자료를 요약하는 기초적 통계량을 의미 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해 봄으로써 데이터에 대한 대략적인 이해와 앞으로 분석에 대한 통찰력을 얻기에 유리

자세한 내용 보기

가설검정

개념 모집단에 대해 가설을 설정한 뒤 표본관찰을 통해 그 가설의 채택 여부를 결정하는 분석 방법 주요 용어 귀무가설(null hypothesis, H0) '비교하는 값과 차이가 없다', '동일하다'를 기본 개념으로 하는 가설 대립가설(alternative hypothesis, H1) 뚜렷한 증거가 있을 때 주장하는 가설 검정통계량(test statistic) 관찰된 표본으로부터 구하는 통계량 유의수준(significance level) 귀무가설을 기각하게 되는 확률의 크기 귀무가설이 옳은 데도 이를 기각하는 확률의 크기 기각역(critical region) 귀무가설이 옳다는 전제 하에서 구한 검정 통계량의 분포에서 확률이 유의수준인 부분

자세한 내용 보기

그룹화한 후 산점도 그리기

자세한 내용 보기

국가별 Wi-Fi AP 안전성 평가

보안업체 카스퍼스키랩의 '국가별 Wi-Fi AP 안전성 평가' 인포그래픽

자세한 내용 보기

통계(statistics)

개념 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현

자세한 내용 보기

사회연결망 분석(Social Network Analysis)

개념 개인과 집단 간의 관계를 노드와 링크로서 모델링 해 그것의 위상구조와 확산 및 진화 과정을 계량적으로 분석하는 방법론

자세한 내용 보기

앙상블 학습(Ensemble Learning)

개념 기계학습의 한 분류 방법을 통해 여러 개의 분류기(Classifier)를 생성하고 그것들의 예측을 결합함으로써 새로운 가설(Hyphothesis)를 학습하는 방법 다양한 분류기의 예측결과를 결합함으로써 단일 분류기보다 신뢰성이 높은 예측값을 얻는 것이 목표 학습 개념도 예측값 결함 과정 simple majority voting(투표방법)을 통해 예측값 결함 대상 분류기의 다양성(diversity)가 요구됨

자세한 내용 보기

부스팅(boosting)

개념 잘못 분류된 개체들에 집중하여 새로운 분류규칙을 만드는 단계를 반복하는 방법 약한 예측모형들을 결함하여 강한 예측모형을 만드는 것 원리 예측변수 순차적 생성 원자료(raw data)의 객체들에 동일한 가중치를 부여해서 시작 모델링을 통한 예측변수들에 의해 오분류된 개체들에게 높은 가중치 부여 정분류된 객체들에 낮은 가중치를 부여

자세한 내용 보기

배깅(bagging, bootstrap aggregating)

개념 배깅(bagging)은 bootstrap aggregation으로서, 주어진 데이터에 대해 여러 개의 bootstrap 자료를 생성하고 각 bootstrap 자료를 모델링 한 후 결함하여 최종의 예측 모형을 산출하는 방법 주어진 데이터(training set)에서 랜덤하게 subset을 N번 sampling 해서(observations과 features들을 random하게 sampling) N개의 예측모형을 만들어 개별 예측모형이 voding 하는 방식으로 예측결과를 결정(Low Bias는 유지하고 High Variance는 줄이는 방법) bootstrap 자료 : 단순 복원 임의 추출법(random sampling)을 통해 원자료(raw data)로 부터 크기가 동일한 여러 개의 표본 자료 예측변수 결합방법 목표변수가 연속형일 때 평균(average) 목표변수가 범주형일 때 투표(majority vote)

자세한 내용 보기

드론(Drone)

개념 조종사 없이 무선전파의 유도에 의하여 비행 및 조정이 가능한 비행기나 헬리콥터의 무인 항공기(UAV, Unmanned Aerial Vehicle)의 총칭 보안위협 GPS Spoofing GPS 위성항법신호와 동일한 신호 생성한 후 GPS 실제 신호보다 다소 높게 전송해서 수신기로 하여금 잘못된 위치 및 시각정보를 산출하도록 하는 취약점 GPS Jamming과 달리 GPS 신호를 복제, 위조하기 때문에 공격탐지 자체가 어려움 GPS Jamming GPS Jam을 이용하여 정상적인 GPS 신호와 같은 주파수 대역에 큰 신호 전력을 송신하여 수신을 방행 도청공격 통신 무단 도청을 통해 드론이 수집한 기밀, 개인정보 ㅇㅠ출 악성코드 감염 드론 S/W 업데이트, 외부 인터페이스 연결 등과 같은 과정에서 드론 전용 악성코드 감염 불법 탈취 후 키 해킹 비행 중인 트론을 불법 탈취한 후 충분한 시간과 장비로 역공학, 메모리 분석, 부채널 분석 등을 통해 비밀키 해킹 가능 불법 장치 탑재 불법/비인가 드론의 불법장치

자세한 내용 보기

데이터 마이닝(Data Mining)

개념 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법 데이터베이스 발전단계 데이터 수집(1960년대) 컴퓨터, 테이프, 디스크 데이터 접근(1970년대) RDBMS, SQL, ODBC 데이터웨어 하우징&의사결정지원(1980년대) OLAP, 데이터웨어하우스, 다차원데이터베이스 데이터 마이닝(1990년대 이후) 고급 알고리즘, 멀티프로세서 컴퓨터, 대용량 데이터베이스

자세한 내용 보기

데이터 마트(Data Mart)

개념 데이터 웨어하우스와 사용자 사이의 중간층에 이치하는 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스 데이터 마트 내 대부분의 데이터는 데이터 웨어하우스로부터 복제되지만, 자체적으로 수집될 수도 있으며, 관계형 데이터베이스나 다차원 데이터베이스를 이용하여 구축

자세한 내용 보기

주성분 분석(PCA, Principal Component Analysis)

개념 여러 변수들의 변량을 '주성분(Principal Component)'이라는 서로 상관성이 높은 변수들의 선형결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법 주성분 선택법 주성분분석의 결과에서 누적기여율(cumulative proportion)이 85% 이상이면 주성분의 수로 결정 scree plot을 활용하여 고유값(eigenvalue)이 수평을 유지하기 전단계로 주성분의 수 선택

자세한 내용 보기

CNN(Convolutional Neural Networks)

CNN 4 steps There are four main steps in CNN : convolution, subsampling, activation and full connectedness Step 1: Convolution The first layers that receive an input signal are called convolution filters. Convolution is a process where the network tries to label the input signal by referring to what it has learned in the past. If the input signal looks like previous cat images it has seen before, the "cat" reference signal will be mixed into, or convolved with, the input signal. The resulting output signal is then passed on to the next layer. Convolution has the nice property of being translational invariant. Intuitively, this means that each convolution filter represents a feature of interest, and the CNN algorithm learns which features comprise the resulting reference. The output signal strength is not dependent on whare the features are located, but simply whether the features are present. Hence, a cat could be sitting ...

자세한 내용 보기

추정(estimation)

점추정(point estimation) 모수가 특정한 값일 것이라고 추정하는 것 점추정의 조건 불편성(unbiasedness) 모든 가능한 표본에서 얻은 추정량의 기대값 효율성(efficiency) 추정량의 분산이 작을 수록 좋음 일치성(consistency) 표본의 크기가 아주 커지면, 추정값이 모수와 거의 같아짐 충족성(sufficiency) 추정량이 모수에 대해 모든 정보를 제공 구간추정(interval estimation) 점추정의 정확성을 보완하기 위해 확률로 표현된 믿음의 정도 하에서 모수가 특정한 구간에 있을 것이라고 선언하는 것 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준, confidence interval)가 주어져야 함

자세한 내용 보기

탐색적 자료 분석(EDA, Exploratory Data Analysis)

개념 다양한 차원과 값을 조합해 가며 특이한 점이나 의미있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법들의 통칭 EDA 4가지 주제 저항성의 강조 잔차 계산 자료변수의 재표현 그래프를 통한 현시성

자세한 내용 보기

텍스트 마이닝(Text Mining)

개념 텍스트로부터 고품질의 정보를 도출하는 과정으로 입력된 텍스트를 구조화해 그 데이터에서 패턴을 도출한 후 결과를 평가/해석하는 과정 다양한 포맷의 문서로부터 단어의 매트릭스로 만들어 추가분석이나 데이터마이닝 기법을 적용해 통찰(insight)을 얻거나 의사결정을 지원하는 방법 감성분석(sentiment anaysis), 워드 클라우드(word cloud), 문서의 요약(summarization), 분류(classification), 군집(clustering), 특성추출(feature extraction) 등에 활용 텍스트 마이닝 기능 문서 요약(summarization) 문서 분류(classification) 문서 군집(clustering) 특성 추출(feature extraction) 정보 검색의 적절성 정확도(precision) : 분석 모델이 결과 중에서 정답과 일치하는 비율 재현율(recall) : 실제 정답 중에서 분석 모델에서 정답이라고 내놓은 결과의 비율 Corpus 텍스트 마이닝 절차 중 텍스트의 정제, 통합, 선택, 변환의 과정을 거친 구조화된 단계로서 더 이상 추가적인 절차 없이 텍스트 마이닝 알고리즘 실험에서 활용될 수 있는 상태 VCorpus 메모리에서만 유지하는 Corpus PCorpus R외부의 DB나 파일로 관리되는 Corpus Term-Document Matrix 문서번호와 단어 간의 사용 여부 또는 빈도수를 이용해 만들어진 matrix Dictionary 복수의 문자들의 집합으로 분석에 사용하고자 하는 단어들의 집합

자세한 내용 보기

연관분석(Association Analysis)

개념 기업이 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위한 분석 흔히 장바구니 분석(Market Basket Analysis), 순차분석(Sequence Analysis)이라고 불림 장바구니 분석 장바구니에 무엇이 같이 들어있는지에 대한 분석 순차분석 A를 산 다음에 B를 산다 연관석 분석의 측도 지지도(support) : 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율 신뢰도(confidence) : 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률 향상도(lift) : A가 주어지지 않았을 때의 품목 B의 확률에 비해 A가 주어졌을 때의 품목 B의 확률의 증가 비율

자세한 내용 보기

SRTP(Secure Real-Time Transport Protocol)

개념 SRTP는 실시간으로 전송되는 멀티미디어 데이터를 암호화하여 송수신하는 프로토콜 RTP 패킷의 암호화, 메시지 인증, 재전송 공격 방어 등의 정보 보호 서비스 제공 특징 1) 보안측면 Payload 암호화 RTP/RTCP Packet의 무결성 보장 및 Replay packet 보호 2) 기능측면 새로운 암호 변환 체계 제공 낮은 bandwidth 비용 3) 변환측면 낮은 처리비용, 적은 공간 차지(code size, data info, replay list) Transport, Network, Physical Layer에 대한 독립적 RTP 패킷 손실, 재전송에 대한 강한 내성 구조 크기(header/payload) : 12+2 / 170byte payload 암호화 : AES, ARIA, etc 추가 Header : RTP Header + Authentication Tag, Master Key Identifier cryptographic transform

자세한 내용 보기

RTP(Real-Time Transport Protocol)

개념 멀티미디어(영상, 오디오) 패킷을 전송하기 위한 프로토콜 구조

자세한 내용 보기

ATLAS

자세한 내용 보기

IBM watson

자세한 내용 보기

베이즈 정리(Bayes' theorem)

개념 베이즈 정리(Bayes' theorem)는 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리 사전확률 P(A)와 우도(B|A)를 안다면, 사후확률 P(A|B)를 알수 있음 용어 사전 확률(prior probability) : A(원인)가 발생할 확률 P(A)와 같이 결과가 나타나기 전에 결정되어 있는 확률 우도(likelihood probability) : A(원인)가 발생하였다는 조건하에서 B(결과)가 발생할 확률, P(B|A) 사후 확률(posterior probability) : B(결과)가 발생하였다는 조거나에서 A(원인)가 발생하였을 확률

자세한 내용 보기

Data Partition

자세한 내용 보기

CART(Classification and Regression Trees) 알고리즘

개념 CART는 지니 지수(범주형 목표변수인 경우 적용) 또는 분산의 감소량(연속형 목표변수인 경우 적용)을 이용하여 이진분리(binary split)를 수행하는 알고리즘 stopping criteria all cases in a node have identical values for all predictors the depth of the tree has reached its pre-specified maximum value the size of the node is less than a pre-specified minimum node size the node becomes pure the maximum decrease in impurity is less than a pre-specified value

자세한 내용 보기

decision tree(의사결정분석)

개념 의사결정규칙(decision rule)을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류(classification)하거나, 예측(prediction)을 수행하는 분석 방법 분석단계 의사결정나무 형성 : 분석의 목적과 자료구조에 따라 적절한 분리 기준(split criterion)과 정지규칙(stopping rule)을 지정 가지치기 : 분류오류(classification error)를 크게 할 위험(risk)이 높거나 부적절한 규칙을 가지고 있는 가지(branch) 제거 타당성 평가 : 이익도표(gains chart)나 위험도표(risk chart) 또는 검정용 자료(test data)에 의한 교차타당성(cross validation) 등을 이용 해석 및 예측 : 의사결정나무를 해석하고 분류 및 예측모형 설정 응용분야 세분화(segmentation) : 관측개체를 비슷한 특성을 갖는 몇 개의 그룹으로 분할하여 각 그룹별 특성을 발견하고자 하는 경우 분류(classification) : 여러 예측변수(predicted variable)에 근거하여 목표변수(target variable)의 범주를 몇 개의 등급으로 분류하고자 하는 경우 예측(prediction) : 자료로부터 규칙을 찾아내고 이를 이용하여 미래의 사건을 예측하고자 하는 경우 차원축소 및 변수선택(data reduction and variable screening) : 매우 많은 수의 예측변수 중에서 목표변수에 큰 영향을 미치는 변수들을 골라내고자 하는 경우 교호작용효과의 파악(Interaction effect identification) : 여러 개의 예측변수들이 결합하여 목표변수에 작용하는 교호작용을 파악하고자 하는 경우 범주의 병합 또는 연속형 변수의 이산화(Category merging and discretizing continuous variable) : 범주형 목표변수의 범주를 소수의 몇 개로 병합하거나 연속형 목표변수를 몇 ...

자세한 내용 보기

K-S statistic(Kolmogorov-Smirnov Statistic)

개념 두집단(우량/불량) 간의 누적분포함수의 차이를 비교하여 동일한 분포에서 나왔는지를 검정하는 방식 누적분포함수의 거리가 최대가 되는 두 분포의 거리를 산출하여 거리의 값이 클수록 두 집단은 다른 분포에서 나온 것으로 판단

자세한 내용 보기

ROC curve(receiver operating characteristic)

개념 ROC curve는 어떤 예측의 판단결과(binary classifier)의 performance를 보여주는 그래프 TPR(Ture Positive Rate) or sensitivity를 y 축으로, FPR(False Positive Rate) or 1-specificity를 x 축으로 표시(TPR과 FPR은 trade-off 관계) TPR = y축 = sensitivity = TP/(TP+FN) FPR = x축 = 1-specificity = 1-[TN/(TN+FP)] AUC(Area Under the Curve) ROC curve의 아래 면적 AUC가 1에 가까우면 sensitivity와 specificity가 모두 높은 것으므로 좋은 분류 모델 AUC가 0.5 이하이면 랜덤한 선택과 유사 또는 더 낮은 성능

자세한 내용 보기

마부작침

도끼를 갈아 바늘을 만든다는 뜻

자세한 내용 보기

내적(dot product)

개념 한 벡터가 다른 벡터에 투영된 길이 값 dot(A, B) : B를 A 위치로 회전했을 때 투영되어 직교되는 위치만큼의 크기 값 각 벡터를 normalize(정규화)한 후의 스칼라 곱의 결과값이며, 두 벡터의 코사인 값과 일치

자세한 내용 보기

이상값(outliers)

개념 다른 대부분의 데이터와 상이한 특성을 가지는 자료, 또는 전형적인 값이 아닌 비정상적인 값 이상값 찾는 방법(outlier detection) (1) 단변량인 경우(univariate approach) 방법1 : n이 10보다 큰 자료의 도수 분포가 종형일 때, 이 자료에서 측정값의 z-value가 3이상 또는 -3 이하인 것들은 모두 이상값으로 판단 방법 2 : 자료의 제1사분위수(Q1), 제3사분위수(Q3) 및 사분위간 범위인 IQR = Q3-Q1를 계산하여 Q1-1.5xIQR 보다 작거나 Q3+1.5xIQR 보다 큰 값을 가진 측정값들을 자료에서 찾아 이상값으로 판단 (2) 이변량인 경우(Bivariate Approach) 범주별로 상자그림(box plot)을 그려서 추세 파악

자세한 내용 보기

결측값(missing value) handling

Boston data [missing vlaue generation] 1. deleting the observations 2. deleting the variable [missing vlaue handling] 3. imputation with mean/median/mode 4. prediction 4.1 KNN imputation 4.2 rpart : decision tree 5. evaluation verification 5.1 mean imputation 5.2 KNN imputation 5.3 rpart R Code ### Missing Values ####### # initialize the data # load the data install.packages("MASS") library(MASS) data(Boston) dim(Boston) original <- Boston # backup original data # Introduce missing values set.seed(100) Boston[sample(1:nrow(Boston), 40), "rad"] <- NA Boston[sample(1:nrow(Boston), 40), "ptratio"] <- NA head(Boston) # 1. Deleting the observations, if na exist na.omit action, when use lm, omit is default # lm(medv ~ ptratio + rad, data=Boston, na.action=na.omit) lm(medv ~ ptratio + rad, data=Boston) ## 2. Deleting the variable ## when variable missing is many, the variable elim...

자세한 내용 보기

NVMe(Non-Volatile Memory Express)

개념 SSD와 같은 저장장치와 호스트 소프트웨어(디바이스 드라비어)간 통신을 위한 레지스터 레벨의 인터페이스 NVM Express(NVMe) or Non-Volatile Memory Host Controller Interface Specification(NVMHCI) is a logical device interface specification for accessing non-volatile storage media attched via PCI Express(PCIe) bus. AHCI(Advanced Host Controller Interface) The Advanced Host Controller Interface(AHCI) specification describes the register-level interface for a host controller for Serial ATA. The Specification includes a description of the interface between system software and the host controller hardware.

자세한 내용 보기

로지스틱 회귀모형

Code(1) Sys.setenv(JAVA_HOME='C:\\Program Files\\Java\\Jdk1.7.0_79') library(xlsx) mower.data <- read.xlsx("c:/ian_R/mower.xlsx",1) head(mower.data) mower.logit <- glm(owner~.,family=binomial, data=mower.data) summary(mower.logit) 1-pchisq(15.323, 21) Result(1) Call: glm(formula = owner ~ ., family = binomial, data = mower.data) Deviance Residuals: Min 1Q Median 3Q Max -1.74044 -0.29685 0.00439 0.44750 1.86821 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -25.9382 11.4871 -2.258 0.0239 * income 0.3326 0.1629 2.042 0.0412 * size 1.9276 0.9256 2.083 0.0373 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 33.271 on 23 degrees of freedom 상수항만이 포함된 모형으로 적합할 대 모형추정 값과 관찰값의 차이에 관한 통계량 Residual deviance: 15.323 on...

자세한 내용 보기

로지스틱 회귀분석(logistic regression)

개념 반응변수가 0, 1과 같은 가변수(dummy variable)인 경우에 이용되는 모형으로서, 독립변수들이 다변량 정규분포를 따르지 않는 경우에도 판별분석에 유용하게 이용되는 모형

자세한 내용 보기

O2O(Online to Offline)

개념 쇼루밍 : 오프라인 매장에서 상품을 확인하고 온라인에서 저렴한 상품을 구매하는 방식 역쇼루밍 : 온라인에서 상품을 검색, 비교한 뒤 오프라인 매장에서 물건을 구입하는 방식

자세한 내용 보기

지오펜스(Geofence)

개념 지리를 뜻하는 지오그래픽(Geographic)과 울타리를 뜻하는 펜스(Fence)의 합성어로 가상의 경계로 구획된 영역

자세한 내용 보기

xlsx 패키지가 fJava 때문에 로딩 안되는 것 해결

문제 R에서 xlsx 파일 읽기위해 xlsx 패키시 설치시 패키지 'rJava'는 로드되어질 수 없습니다. 에러 발생 원인 R의 32, 64 비트 여부와 Java의 32, 64 비트 여부가 달라서 문제가 발생 해결 R과 Java을 32, 64 비트로 통일 # 32비트 -> c:\Program Files(x86)\java 64비트 -> c:\Program Files\Java Sys.setenv(JAVA_HOME='C:\\Program Files\\Java\\Jre1.8.0_31') library(xlsx)

자세한 내용 보기

판별분석

# 판별분석 실행 library(MASS) alcohol.lda <- lda(TYPE~. , data=alcohol.data) # TYPE은 그룹변수, 나머지 변수 모두 사용 alcohol.lda

자세한 내용 보기

판별분석(discriminant analysis)

개념 측정된 변수들을 이용하여 각 개체들이 2개 이상의 그룹 중 어느 그룹에 속하는지를 판별하는 분석방법

자세한 내용 보기

다차원척도법(MDA, Multidimensional Scaling)

개념 MDS(Multidimensional Scaling)은 개체들 사이의 유사성(similarity) 또는 비유사성(dissimilarity)을 이용하여 개체들을 다차원 공간상에 점으로 표현하는 방법

자세한 내용 보기

군집분석(Cluster Analysis)

개념 여러 개체들을 대상으로 몇 개의 특성변수들을 측정한 후 이 변수들을 이용하여 개체들 사이의 유사성(similarity), 비유사성(dissimilarity)의 정도를 측정하여 개체들을 가까운 순서대로 군집화하는 통계분석방법 사전에 알려진 군집에 대한 정보가 없다고 가정(군집의 개수나 구조에 대한 가정 없이 데이터로부터 거리를 기준으로 군집화 유도) 특징 비지도학습(unsupervised learning)에 해당 : 목표변수(종속변수)의 정의가 없이 학습 가능 데이터를 분석의 목적에 따라 적절한 군집으로 분석자가 정의 가능 판별분석과 차이 : 판별분석은 사전에 집단이 나누어져 있어야 하지만, 군집분석은 집단이 없는 상태에서 집단을 구분 분류 계층적방법(hierarchical method) 사전에 군집수 K를 정하지 않고 단계적으로 서로 다른 군집결과를 제공하는 방식 종류 : 집괴법(agglomerative method), 분리법(divisive method) 비계층적방법(non-hierarchical method) 사전에 군집수 K를 정한 후 각 객체를 K개 중의 하나 군집에 배정하는 방식 각 군집의 대표값 또는 대표객체 고려 필요 계층적방법 종류 집괴법(agglomerative method) 각 객체를 하나의 군집으로 간주함을 시작으로 유사한 객체들을 묶어 군집으로 만들고 다시 유사한 군집들을 묶어 새로운 군집을 만들어가는 과정을 전체의 객체가 하나의 군집이 되기까지 반복한 후, 어떤 규칙에 의해 최종적인 군집결과를 제공하는 방식 분리법(divisive method) 전체 객체를 하나의 군집으로 간주함을 시작으로 유사성이 떨어지는 객체들을 분리시켜 다른 군집으로 만들어가는 과정을 각 객체가 하나의 군집이 될 때까지 반복한 후, 어떤 규칙에 의하여 최종적인 군집결과를 제공하는 것 집괴법의 역순 거리측정 연속형 데이터 : 유클리드 거리, 표준화 거리, 마할...

자세한 내용 보기

이순신 장군의 군사전략에서 미래예측에 적용할 수 있는 4가지 전략

미래예측 4가지 전략 전략 1. 미래 징후를 읽고 미리 준비하라. 전략 2. 최대한 많은 정보를 완벽히 파악하라. 전략 3. 다양한 가능성을 생각하고 가상의 시나리오를 짜라. 전략 4. 부분이 아닌 전체를 보고 행동에 임하라.

자세한 내용 보기