8월, 2016의 게시물 표시

디스패치(dispatch)

개념 다중 태스킹 환경에서 우선순위가 가장 높은 작업이 수행될 수 있도록 시스템 자원을 할당하는 것

스레드(Thread)

개념 스레드란 실제적으로 명령어가 CPU를 사용하여 실행되어지는 객체의 단위 window 운영체제는 하나의 프로세스에서 여러 개의 스레드가 실행될 수 있도록 하고 있으며, 스레드는 같은 프로세스에 있는 자원과 상태를 공유함 같은 프로세스 내에 있는 스레드는 같은 주소 공간에 존재하게 되며, 동일한 데이터에 접근할 수 있고, 하나의 스레드가 수정한 메모리는 같은 메모리를 참조하는 스레드에 영향을 미치게 되며, 하나의 스레드에서 오픈한 파일을 다른 스레드가 사용할 수 있음 프로세스에 속한 스레드들은 그 프로세스의 상태에 지배를 받게 되므로, 만약 그 프로세스가 종료하게 되면 이에 속한 모든 스레드 또한 종료 프로세스와 스레드 프로세스에 대한 특성은 프로그램을 실행하는 자원이라는 측면과 실행되는 제어의 흐름 등 두 가지 요소로 정리 가능 자원이라는 의미에서 운영체제는 프로세스를 저장하고 표현하기 위해 프로세스 제어 블록과 같은 정보를 갖고 있어야 하므로 프로세스를 생성하고 유지 관리하는데 많은 비용이 필요 프로세스가 실행될 때의 제어만을 분리한 개념을 스레드 또는 경량 프로세스(LWP, Light Weight Process) 라고 함

지도학습(supervised learning) & 비지도학습(unsupervised learning)

지도학습(supervised learning) 명확한 목적하에 데이터 분석을 실시하며, 분류, 추측, 예측, 최적화를 통해 사용자의 주도 하에 분석을 실시하고 지식을 도출하는 것 결과로 도출되는 값에 대해 사전에 인지하고 어떠한 데이터를 넣었을 때 어떠한 결과가 나올지를 예측하는 것 예 : O와 X를 구분 짓는 분류(classification) 비지도학습(unsupervised learning) 데이터 분석의 목적이 명확히 정의된 형태의 특정 필드의 값을 구하는 것이 아니라 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현하는 것 목표 값을 사전에 정의하지 않고 데이터 자체 만을 가지고 그룹들을 도출함으로써 해석이 용이하지는 않지만, 새로운 유형의 인사이트를 도출하기에 유용한 방식으로 활용 예 : 데이터마이닝 기법에서 장바구니 분석, 군집분석, 기술통계 및 프로파일링

KDD 분석 방법론

이미지
개념 KDD(Knowledge Discovery in Databases)는 1996년 Fayyad가 체계적으로 정리한 데이터 마이닝 프로세스 데이터베이스에서 의미있는 지식을 탐색하는 데이터 마이닝부터, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조 패턴 찾는 프로세스(9개 단계) 분석 대상 비즈니스 도메인의 이해 분석 대상 데이터셋 선택과 생성 데이터에 포함되어 있는 노이즈(Noise)와 이상값(outlier) 등을 제거하는 정제작업이나 전처리 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경 분석 목적에 맞는 데이터 마이닝 기법 선택 분석 목적에 맞는 데이터 마이닝 알고리즘 선택 데이터 마이닝 시행 데이터 마이닝 결과에 대한 해석 데이터 마이닝에서 발견된 지식 활용

시각화 방법

개념 정형 데이터와 비정형 데이터를 아우르는 빅데이터에서는 분석이 중요하기 때문에 시각화에 대한 요구사항도 더욱 다양 단순히 데이터 분석 결과 만을 제시하는 것이 아니라, 때로는 분석된 결과를 중심으로 연결된 다양한 정보를 탐색, 조회하기 위한 UX 관점의 구현에 대한 요구가 강조 시각화 플랫폼 방법 플랫폼의 설치, 구축 필요, 플랫폼에서 제공하는 기능/명령어 실행을 통한 시각화 도구 Cognos Insight, Information Builders, PowerPivot, PowerView, Visual Insight, QliKView, Visual intelligence, SAS Enterprise  Business Intelligence , Tableau , Tibco Spotfire Analytics, R , WolframAlpha, Better World Flux, Dipity, Many Eyes, Excel, CartoDB, Weka, Gephi 시각화 라이브러리 방법 라이브러리 설치 필요, 라이브러리가 제공하는 API로 코드 작성해 시각화 도구 Flot, Rapha 1, Modest Maps, Leaflet, Timeline, Exhibit, jQuery Visualize, jqPlot, D3.js , JavaScript InfoVis Toolkit, jpGraph, Highcharts, Google Charters , Crossfilter, Tangle, Polymaps, OpenLayers, Kartograph, Processing, NodeBox 인포그래픽스 방법 웹 서비스 형태로 제공되며 회원 가입 필요, 제공되는 템플릿으로 인포그래픽스 구현 도구 iCharts, Visualize Free, Visual.ly

랜덤포레스트(random forest)

개념 bagging 계열의 대표적이며, 예측력이 우수한 알고리즘 예측결과의 정확성(Low Bias)는 개별 예측모형에 쓰이는 알고리즘(decision tree)의 평균값으로 유지되는 반면, 낮은 안정성(High Variance)는 Central Limit Theorem에 의해 낮아짐(N개의 Decision Tree가 투표를 통해 결정하는 방식)

중심극한정리(Central Limit Theorem)

개념 모집단의 분포와 무관하게 표본의 크기가 충분히 크면 표본들의 평균(표본평균)의 분포가 정규본포를 따르는 원리

분류기(Classifier)

개념 데이터를 특정 class로 분류하는 알고리즘 기계학습/데이터 마이닝의 대표적인 도구(분류기)

표본 추출 방법

개념 표본조사에서 중요한 것은 모집단을 대표할 수 있는 표본 추출이며, 표본 추출방법에 따라 분석결과의 해석에 차이가 발생 표본추출방법 종류 단순랜덤추출법(Simple Random Sampling) 각 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법 복원 추출과 비복원 추출로 구분됨 계통추출법(Systematic Sampling) 모집단을 K개씩 n개의 구간으로 나누고 첫 구간에서 하나를 임의로 선택한 후 K개씩 띄어서 표본을 선택 집락추출법(Cluster Random Sampling) 군집을 구분하고 군집별로 단순랜덤추출법을 사용 층화추출법(Stratified Random Sampling) 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법 유사한 원소끼리 몇 개의 층(stratum)으로 나누어 각 층에서 랜덤 추출하는 방법 표본추출방법 활용 가구대상 전국조사의 경우 조사구 선택은 층화추출방법을 이용하고, 조사구 내 읍면동을 선택할 경우에는 집락추출방법을, 읍면동 내의 최종 가구를 선택할 경우에는 번지번호는 주택위치에 따른 계통추출방법 사용

USArrests(1973년 미국 50개주 십만명당 강력범죄수)

# 4개 변수간 산점도 > library(datasets) > data("USArrests") > pairs(USArrests, panel=panel.smooth, main="USArrests data")     # 주성분 분석실시 > US.prin <- princomp(USArrests, cor=TRUE)     # 주성분 분석결과 요약 > summary(US.prin) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 1.5748783 0.9948694 0.5971291 0.41644938 Proportion of Variance 0.6200604 0.2474413 0.0891408 0.04335752 Cumulative Proportion 0.6200604 0.8675017 0.9566425 1.00000000     # Murder, Assault, UrbanPop, Rape 4개 변수의 주성분 Comp.1~Comp.4에 대한 기여도 > loadings(US.prin) Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Murder -0.536 0.418 -0.341 0.649 Assault -0.583 0.188 -0.268 -0.743 UrbanPop -0.278 -0.873 -0.378 0.134 Rape -0.543 -0.167 0.818 Comp.1 Comp.2 Comp.3 Comp.4 SS loadings 1.00 1.00 1.00 1.00 Proportion Var 0.25 0.25 0.25 0.25 Cumulative Var 0.25 0