스레드(Thread)

개념 스레드란 실제적으로 명령어가 CPU를 사용하여 실행되어지는 객체의 단위 window 운영체제는 하나의 프로세스에서 여러 개의 스레드가 실행될 수 있도록 하고 있으며, 스레드는 같은 프로세스에 있는 자원과 상태를 공유함 같은 프로세스 내에 있는 스레드는 같은 주소 공간에 존재하게 되며, 동일한 데이터에 접근할 수 있고, 하나의 스레드가 수정한 메모리는 같은 메모리를 참조하는 스레드에 영향을 미치게 되며, 하나의 스레드에서 오픈한 파일을 다른 스레드가 사용할 수 있음 프로세스에 속한 스레드들은 그 프로세스의 상태에 지배를 받게 되므로, 만약 그 프로세스가 종료하게 되면 이에 속한 모든 스레드 또한 종료 프로세스와 스레드 프로세스에 대한 특성은 프로그램을 실행하는 자원이라는 측면과 실행되는 제어의 흐름 등 두 가지 요소로 정리 가능 자원이라는 의미에서 운영체제는 프로세스를 저장하고 표현하기 위해 프로세스 제어 블록과 같은 정보를 갖고 있어야 하므로 프로세스를 생성하고 유지 관리하는데 많은 비용이 필요 프로세스가 실행될 때의 제어만을 분리한 개념을 스레드 또는 경량 프로세스(LWP, Light Weight Process) 라고 함

지도학습(supervised learning) & 비지도학습(unsupervised learning)

지도학습(supervised learning) 명확한 목적하에 데이터 분석을 실시하며, 분류, 추측, 예측, 최적화를 통해 사용자의 주도 하에 분석을 실시하고 지식을 도출하는 것 결과로 도출되는 값에 대해 사전에 인지하고 어떠한 데이터를 넣었을 때 어떠한 결과가 나올지를 예측하는 것 예 : O와 X를 구분 짓는 분류(classification) 비지도학습(unsupervised learning) 데이터 분석의 목적이 명확히 정의된 형태의 특정 필드의 값을 구하는 것이 아니라 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현하는 것 목표 값을 사전에 정의하지 않고 데이터 자체 만을 가지고 그룹들을 도출함으로써 해석이 용이하지는 않지만, 새로운 유형의 인사이트를 도출하기에 유용한 방식으로 활용 예 : 데이터마이닝 기법에서 장바구니 분석, 군집분석, 기술통계 및 프로파일링

KDD 분석 방법론

이미지
개념 KDD(Knowledge Discovery in Databases)는 1996년 Fayyad가 체계적으로 정리한 데이터 마이닝 프로세스 데이터베이스에서 의미있는 지식을 탐색하는 데이터 마이닝부터, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조 패턴 찾는 프로세스(9개 단계) 분석 대상 비즈니스 도메인의 이해 분석 대상 데이터셋 선택과 생성 데이터에 포함되어 있는 노이즈(Noise)와 이상값(outlier) 등을 제거하는 정제작업이나 전처리 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경 분석 목적에 맞는 데이터 마이닝 기법 선택 분석 목적에 맞는 데이터 마이닝 알고리즘 선택 데이터 마이닝 시행 데이터 마이닝 결과에 대한 해석 데이터 마이닝에서 발견된 지식 활용

시각화 방법

개념 정형 데이터와 비정형 데이터를 아우르는 빅데이터에서는 분석이 중요하기 때문에 시각화에 대한 요구사항도 더욱 다양 단순히 데이터 분석 결과 만을 제시하는 것이 아니라, 때로는 분석된 결과를 중심으로 연결된 다양한 정보를 탐색, 조회하기 위한 UX 관점의 구현에 대한 요구가 강조 시각화 플랫폼 방법 플랫폼의 설치, 구축 필요, 플랫폼에서 제공하는 기능/명령어 실행을 통한 시각화 도구 Cognos Insight, Information Builders, PowerPivot, PowerView, Visual Insight, QliKView, Visual intelligence, SAS Enterprise  Business Intelligence , Tableau , Tibco Spotfire Analytics, R , WolframAlpha, Better World Flux, Dipity, Many Eyes, Excel, CartoDB, Weka, Gephi 시각화 라이브러리 방법 라이브러리 설치 필요, 라이브러리가 제공하는 API로 코드 작성해 시각화 도구 Flot, Rapha 1, Modest Maps, Leaflet, Timeline, Exhibit, jQuery Visualize, jqPlot, D3.js , JavaScript InfoVis Toolkit, jpGraph, Highcharts, Google Charters , Crossfilter, Tangle, Polymaps, OpenLayers, Kartograph, Processing, NodeBox 인포그래픽스 방법 웹 서비스 형태로 제공되며 회원 가입 필요, 제공되는 템플릿으로 인포그래픽스 구현 도구 iCharts, Visualize Free, Visual.ly

랜덤포레스트(random forest)

개념 bagging 계열의 대표적이며, 예측력이 우수한 알고리즘 예측결과의 정확성(Low Bias)는 개별 예측모형에 쓰이는 알고리즘(decision tree)의 평균값으로 유지되는 반면, 낮은 안정성(High Variance)는 Central Limit Theorem에 의해 낮아짐(N개의 Decision Tree가 투표를 통해 결정하는 방식)

중심극한정리(Central Limit Theorem)

개념 모집단의 분포와 무관하게 표본의 크기가 충분히 크면 표본들의 평균(표본평균)의 분포가 정규본포를 따르는 원리