빅데이터분석기사/필기

[빅데이터분석기사 / 필기] 빅데이터 탐색2

록스타★ 2024. 8. 21. 13:52
반응형

#1 고급데이터 탐색

시공간 데이터 : 공간적 정보에 시간의 흐름이 결합된 다차원 데이터

시간 데이터 : 데이터에 유효 시간, 거래 시간, 사용자 정의 시간과 같은 연관된 시간 표현 정의

공간 데이터 : 래스터, 벡터 공간, 기하학, 위상적 타입 등 정의

 

공간 데이터 모델

관계형 모델 정적 모델, 표현이 유연하지 못해 실세계 공간 객체의 특징 표현에 한계
객체지향 모델 비 구조적, 자연스런 표현, 연산과 함수 확장이 쉬움, 무결성 검사 용이

 

시공간자료 질의어

시공간자료
정의언어
- 시공간 테이블 인덱스 및 뷰의 정의문, 변경문 등
- 공간적, 시간적 속성을 동시 포함
시공간자료
조작언어
- 객체의 삽입, 삭제, 변경 등의 검색문
- 시간지원, 공간 연산자를 포함, 공간관리와 이력정보 제공  

 

다변량 데이터 탐색 : 변수들간 인과관계의 규명과 분석

종속변수와 독립변수 간 인과관계 변수축약 개체유도
다중회귀, 로지스틱 회귀, 분산분석 주성분분석, 요인분석, 정준상관분석 군집분석, 다차원 척도법, 판별분석

 

변수축약 : 변수들 간 상관관계를 이용하여 변수를 줄이는 방법, 변수유도기법

개체유도 : 개체들의 특성을 측정한 변수들의 상관관계를 이용하여 유사한 개체를 분류하는 방법

 

 

비정형 데이터의 분석

데이터 마이닝 - 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정
- 자료에 의존하여 현상을 해석하므로 자료가 현실을 충분히 반영하지 못한 상태인 경우 잘못된 모형을 구축하는 오류를 범할수 있음   
텍스트 마이닝 - 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리 방식을 이용하여 숨겨진 의미를 발견하는 기법
오피니언 마이닝 - 텍스트 마이닝의 한 분류, 특정 주제에 대한 사람들의 주관적 의견을 통계·수치화해 객관적 정보로 바꾸는 기술
- 텍스트 마이닝은 문장 내 주제 파악, 오피니언 마이닝은 감정·태도 판별
웹 마이닝 - 웹으로 통한 모든 것(기기 내 쌓이는 로그, 사용자 행동 및 작성 콘텐츠 등)을 분석하여 유용한 정보를 추출하는 것

 

 

자연어 처리 : 인간의 언어 현상을 컴퓨터를 이용하여 모사할 수 있도록 연구하고 구현하는 인공지능 분야

 

 

#2 기술통계

확률 표본추출 기법

단순 무작위 추출 가장 기본이 되는 표본 추출
계통 추출 모집단에서 추출 간격을 설정하여 간격 사이에서 무작위 추출
층화 추출 모집단을 서로 겹치지않게 분할된 층별로 임의 추출 
군집 추출 모집단을 차이가 없는 여러 개 군집으로 나누어 군집의 단위의 일부 또는 전체에 대한 분석을 시행

 

 

조건부 확률 : 사건 B가 일어났다는 조건하에 다른 사건 A가 일어날 확률

 > 𝑃(𝐴|𝐵) = 𝑃(𝐴 ∩ 𝐵)/𝑃(𝐵)

 

결합 확률 : 사건 A와 B가 동시에 발생하는 확률, 확률의 곱셈 법칙

 > 𝑃(𝐴) × 𝑃(𝐵) = 𝑃(𝐴 ∩ 𝐵)

 

베이지안 정리 : 사전에 사건 A에 대한 사전확률이 부여된 상태에서 사건 B에 관한 정보를 종합하여 사건 A에 대한 사후확률을 정리

 > P(A_j | B) = P(B | A_j) P(A_j) / P(B) = P(B | A_j) P(A_j) / Σ [P(B | A_i) P(A_i)],  i=1 to k

 

확률변수 : 사건 시행의 결과(확률)를 하나의 수치로 대응시킬 때의 값, 확률값

확률분포 : 수치로 대응된 확률변수의 개별 값들이 가지는 확률값의 분포, 확률변수가 취할 수 있는 값의 수가 유한하면 이산확률분포, 무한하면 연속확률분포

 

 

이산확률분포

베르누이분포 결과가 성공 아니면 실패, 두 가지로 귀결
f(x)=px(1p)1x
이항분포 베르누이시행을 n번 독립적으로 시행할 때 성공횟수를 X로 정의
f(x) = C(n, x) * p^x * q^(n-x)
다항분포 여러 번의 독립적 시행에서 각각의 값이 특정 획수가 나타날 확률을 정의
f(x1, x2, ..., xk; n, p1, p2, ..., pk) = n! / (x1! * x2! * ... * xk!) * p1^x1 * p2^x2 * ... * pk^xk
포아송분포 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현 
f(x) = λ^x * e^(-λ) / x!
기하분포 베르누이 시행에서 처음 성공까지 시도한 횟수를 분포화
f(x) = p * q^(x-1), (q = 1 - p)
음이항분포 x번의 베르누이 시행에서 k번째 성공할 때까지 계속 시행에서 확률
f(x) = C(x-1, k-1) * q^(x-k) * p^k,  x = k, k + 1, ...
초기하분포 비복원 추출에서 n개를 추출했을 때, 원하는 것 k개가 뽑힐 확률을 표현
f_X(k) = [C(K, k) * C(N-K, n-k)] / C(N, n)

 

 

연속확률분포

연속균등분포 분포가 특정 범위 내에서 균등하가 나타나 있을 경우
f(x) = 1 / (b - a),  for a <= x <= b
지수분포 포아송과정에서 한 개의 사건이 발생할 때까지 대기 시간
f(x) = 1 / β * e^(-x/β),  for x >= 0
정규분포 평균을 중심으로 대칭, 종모양, 모양과 위치는 평균과 표준편차에 의해 결정, 정규곡선과 X축 사이의 전체 면적은 1
f(x) = 1 / (σ * sqrt(2π)) * e^(-1/2 * ((x - μ) / σ)^2)
표준정규분포 평균 𝜇 = 0, 표준편차 𝜎 = 1이 되도록 한 정규분포
Z = (X - μ) / σ
감마분포 포아송과정에서 k개의 사건이 발생할 때까지의 대기시간
f(x; k, θ) = 1 / (Γ(k) * θ^k) * x^(k-1) * e^(-x/θ)
카이제곱분포 k개의 서로 독립인 표준정규확률변수를 각각 제곱 후 한해서 얻어지는 분포
f(x; k) = 1 / [2^(k/2) * Γ(k/2)] * x^(k/2 - 1) * e^(-x/2)
스튜던트t분포 정규분포의 평균 측정 시 주로 사용, 종모양으로 t=0에 대하여 대칭
f(x) = [Γ((ν+1)/2)] / [sqrt(νπ) * Γ(ν/2)] * (1 + x^2/ν)^(-(ν+1)/2)
F분포 두 개의 확률 변수 V1, V2의 자유도가 각 k1, k2이고 카이제곱분포를 따를 때

F = (V1/k1) / (V2/k2) ~ F(k1, k2)

f(x) = 1 / B(d1/2, d2/2) * (d1*x / (d1*x + d2))^(d1/2) * (1 - d1*x / (d1*x + d2))^(d2/2) * x^(-1)

B(x, y) = ∫ t^(x-1) * (1 - t)^(y-1) dt, from 0 to 1

 

 

자유도 : 자료집단의 변수 중에서 자유롭게 선택될 수 있는 변수의 수

 

표본분포 : 크기 n의 확률표본(모집단에서 동등한 확률로 추출된 개체들의 집합)의 확률변수의 분포

 

표준오차 : 표본평균의 표준편차

 > 모집단의 크기가 무한 : σ/√𝑛 

 > 모집단의 크기가 유한 : √ 𝑁−𝑛 𝑁−1 ∙ 𝜎 √𝑛  (N: 모집단 크기, n: 표보크기)

 

중심극한정리 : 모집단의 분포에 상관없이 표본의 수가 큰 표본분포들의 표본평균의 분포는 정규분포를 이룸

표본비율 : 표본을 구성하는 n개의 개체 중에서 성공으로 나타나는 개체 수의 비율 

 

참고도서

이기적 빅데이터분석기사필기(2024)  

반응형