#1 고급데이터 탐색
시공간 데이터 : 공간적 정보에 시간의 흐름이 결합된 다차원 데이터
시간 데이터 : 데이터에 유효 시간, 거래 시간, 사용자 정의 시간과 같은 연관된 시간 표현 정의
공간 데이터 : 래스터, 벡터 공간, 기하학, 위상적 타입 등 정의
공간 데이터 모델
관계형 모델 | 정적 모델, 표현이 유연하지 못해 실세계 공간 객체의 특징 표현에 한계 |
객체지향 모델 | 비 구조적, 자연스런 표현, 연산과 함수 확장이 쉬움, 무결성 검사 용이 |
시공간자료 질의어
시공간자료 정의언어 |
- 시공간 테이블 인덱스 및 뷰의 정의문, 변경문 등 - 공간적, 시간적 속성을 동시 포함 |
시공간자료 조작언어 |
- 객체의 삽입, 삭제, 변경 등의 검색문 - 시간지원, 공간 연산자를 포함, 공간관리와 이력정보 제공 |
다변량 데이터 탐색 : 변수들간 인과관계의 규명과 분석
종속변수와 독립변수 간 인과관계 | 변수축약 | 개체유도 |
다중회귀, 로지스틱 회귀, 분산분석 | 주성분분석, 요인분석, 정준상관분석 | 군집분석, 다차원 척도법, 판별분석 |
변수축약 : 변수들 간 상관관계를 이용하여 변수를 줄이는 방법, 변수유도기법
개체유도 : 개체들의 특성을 측정한 변수들의 상관관계를 이용하여 유사한 개체를 분류하는 방법
비정형 데이터의 분석
데이터 마이닝 | - 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정 - 자료에 의존하여 현상을 해석하므로 자료가 현실을 충분히 반영하지 못한 상태인 경우 잘못된 모형을 구축하는 오류를 범할수 있음 |
텍스트 마이닝 | - 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리 방식을 이용하여 숨겨진 의미를 발견하는 기법 |
오피니언 마이닝 | - 텍스트 마이닝의 한 분류, 특정 주제에 대한 사람들의 주관적 의견을 통계·수치화해 객관적 정보로 바꾸는 기술 - 텍스트 마이닝은 문장 내 주제 파악, 오피니언 마이닝은 감정·태도 판별 |
웹 마이닝 | - 웹으로 통한 모든 것(기기 내 쌓이는 로그, 사용자 행동 및 작성 콘텐츠 등)을 분석하여 유용한 정보를 추출하는 것 |
자연어 처리 : 인간의 언어 현상을 컴퓨터를 이용하여 모사할 수 있도록 연구하고 구현하는 인공지능 분야
#2 기술통계
확률 표본추출 기법
단순 무작위 추출 | 가장 기본이 되는 표본 추출 |
계통 추출 | 모집단에서 추출 간격을 설정하여 간격 사이에서 무작위 추출 |
층화 추출 | 모집단을 서로 겹치지않게 분할된 층별로 임의 추출 |
군집 추출 | 모집단을 차이가 없는 여러 개 군집으로 나누어 군집의 단위의 일부 또는 전체에 대한 분석을 시행 |
조건부 확률 : 사건 B가 일어났다는 조건하에 다른 사건 A가 일어날 확률
> 𝑃(𝐴|𝐵) = 𝑃(𝐴 ∩ 𝐵)/𝑃(𝐵)
결합 확률 : 사건 A와 B가 동시에 발생하는 확률, 확률의 곱셈 법칙
> 𝑃(𝐴) × 𝑃(𝐵) = 𝑃(𝐴 ∩ 𝐵)
베이지안 정리 : 사전에 사건 A에 대한 사전확률이 부여된 상태에서 사건 B에 관한 정보를 종합하여 사건 A에 대한 사후확률을 정리
> P(A_j | B) = P(B | A_j) P(A_j) / P(B) = P(B | A_j) P(A_j) / Σ [P(B | A_i) P(A_i)], i=1 to k
확률변수 : 사건 시행의 결과(확률)를 하나의 수치로 대응시킬 때의 값, 확률값
확률분포 : 수치로 대응된 확률변수의 개별 값들이 가지는 확률값의 분포, 확률변수가 취할 수 있는 값의 수가 유한하면 이산확률분포, 무한하면 연속확률분포
이산확률분포
베르누이분포 | 결과가 성공 아니면 실패, 두 가지로 귀결 f(x)=px(1−p)1−x |
이항분포 | 베르누이시행을 n번 독립적으로 시행할 때 성공횟수를 X로 정의 f(x) = C(n, x) * p^x * q^(n-x) |
다항분포 | 여러 번의 독립적 시행에서 각각의 값이 특정 획수가 나타날 확률을 정의 f(x1, x2, ..., xk; n, p1, p2, ..., pk) = n! / (x1! * x2! * ... * xk!) * p1^x1 * p2^x2 * ... * pk^xk |
포아송분포 | 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현 f(x) = λ^x * e^(-λ) / x! |
기하분포 | 베르누이 시행에서 처음 성공까지 시도한 횟수를 분포화 f(x) = p * q^(x-1), (q = 1 - p) |
음이항분포 | x번의 베르누이 시행에서 k번째 성공할 때까지 계속 시행에서 확률 f(x) = C(x-1, k-1) * q^(x-k) * p^k, x = k, k + 1, ... |
초기하분포 | 비복원 추출에서 n개를 추출했을 때, 원하는 것 k개가 뽑힐 확률을 표현 f_X(k) = [C(K, k) * C(N-K, n-k)] / C(N, n) |
연속확률분포
연속균등분포 | 분포가 특정 범위 내에서 균등하가 나타나 있을 경우 f(x) = 1 / (b - a), for a <= x <= b |
지수분포 | 포아송과정에서 한 개의 사건이 발생할 때까지 대기 시간 f(x) = 1 / β * e^(-x/β), for x >= 0 |
정규분포 | 평균을 중심으로 대칭, 종모양, 모양과 위치는 평균과 표준편차에 의해 결정, 정규곡선과 X축 사이의 전체 면적은 1 f(x) = 1 / (σ * sqrt(2π)) * e^(-1/2 * ((x - μ) / σ)^2) |
표준정규분포 | 평균 𝜇 = 0, 표준편차 𝜎 = 1이 되도록 한 정규분포 Z = (X - μ) / σ |
감마분포 | 포아송과정에서 k개의 사건이 발생할 때까지의 대기시간 f(x; k, θ) = 1 / (Γ(k) * θ^k) * x^(k-1) * e^(-x/θ) |
카이제곱분포 | k개의 서로 독립인 표준정규확률변수를 각각 제곱 후 한해서 얻어지는 분포 f(x; k) = 1 / [2^(k/2) * Γ(k/2)] * x^(k/2 - 1) * e^(-x/2) |
스튜던트t분포 | 정규분포의 평균 측정 시 주로 사용, 종모양으로 t=0에 대하여 대칭 f(x) = [Γ((ν+1)/2)] / [sqrt(νπ) * Γ(ν/2)] * (1 + x^2/ν)^(-(ν+1)/2) |
F분포 | 두 개의 확률 변수 V1, V2의 자유도가 각 k1, k2이고 카이제곱분포를 따를 때 F = (V1/k1) / (V2/k2) ~ F(k1, k2) f(x) = 1 / B(d1/2, d2/2) * (d1*x / (d1*x + d2))^(d1/2) * (1 - d1*x / (d1*x + d2))^(d2/2) * x^(-1) B(x, y) = ∫ t^(x-1) * (1 - t)^(y-1) dt, from 0 to 1 |
자유도 : 자료집단의 변수 중에서 자유롭게 선택될 수 있는 변수의 수
표본분포 : 크기 n의 확률표본(모집단에서 동등한 확률로 추출된 개체들의 집합)의 확률변수의 분포
표준오차 : 표본평균의 표준편차
> 모집단의 크기가 무한 : σ/√𝑛
> 모집단의 크기가 유한 : √ 𝑁−𝑛 𝑁−1 ∙ 𝜎 √𝑛 (N: 모집단 크기, n: 표보크기)
중심극한정리 : 모집단의 분포에 상관없이 표본의 수가 큰 표본분포들의 표본평균의 분포는 정규분포를 이룸
표본비율 : 표본을 구성하는 n개의 개체 중에서 성공으로 나타나는 개체 수의 비율
참고도서
이기적 빅데이터분석기사필기(2024)
'빅데이터분석기사 > 필기' 카테고리의 다른 글
[빅데이터분석기사 / 필기] 빅데이터 모델링2 (1) | 2024.08.29 |
---|---|
[빅데이터분석기사 / 필기] 빅데이터 모델링 (0) | 2024.08.26 |
[빅데이터분석기사 / 필기] 빅데이터 탐색3 (0) | 2024.08.26 |
[빅데이터분석기사 / 필기] 빅데이터 탐색 (0) | 2024.08.13 |
[빅데이터분석기사 / 필기] 빅데이터의 이해 (1) | 2024.08.08 |