빅데이터분석기사/필기

[빅데이터분석기사 / 필기] 빅데이터 탐색

록스타★ 2024. 8. 13. 11:11
반응형

#1 데이터 정제

데이터 정제 과정 : 다양한 매체로부터 데이터 수집, 원하는 형태로 변환, 원하는 장소에 저장, 활용가능성을 타진하기 위한 품질 확인, 사용이 원활하도록 관리

 > 비정형 데이터의 경우 구조화된 정형 데이터로 변환을 수행, 결측치와 오류 수정 과정 필요

전처리 데이터 저장 전 처리, 대상 데이터와 입수 방법 결정, 저장 방식/장소 선정  
후처리 데이터 저장 후 처리, 저장 데이터의 품질관리 등의 과정 포함 

 

결측치 (missing data, 손실 데이터) : 어떠한 자료값도 관측 대상변수에 저장되지 않을 때 발생

완전 무작위 결측 어떤 변수상에서 결측 데이터가 다른 변수와 아무런 연관이 없는 경우
무작위 결측 결측 데이터가 관측된 다른 변수와 연관이 있지만 비관측값들과는 연관되지 않는 경우, 결측이 완전히 설명될 수 있음
비 무작위 결측 결측 데이터가 다른 변수와 연관이 있는 경우

  

 

단순 대치법 : 결측치를 완전 무작위 결측 또는 무작위 결측으로 판단하고 처리

  > 완전 분석법, 평균 대치법, 회귀 대치법, 단순확률대치법, 최근접 대치법

 

다중 대치법 : 단순 대치법을 복수로 시행, 통계적 효율성 및 일치성 문제를 보완

 

이상치(outlier) : 정상의 범주(데이터의 전체적 패턴)에서 벗어난 값

 > 이상치가 비무작위로 나타나면 데이터의 정상성 감소를초래하고 이는 신뢰성 저하로 연결

이상치 탐지 : 시각화(상자그림, 줄기-잎 그림, 산점도 그림), Z-Score, 밀도기반 클러스터링, 고립의사나무 방법

 

모수(parameter) : 모집단(전체 집단)의 모평균, 모표준편차, 모분산 등

모수적 방법 : 정규분포를 따른다는 가정으로 모수적 특성을 이용하는 통계적 바법

비모수적 방법 : 정규분포임을 가정할 수 없을 때 사용하는 방법    

 

 

#2 분석 변수 처리

회귀(regression) : 변수 x와 y의 관계를 함수식으로 설명하는 통계적 방법

변수 선택 : 변수는 기본적으로 많을수록 신뢰성이 높아지나 더 작은 변수를 사용 시 동일한 설명력이 나온다면 효율성이증가

전진 선택법 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 분석모형에 포함시키는 것, 한번 추가된 변수는 제거하지 않음 
후진 소거법 종속변수와 단순상관계수의 절댓값이 가장 작은 변수를 분석모형에서 제외시키는 것, 한번 제거된 변수는 추가하지 않음
단계적 선택법 전진 선택법을 통해 가장 유의한 변수를 모형에 포함 후 나머지 변수들에 대해 후진 선택법을 적용하여 새롭게 유의하지 않은 변수들 제거 

 

차원 축소 : 변수(데이터의 종류)의 양을 줄이는 것, 복잡도를 축소하여 분석시간과 저장변수의 양을 효율적으로 줄임, 과적합 발생 가능성을 줄여 정확도 저하 방지, 이해와 해석 용이

차원의 저주 : 데이터 분석 및 알고리즘을 통한 학습을 위해 차원이 증가하면서 학습데이터의 수가 차원의 수보다 적어져 성능이 저하되는 현상

 > 차원을 줄이거나 데이터 수를 늘려 해결

 

요인 분석 : 다수의 변수들 간 관계를 분석하여 공통 차원을 축약, 독립변수/종속변수 개념이 없음

주성분 분석 분포된 데이터들의 특성을 설명할 수 있는 하나 또는 복수 개의 특징을 찾는 것
특이값 분해 적당한 특이값을 이용해 원래 데이터와 비슷한 정보력을 가지는 차원을 만들어 냄
음수 미포함 행렬분해 음수를 포함하지 않은 행렬 V를 행렬 W와 H의 곱으로 분해, 행렬 곱셈에서 V보다 W,H가 적은 차원을 가짐, 정확한 해가 없으므로 대략적 해를 구함 

 

 

분석 목표에 적합한 데이터 형태로 보완

파생변수 특정 조건을 만족하거나 특정 함수에의해 값을 만들어 의미를 부여 
요약변수 수집된 정보룰 분석에 맞게 종합한 변수

 

변수 변환 : 데이터를 분석하기 좋은 형태로 바꾸는 작업, 어떤 변수로 나타낸 식을 다른 변수로 바꿔 나타냄, 데이터 전처리 과정 중 하나로 간주

 > 범주형 변환, 정규화(일반, 최소-최대, Z-Score), 로그 변환, 역수 변환, 지수 변환, 제곱근 변환 등

 

클래스 불균형 : 각 클래스가 갖고 있는 데이터의 양에 차이가 큰 경우

 > 비대칭 데이터의 정밀도 향상

언더 샘플링 대표클래스의 일부만을 선택하고, 소수클래스는 최대한 많은 데이터를 사용
오버 샘플링 소수클래스의 복사본을 만들어 대표클래스만큼 데이터를 만드는 방법

 

 

 

#3 데이터 탐색의 기초

탐색적 데이터 분석(EDA) : 본격적 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 과정

  > 내재된 잠재적 문제에 대해 인식하고 해결안을 도출, 새로운 양상·패턴 발견 가능

상관분석 : 2개이상의 양적 변수 간의 관계가 유의한지 확인

  > 상관분석의 기본가정

선형성 두 변인 X와 Y의 관계가 직선적인지 알아보는 것
동변량성 X 값에 관계없이 Y의 흩어진 정도가 같은 것 <-> 이분산성
정규분포성 두 변인의 측정치 분포가 모집단에서 모두 정규분포를 이루는 것
무선독립표본 모집단에서 표본을 뽑을 때 표본 대상이 확률적으로 선정되는 것

 

  > 상관분석 방법

피어슨 상관계수 +1과 -1 사이의 값, +1은 완벽한 양의 선형 상관관계, 0은 선형 상관관계 없음, -1은 완벽한 음의 선형 상관관계
스피어만 상관계수 자료의 값 대신 순위를 매기는 경우의 상관계수

 

 

기초통계량

산술평균 모든 자료들을 합한 후 전체 자료수로 나누어 계산하는 일반적 평균
- 모평균 𝜇 – 모집단 전체의 산술평균
- 표본평균 𝑋̅ – 모집단의 부분집합인 추출된 표본의 산술평균
기하평균 n개의 자료에 대해 관측치를 곱한 후 제곱근 표현 = √𝑥1 × 𝑥2 × 𝑥3 ⋯ × 𝑥n
중앙값(median) 자료를 크기 순으로 나열할 때 가운데에 위치한 값
최빈값(mode) 가장 노출빈도가 높은 자료, 좌로 치우친 그래프에서 제일 작음 
분위수(quantile) 자료의 위치를 표현하는 수치

 

> 분산과 표준편차

분산 - 평균을 중심으로 밀집되거나 퍼짐 정도를 나타내는 척도
- 각각의 자료값과 평균과의 편차의 제곱을 이용하는 표현
표준편차 분산과 제곱근, 분산으로어은 수치를 해석하기 곤란하다는단점 보  

𝜎 2 = 1 / 𝑁 ∑(𝑥𝑖 − 𝜇) 2 𝑁 𝑖=1 (모분산) , 𝑠 2 = 1 / 𝑛 − 1 ∑(𝑥𝑖 − 𝑥̅) 2 𝑛 𝑖=1 (표본분산)

 

평균 절대 편차 : 관측값에서 평균을 빼고, 절댓값을 취하여 산술평균

사분위범위 : 자료를 크기 순으로 배열 후 3사분위수(Q3) - 1사분위수(Q1)로 정의

왜도 : 분포가 어느 한쪽으로 치우친 정도를 나타내는 통계적 척도

첨도 : 분포의 뾰족한정도를 나타내는 통계적 척도

상자수염그림(Box Plot) : 수치적 자료 표현, 자료로부터 얻어 낸 통계량(최솟값, Q1,Q2, Q3, 최댓값)을 가지고 그림, 이상치는 파악 가능하나 분산과 같은 퍼짐 정도는 파악 어려움

 

 

참고도서

이기적 빅데이터분석기사필기(2024)  

반응형