#1 데이터 정제
데이터 정제 과정 : 다양한 매체로부터 데이터 수집, 원하는 형태로 변환, 원하는 장소에 저장, 활용가능성을 타진하기 위한 품질 확인, 사용이 원활하도록 관리
> 비정형 데이터의 경우 구조화된 정형 데이터로 변환을 수행, 결측치와 오류 수정 과정 필요
전처리 | 데이터 저장 전 처리, 대상 데이터와 입수 방법 결정, 저장 방식/장소 선정 |
후처리 | 데이터 저장 후 처리, 저장 데이터의 품질관리 등의 과정 포함 |
결측치 (missing data, 손실 데이터) : 어떠한 자료값도 관측 대상변수에 저장되지 않을 때 발생
완전 무작위 결측 | 어떤 변수상에서 결측 데이터가 다른 변수와 아무런 연관이 없는 경우 |
무작위 결측 | 결측 데이터가 관측된 다른 변수와 연관이 있지만 비관측값들과는 연관되지 않는 경우, 결측이 완전히 설명될 수 있음 |
비 무작위 결측 | 결측 데이터가 다른 변수와 연관이 있는 경우 |
단순 대치법 : 결측치를 완전 무작위 결측 또는 무작위 결측으로 판단하고 처리
> 완전 분석법, 평균 대치법, 회귀 대치법, 단순확률대치법, 최근접 대치법
다중 대치법 : 단순 대치법을 복수로 시행, 통계적 효율성 및 일치성 문제를 보완
이상치(outlier) : 정상의 범주(데이터의 전체적 패턴)에서 벗어난 값
> 이상치가 비무작위로 나타나면 데이터의 정상성 감소를초래하고 이는 신뢰성 저하로 연결
이상치 탐지 : 시각화(상자그림, 줄기-잎 그림, 산점도 그림), Z-Score, 밀도기반 클러스터링, 고립의사나무 방법
모수(parameter) : 모집단(전체 집단)의 모평균, 모표준편차, 모분산 등
모수적 방법 : 정규분포를 따른다는 가정으로 모수적 특성을 이용하는 통계적 바법
비모수적 방법 : 정규분포임을 가정할 수 없을 때 사용하는 방법
#2 분석 변수 처리
회귀(regression) : 변수 x와 y의 관계를 함수식으로 설명하는 통계적 방법
변수 선택 : 변수는 기본적으로 많을수록 신뢰성이 높아지나 더 작은 변수를 사용 시 동일한 설명력이 나온다면 효율성이증가
전진 선택법 | 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 분석모형에 포함시키는 것, 한번 추가된 변수는 제거하지 않음 |
후진 소거법 | 종속변수와 단순상관계수의 절댓값이 가장 작은 변수를 분석모형에서 제외시키는 것, 한번 제거된 변수는 추가하지 않음 |
단계적 선택법 | 전진 선택법을 통해 가장 유의한 변수를 모형에 포함 후 나머지 변수들에 대해 후진 선택법을 적용하여 새롭게 유의하지 않은 변수들 제거 |
차원 축소 : 변수(데이터의 종류)의 양을 줄이는 것, 복잡도를 축소하여 분석시간과 저장변수의 양을 효율적으로 줄임, 과적합 발생 가능성을 줄여 정확도 저하 방지, 이해와 해석 용이
차원의 저주 : 데이터 분석 및 알고리즘을 통한 학습을 위해 차원이 증가하면서 학습데이터의 수가 차원의 수보다 적어져 성능이 저하되는 현상
> 차원을 줄이거나 데이터 수를 늘려 해결
요인 분석 : 다수의 변수들 간 관계를 분석하여 공통 차원을 축약, 독립변수/종속변수 개념이 없음
주성분 분석 | 분포된 데이터들의 특성을 설명할 수 있는 하나 또는 복수 개의 특징을 찾는 것 |
특이값 분해 | 적당한 특이값을 이용해 원래 데이터와 비슷한 정보력을 가지는 차원을 만들어 냄 |
음수 미포함 행렬분해 | 음수를 포함하지 않은 행렬 V를 행렬 W와 H의 곱으로 분해, 행렬 곱셈에서 V보다 W,H가 적은 차원을 가짐, 정확한 해가 없으므로 대략적 해를 구함 |
분석 목표에 적합한 데이터 형태로 보완
파생변수 | 특정 조건을 만족하거나 특정 함수에의해 값을 만들어 의미를 부여 |
요약변수 | 수집된 정보룰 분석에 맞게 종합한 변수 |
변수 변환 : 데이터를 분석하기 좋은 형태로 바꾸는 작업, 어떤 변수로 나타낸 식을 다른 변수로 바꿔 나타냄, 데이터 전처리 과정 중 하나로 간주
> 범주형 변환, 정규화(일반, 최소-최대, Z-Score), 로그 변환, 역수 변환, 지수 변환, 제곱근 변환 등
클래스 불균형 : 각 클래스가 갖고 있는 데이터의 양에 차이가 큰 경우
> 비대칭 데이터의 정밀도 향상
언더 샘플링 | 대표클래스의 일부만을 선택하고, 소수클래스는 최대한 많은 데이터를 사용 |
오버 샘플링 | 소수클래스의 복사본을 만들어 대표클래스만큼 데이터를 만드는 방법 |
#3 데이터 탐색의 기초
탐색적 데이터 분석(EDA) : 본격적 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 과정
> 내재된 잠재적 문제에 대해 인식하고 해결안을 도출, 새로운 양상·패턴 발견 가능
상관분석 : 2개이상의 양적 변수 간의 관계가 유의한지 확인
> 상관분석의 기본가정
선형성 | 두 변인 X와 Y의 관계가 직선적인지 알아보는 것 |
동변량성 | X 값에 관계없이 Y의 흩어진 정도가 같은 것 <-> 이분산성 |
정규분포성 | 두 변인의 측정치 분포가 모집단에서 모두 정규분포를 이루는 것 |
무선독립표본 | 모집단에서 표본을 뽑을 때 표본 대상이 확률적으로 선정되는 것 |
> 상관분석 방법
피어슨 상관계수 | +1과 -1 사이의 값, +1은 완벽한 양의 선형 상관관계, 0은 선형 상관관계 없음, -1은 완벽한 음의 선형 상관관계 |
스피어만 상관계수 | 자료의 값 대신 순위를 매기는 경우의 상관계수 |
기초통계량
산술평균 | 모든 자료들을 합한 후 전체 자료수로 나누어 계산하는 일반적 평균 - 모평균 𝜇 – 모집단 전체의 산술평균 - 표본평균 𝑋̅ – 모집단의 부분집합인 추출된 표본의 산술평균 |
기하평균 | n개의 자료에 대해 관측치를 곱한 후 제곱근 표현 = √𝑥1 × 𝑥2 × 𝑥3 ⋯ × 𝑥n |
중앙값(median) | 자료를 크기 순으로 나열할 때 가운데에 위치한 값 |
최빈값(mode) | 가장 노출빈도가 높은 자료, 좌로 치우친 그래프에서 제일 작음 |
분위수(quantile) | 자료의 위치를 표현하는 수치 |
> 분산과 표준편차
분산 | - 평균을 중심으로 밀집되거나 퍼짐 정도를 나타내는 척도 - 각각의 자료값과 평균과의 편차의 제곱을 이용하는 표현 |
표준편차 | 분산과 제곱근, 분산으로어은 수치를 해석하기 곤란하다는단점 보 |
𝜎 2 = 1 / 𝑁 ∑(𝑥𝑖 − 𝜇) 2 𝑁 𝑖=1 (모분산) , 𝑠 2 = 1 / 𝑛 − 1 ∑(𝑥𝑖 − 𝑥̅) 2 𝑛 𝑖=1 (표본분산)
평균 절대 편차 : 관측값에서 평균을 빼고, 절댓값을 취하여 산술평균
사분위범위 : 자료를 크기 순으로 배열 후 3사분위수(Q3) - 1사분위수(Q1)로 정의
왜도 : 분포가 어느 한쪽으로 치우친 정도를 나타내는 통계적 척도
첨도 : 분포의 뾰족한정도를 나타내는 통계적 척도
상자수염그림(Box Plot) : 수치적 자료 표현, 자료로부터 얻어 낸 통계량(최솟값, Q1,Q2, Q3, 최댓값)을 가지고 그림, 이상치는 파악 가능하나 분산과 같은 퍼짐 정도는 파악 어려움
참고도서
이기적 빅데이터분석기사필기(2024)
'빅데이터분석기사 > 필기' 카테고리의 다른 글
[빅데이터분석기사 / 필기] 빅데이터 모델링2 (1) | 2024.08.29 |
---|---|
[빅데이터분석기사 / 필기] 빅데이터 모델링 (1) | 2024.08.26 |
[빅데이터분석기사 / 필기] 빅데이터 탐색3 (0) | 2024.08.26 |
[빅데이터분석기사 / 필기] 빅데이터 탐색2 (2) | 2024.08.21 |
[빅데이터분석기사 / 필기] 빅데이터의 이해 (1) | 2024.08.08 |