빅데이터분석기사/필기

[빅데이터분석기사 / 필기] 빅데이터 결과해석

록스타★ 2024. 8. 30. 15:39
반응형
오차행렬 실제답
True False
예측
결과
True True Positive False Positive
False False Negative True Negative
정확도(accuracy) 정밀도 (Precision) 재현율 (Recall)
(TP + TN) / (TP + FP + TN + FN)
TP / (TP + FP) TP / (TP + FN)

 

F1 score : 정밀도와 재현율을 결합한 조화평균 지표, 값이 클수록 모형이 정확

ROC Curve : FP rate가 변할 때 TP rate가 어떻게 변화하는지 나타내는 곡선, 하단 면적 = AUC

 

(지도학습) 회귀모델 평가 지표

- SSE : 실제값과 예측값의 차이를 제곱하여 더한값

 > SSE에 평균을 취하면 MSE, MSE에 루트를 취하면 RMSE, MSE를 퍼센트로 변환하면 MSPE

- MAE : 실제값과 예측값의 차이의 절대값을 합한 평균값

- 결정계수 R^2 : 회귀모형이 실제값에 대해 얼마나 잘 적합한지에 대한 비율

- AIC : 최대 우도에 독립변수의 개수에 대한 손실분을 반영하는 목적으로 모형과 데이터의 확률 분포 차이를 측정하는 것, AIC 값이 낮을수록 모형의 적합도가 높음

 

(비지도학습) 군집분석 평가 지표

- 실루엣 계수 : a(i)는 군집 내 데이터 응집도, b(i)는 군집 간 분리도, 0.5보다 클 시 적절한 군집 모델, 0이면 군집으로 분리가 의미 없음 s(i) = (B (i) - a(i) / max{a(i), b(i)}

- Dunn Index : 군집간 거리의 최소값을 분자, 군집내 요소 간 거리의 최대값을 분모, 값이 클수록 좋음

 

분석 모형 진단

- 정규성 가정 : 분석을 진행하기 전 데이터가 정규분포를 따르는지 검정

- 중심극한정리 : 동일한 확률 분포를 가진 독립확률변수 n 개의 평균의 분포는 n이 적당히 크다면(30개이상) 정규분포에 가까워진다는 이론

- 잔차 진단 : 회귀분석에서 독립변수와 종속변수의 관계를 결정하는 최적의 회귀선은 잔차(실측치와 예측치의 차이)를 가장 작게 해주는 선

 > 정규성 진단, 등분산성 진단, 독립성 진단    

   

k-폴드 교차검증

- k개의 서브셋, k-1개의 훈련 데이터, 1개의 검증 데이터, 모든 데이터 셋을 평가에 활용하여 과적합 방지

- 홀드아웃 기법 : 훈련 데이터, 검증 데이터, 테스트 데이터를 일정 비율로 지정, 데이터셋 크기가 작을수록 데이터를 나누는 방식에 따라 모델 성능 추정에 영향

 

적합도 검정

- 카이제곱 검정 : k개의 범주별로 나뉘어진 관측치들과 동일한 범주의 가정된 분포 사이의 적합도 검정

- 콜모고로프 스미르노프 검정 : 관측된 표본분포와 가정된 분포 사이의 적합도를 검사하는 누적분포함수의 차이를 이용한 검정법, 연속형 데이터에도 적용 가능

 

 

#2 분석 모형 개선

과대적합 방지

- 드롭아웃 : 신경망 모델에서 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법

- L2 규제 : 규제란 과대적합이 되지 않도록 모델을 제한하는 의미, 손실함수에 가중치에 대한 L2 norm의 제곱을 더한 패널티를 부여하여 가중치 값을 비용함수 모델에 비해 작게 만듦

- L1 규제 : 손실함수에 가중치의 절대값인 L1 norm을 추가 적용하여 대부분의 특성 가중치를 0으로 만듦 

 

매개변수 최적화

- 확률적 경사 하강법(SGD) : 손실함수의 기울기를 따라 조금씩 아래로 내려가다 최종적으로 손실함수가 가장 작은 지점에 도달하도록 하는 알고리즘

- 모멘텀: SGD에 속도 개념인 기울기 방향으로 힘을 받으면 가속되는 물리법칙을 알고리즘에 적용

- AdaGrad : 개별 매개변수에 적응적으로 학습률을 조정하면서 학습을 진행하는 알고리즘

- Adam : 모멘텀과 AdaGard를 결합한 방법론, 모멘텀과 비슷하게 진행되나 좌우 흔들림이 덜함

 

초매개변수 최적화 

학습율 기울기 방향으로 얼마나 빠르게 이동할지 결정, 작으면 학습 시간이 길어짐
미니배치 크기 전체 학습 데이터를 주어진 배치 크기로 나눔, 큰 경우 병렬연산 구조를 사용할 때 효과적, 작은 경우 더 많은 가중치 업데이트 가능
훈련 반복 횟수 학습의 조기 종료를 결정하는 변수
이터레이션 하나의 미니 배치를 학습할 때 1 iteration으로 1회 매개변수 업데이트 진행
은닉층 개수 - 많아질수록 특정 훈련 데이터에 더 최적화
- 모든 은닉층의 뉴런의 개수를 동일하게 하는 것이 가변적으로 하는 것 보다 효과적

 

 

분석모형 융합

- 앙상블 학습 : 치우침 있는 여러 모형의 평균을 취할 시 균형적인 결과를 얻음, 과적합 여지 줄어듬

- 결합분석 모형 : 두 종류 이상의 결과 변수를 동시에 분석, 결과 변수 간 유의성/관련성 설명

 

최종모형 선정

- 회귀모형에 대한 주요 성능 평가 지표 : SSE, 결정계수 R^2, MAE, MAPE

- 분류모형에 대한 주요 성능 평가 지표 : 특이도, 정밀도, 재현율, 정확도

- 비지도학습에 모형에 대한 주요 성능 평가 지표 : 군집분석, 연관분석

 

 

#3 분석결과 해석

> 분석 모델별 결과 해석

회귀 모델 잔차, 결정계수(추정된 회귀식이 변동을 얼마나 잘 설명하는지) 등을 사용
분류 모델 각각의 경우에 따라 클래스 별로 속할 확률의 정확도를검토  
딥러닝 모델 - 분류문제인 경우 정확도나 오차율을 사용
- 오차율은 상대오차나 평균 제곱근 편차를 사용
군집분석 모델 - 연속형 변수의 경우 평균 또는 중앙값을 계산
- 범주형 변수가 있는 경우 범주별로각 군집의 분포 사용  
연관분석 모델 - 두 개 또는 그 이상의 품목들 사이의 상호 관련성으로 해석
- 지지도, 신뢰도 및 향상도가 높은 규칙들을 찾되 최소 기준점을 적용

 

> 분석 모델별 시각화

회귀 모델 변수들 간 관계 분석을 위해 히트맵과 산점도를 활용 
분류 모델 - SVM : 산점도와 구분선을 통한 비교 시각화
- KNN : 평행좌표계로 변수들과의 연관성및 그룹 데이터 경향성 파악
- 의사결정나무 : 트리 다이어그램으로 시각화 
딥러닝 모델 모델 아키텍처에서 파라미터, 가중치 및 특징 차원 감소를 통해 시각화
군집분석 모델 - 클러스터별 단위로 산점도로 시각화
연관분석 모델 - 연관성 있는 항목끼리 묶어 네트워크 그래프를 활용

참조 도서 : 이기적 빅데이터분석기사 필기(2024)

 

 

#4 분석결과 시각화

- 데이터 시각화 : 정보를 명확하고 효과적으로 전달하는 것을 목적으로 시각적 표현

 > 기능적 측면과 심미적 측면을 모두 고려

정보 시각화 추상화된 데이터를 사람이 인지하기 쉽도록 시각화하여 표현
정보 디자인 시각 디자인의 하위 영역, 정보를 구성하여 효율적 사용을 지원하는 디자인
인포그래픽  복잡한 수치, 글로 표현된 정보와 지식을 한눈에 파악하도록 시각적 표혁

 

시간 시각화

이산형 특정 시점의 값을 표현
- 막대 그래프, 점 그래프 등
연속형 구간의 변화하는 값을 표현
- 꺾은 선 그래프, 계단 그래프, 추세선 등

참조도서: 이기적 빅데이터분석기사 필기(2024)

 

 

분포 시각화

- 각 영역을 모두 합치면 1 또는 100%가 됨

- 히스토그램, 파이차트, 도넛차트, 트리맵, 누적영영차트 등

참조도서 : 이기적 빅데이터분석기사 필기(2024)

 

관계 시각화

- 데이터셋에 변수가 두 개 이상 있을 때 상관관계

- 산점도, 버블차트, 히트맵 등

참조도서 : 이기적 빅데이터분석기사 필기 (2024)

 

 

비교 시각화

- 하나 이상의 변수에 대해 변수 사이의 차이와 유사성 등을 표현

- 히트맵, 체르노프 페이스, 스타차트, 평행좌표계, 다차원척도법 등

참조 도서 : 이기적 빅데이터분석기사 필기 (2024)

 

 

공간 시각화

- 장소나 지역에 따른 데이터의 분포 표현

- 단계 구분도, 카토그램 등

 

참조도서 : 이기적 빅데이터분석기사 필기 (2024)

 

 

#5 분석결과 활용

- 빅데이터 분석 방법론 참조모델(데이터산업진흥원) 

 > 분석기획 - 데이터 준비 - 데이터 분석 - 시스템 구현 - 평가 및 전개

 

보편적 방법론 비교

CRISP-DM 비즈니스 이해 - 데이터 이해 - 데이터 준비 - 모델링 - 평가 - 전개
SEMMA 샘플 - 탐색 - 전처리 - 모델링 - 평가
KDD 데이터 추출 - 전처리 - 변환 - 데이터 마이닝 - 해석/평가

 

전개 단계 : 개발된 모델을 적용하여 결과를 확인하고 계속적인 관리를 위한 방법을 제시

분석결과 활용 계획 수립 빅데이터 분석 결과를 어떻게 업무에 반영할 것인지에 대한 액션 플랜을 만들고 업무 성과를 지속적으로 모니터링할 수 있는 방안 수립
분석결과 적용과 보고서 작성 분석 모델과 결과를 업무 현장에 적용하고 업무 데이터베이스 시스템 일부로 표현, 성과 측정 지표에 따라 분석성과 측정, 개선 계획 수립 
분석모형 모니터링 이전에 수립한 활용반안이 잘 수행되고 있는지 확인하고 주변 환경과 데이터의 변화를 빅데이터 분석 모델에 지속적으로 반영하기 위함
분석모형 리모델링 분석 모형이 변화된 업무와 데이터를 지속적으로 수용할 수 있도록 데이터 품질 검토, 알고리즘 개선, 매개변수 최적화 등 과정 진행

 

 

참조도서

이기적 빅데이터분석기사 필기(2024)

 

반응형