오차행렬 | 실제답 | ||
True | False | ||
예측 결과 |
True | True Positive | False Positive |
False | False Negative | True Negative |
정확도(accuracy) | 정밀도 (Precision) | 재현율 (Recall) |
(TP + TN) / (TP + FP + TN + FN)
|
TP / (TP + FP) | TP / (TP + FN) |
F1 score : 정밀도와 재현율을 결합한 조화평균 지표, 값이 클수록 모형이 정확
ROC Curve : FP rate가 변할 때 TP rate가 어떻게 변화하는지 나타내는 곡선, 하단 면적 = AUC
(지도학습) 회귀모델 평가 지표
- SSE : 실제값과 예측값의 차이를 제곱하여 더한값
> SSE에 평균을 취하면 MSE, MSE에 루트를 취하면 RMSE, MSE를 퍼센트로 변환하면 MSPE
- MAE : 실제값과 예측값의 차이의 절대값을 합한 평균값
- 결정계수 R^2 : 회귀모형이 실제값에 대해 얼마나 잘 적합한지에 대한 비율
- AIC : 최대 우도에 독립변수의 개수에 대한 손실분을 반영하는 목적으로 모형과 데이터의 확률 분포 차이를 측정하는 것, AIC 값이 낮을수록 모형의 적합도가 높음
(비지도학습) 군집분석 평가 지표
- 실루엣 계수 : a(i)는 군집 내 데이터 응집도, b(i)는 군집 간 분리도, 0.5보다 클 시 적절한 군집 모델, 0이면 군집으로 분리가 의미 없음 s(i) = (B (i) - a(i) / max{a(i), b(i)}
- Dunn Index : 군집간 거리의 최소값을 분자, 군집내 요소 간 거리의 최대값을 분모, 값이 클수록 좋음
분석 모형 진단
- 정규성 가정 : 분석을 진행하기 전 데이터가 정규분포를 따르는지 검정
- 중심극한정리 : 동일한 확률 분포를 가진 독립확률변수 n 개의 평균의 분포는 n이 적당히 크다면(30개이상) 정규분포에 가까워진다는 이론
- 잔차 진단 : 회귀분석에서 독립변수와 종속변수의 관계를 결정하는 최적의 회귀선은 잔차(실측치와 예측치의 차이)를 가장 작게 해주는 선
> 정규성 진단, 등분산성 진단, 독립성 진단
k-폴드 교차검증
- k개의 서브셋, k-1개의 훈련 데이터, 1개의 검증 데이터, 모든 데이터 셋을 평가에 활용하여 과적합 방지
- 홀드아웃 기법 : 훈련 데이터, 검증 데이터, 테스트 데이터를 일정 비율로 지정, 데이터셋 크기가 작을수록 데이터를 나누는 방식에 따라 모델 성능 추정에 영향
적합도 검정
- 카이제곱 검정 : k개의 범주별로 나뉘어진 관측치들과 동일한 범주의 가정된 분포 사이의 적합도 검정
- 콜모고로프 스미르노프 검정 : 관측된 표본분포와 가정된 분포 사이의 적합도를 검사하는 누적분포함수의 차이를 이용한 검정법, 연속형 데이터에도 적용 가능
#2 분석 모형 개선
과대적합 방지
- 드롭아웃 : 신경망 모델에서 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법
- L2 규제 : 규제란 과대적합이 되지 않도록 모델을 제한하는 의미, 손실함수에 가중치에 대한 L2 norm의 제곱을 더한 패널티를 부여하여 가중치 값을 비용함수 모델에 비해 작게 만듦
- L1 규제 : 손실함수에 가중치의 절대값인 L1 norm을 추가 적용하여 대부분의 특성 가중치를 0으로 만듦
매개변수 최적화
- 확률적 경사 하강법(SGD) : 손실함수의 기울기를 따라 조금씩 아래로 내려가다 최종적으로 손실함수가 가장 작은 지점에 도달하도록 하는 알고리즘
- 모멘텀: SGD에 속도 개념인 기울기 방향으로 힘을 받으면 가속되는 물리법칙을 알고리즘에 적용
- AdaGrad : 개별 매개변수에 적응적으로 학습률을 조정하면서 학습을 진행하는 알고리즘
- Adam : 모멘텀과 AdaGard를 결합한 방법론, 모멘텀과 비슷하게 진행되나 좌우 흔들림이 덜함
초매개변수 최적화
학습율 | 기울기 방향으로 얼마나 빠르게 이동할지 결정, 작으면 학습 시간이 길어짐 |
미니배치 크기 | 전체 학습 데이터를 주어진 배치 크기로 나눔, 큰 경우 병렬연산 구조를 사용할 때 효과적, 작은 경우 더 많은 가중치 업데이트 가능 |
훈련 반복 횟수 | 학습의 조기 종료를 결정하는 변수 |
이터레이션 | 하나의 미니 배치를 학습할 때 1 iteration으로 1회 매개변수 업데이트 진행 |
은닉층 개수 | - 많아질수록 특정 훈련 데이터에 더 최적화 - 모든 은닉층의 뉴런의 개수를 동일하게 하는 것이 가변적으로 하는 것 보다 효과적 |
분석모형 융합
- 앙상블 학습 : 치우침 있는 여러 모형의 평균을 취할 시 균형적인 결과를 얻음, 과적합 여지 줄어듬
- 결합분석 모형 : 두 종류 이상의 결과 변수를 동시에 분석, 결과 변수 간 유의성/관련성 설명
최종모형 선정
- 회귀모형에 대한 주요 성능 평가 지표 : SSE, 결정계수 R^2, MAE, MAPE
- 분류모형에 대한 주요 성능 평가 지표 : 특이도, 정밀도, 재현율, 정확도
- 비지도학습에 모형에 대한 주요 성능 평가 지표 : 군집분석, 연관분석
#3 분석결과 해석
> 분석 모델별 결과 해석
회귀 모델 | 잔차, 결정계수(추정된 회귀식이 변동을 얼마나 잘 설명하는지) 등을 사용 |
분류 모델 | 각각의 경우에 따라 클래스 별로 속할 확률의 정확도를검토 |
딥러닝 모델 | - 분류문제인 경우 정확도나 오차율을 사용 - 오차율은 상대오차나 평균 제곱근 편차를 사용 |
군집분석 모델 | - 연속형 변수의 경우 평균 또는 중앙값을 계산 - 범주형 변수가 있는 경우 범주별로각 군집의 분포 사용 |
연관분석 모델 | - 두 개 또는 그 이상의 품목들 사이의 상호 관련성으로 해석 - 지지도, 신뢰도 및 향상도가 높은 규칙들을 찾되 최소 기준점을 적용 |
> 분석 모델별 시각화
회귀 모델 | 변수들 간 관계 분석을 위해 히트맵과 산점도를 활용 |
분류 모델 | - SVM : 산점도와 구분선을 통한 비교 시각화 - KNN : 평행좌표계로 변수들과의 연관성및 그룹 데이터 경향성 파악 - 의사결정나무 : 트리 다이어그램으로 시각화 |
딥러닝 모델 | 모델 아키텍처에서 파라미터, 가중치 및 특징 차원 감소를 통해 시각화 |
군집분석 모델 | - 클러스터별 단위로 산점도로 시각화 |
연관분석 모델 | - 연관성 있는 항목끼리 묶어 네트워크 그래프를 활용 |
#4 분석결과 시각화
- 데이터 시각화 : 정보를 명확하고 효과적으로 전달하는 것을 목적으로 시각적 표현
> 기능적 측면과 심미적 측면을 모두 고려
정보 시각화 | 추상화된 데이터를 사람이 인지하기 쉽도록 시각화하여 표현 |
정보 디자인 | 시각 디자인의 하위 영역, 정보를 구성하여 효율적 사용을 지원하는 디자인 |
인포그래픽 | 복잡한 수치, 글로 표현된 정보와 지식을 한눈에 파악하도록 시각적 표혁 |
시간 시각화
이산형 | 특정 시점의 값을 표현 - 막대 그래프, 점 그래프 등 |
연속형 | 구간의 변화하는 값을 표현 - 꺾은 선 그래프, 계단 그래프, 추세선 등 |
분포 시각화
- 각 영역을 모두 합치면 1 또는 100%가 됨
- 히스토그램, 파이차트, 도넛차트, 트리맵, 누적영영차트 등
관계 시각화
- 데이터셋에 변수가 두 개 이상 있을 때 상관관계
- 산점도, 버블차트, 히트맵 등
비교 시각화
- 하나 이상의 변수에 대해 변수 사이의 차이와 유사성 등을 표현
- 히트맵, 체르노프 페이스, 스타차트, 평행좌표계, 다차원척도법 등
공간 시각화
- 장소나 지역에 따른 데이터의 분포 표현
- 단계 구분도, 카토그램 등
#5 분석결과 활용
- 빅데이터 분석 방법론 참조모델(데이터산업진흥원)
> 분석기획 - 데이터 준비 - 데이터 분석 - 시스템 구현 - 평가 및 전개
보편적 방법론 비교
CRISP-DM | 비즈니스 이해 - 데이터 이해 - 데이터 준비 - 모델링 - 평가 - 전개 |
SEMMA | 샘플 - 탐색 - 전처리 - 모델링 - 평가 |
KDD | 데이터 추출 - 전처리 - 변환 - 데이터 마이닝 - 해석/평가 |
전개 단계 : 개발된 모델을 적용하여 결과를 확인하고 계속적인 관리를 위한 방법을 제시
분석결과 활용 계획 수립 | 빅데이터 분석 결과를 어떻게 업무에 반영할 것인지에 대한 액션 플랜을 만들고 업무 성과를 지속적으로 모니터링할 수 있는 방안 수립 |
분석결과 적용과 보고서 작성 | 분석 모델과 결과를 업무 현장에 적용하고 업무 데이터베이스 시스템 일부로 표현, 성과 측정 지표에 따라 분석성과 측정, 개선 계획 수립 |
분석모형 모니터링 | 이전에 수립한 활용반안이 잘 수행되고 있는지 확인하고 주변 환경과 데이터의 변화를 빅데이터 분석 모델에 지속적으로 반영하기 위함 |
분석모형 리모델링 | 분석 모형이 변화된 업무와 데이터를 지속적으로 수용할 수 있도록 데이터 품질 검토, 알고리즘 개선, 매개변수 최적화 등 과정 진행 |
참조도서
이기적 빅데이터분석기사 필기(2024)
'빅데이터분석기사 > 필기' 카테고리의 다른 글
[빅데이터분석기사 / 필기] 빅데이터 모델링2 (1) | 2024.08.29 |
---|---|
[빅데이터분석기사 / 필기] 빅데이터 모델링 (1) | 2024.08.26 |
[빅데이터분석기사 / 필기] 빅데이터 탐색3 (0) | 2024.08.26 |
[빅데이터분석기사 / 필기] 빅데이터 탐색2 (2) | 2024.08.21 |
[빅데이터분석기사 / 필기] 빅데이터 탐색 (1) | 2024.08.13 |