빅데이터분석기사/필기

[빅데이터분석기사 / 필기] 빅데이터 모델링

록스타★ 2024. 8. 26. 10:48
반응형

#1 분석 절차 수립

분석 모형 : 분석 목표에 따라 데이터 특성을도출, 가설 수립에 따라 전체적 분석 방향을 정의

 > 예측 분석 모형, 현황 진단 모형, 최적화 분석 모형 등

분석 모형 선정 프로세스 : 문제요건 정의 - 데이터 수집·정리 - 데이터 전처리 - 분석 모형 선정

상향식 접근 : 특정 영역을 지정하여 의사결정 지점으로 진행하는 과정에서 분석 기회를 발굴

분석 유스케이스 기반 접근 : 분석 테마 후보 그룹(pool)을 활용하고 연관된 분석 기회를 발굴

 

분석 모형 구축 절차

분석 시나리오 작성 : 데이터 분석 대상 및 범위를 요구사항에 맞게 정의, 해결할 수 있는 문제와 목표, 목표별 구현 모델과 예상 결과 작성

분석 모형 설계 : 분석 대상 및 범위를 정하여 분석 목적구현을 위한 분석 방법론 설계

 

분석 모델링 설계와 검정 - 분석 목적에 기반한 가설검정 방법

1. 유의수준 결정, 귀무가설과 대립가설 설정

2. 검정통계량(가설을 검정하기 위한 기준으로 사용하는 값)의 설정

3. 기각역 설정

그림(1) 참고도서 이기적빅데이터분석기사필기

4. 검정통계량 계산

 > 검정통계량 = (표본평균 − 모평균) / (표본 표준편차)

5. 통계적인 의사결정(가설검정)

양측검정 - 귀무가설을 기각하는 영역이 양쪽에 있는 검정
- 대립가설이 ~가 아니다(크거나 작다)인 경우 사용
단측검정 - 귀무가설을 기각하는 영역이 한쪽 끝에 있는 검정
- 대립가설이 ~보다 작다 혹은 크다인 경우 사용

 

 

분석 모델링 설계와 검정 - 추정 방법에 대한 기술 검토

- 데이터 전처리 과정을 거치며 모형에 활용될 후보 변수와 후보 분석 모형에 사용할 알고리즘 파악

- 분석 모형 선정 문제 : 비즈니스 환경 여건, 종속 변수 유무에 따라 달라짐

 > 종속 변수가 없으면 사용가능 알고리즘이 군집과 원인 분석, 이상치, 연관 법칙 등으로 제한

 

 

#2 분석 환경 구축

> R과 Python

R - 객체지향언어, 고속메모리 처리, 다양한 최신 패키지 제공
- 벡터, 배열, 행렬, 데이터프레임, 리스트 등 다양한 자료구조와 연산 가능
- 데이터 분석과 표현을 위한 다양한 그래픽 도구 제공, 시각화 특화

단점 : 대용량 메모리 처리가 어렵고 보안에 취약, 별도의 모듈 연동이 아니면 웹 브라우저에서 사용할 수 없음 
Python - 인터프리터 언어, 컴파일, 실행, 테스트 용이
- 동적으로 데이터 타입 결정
- 플랫폼 독립적, 컴파일 없이 동작 실행
- 리스트, 사전, 튜플 등 유연한 내장 객체 자료형 지원, 메모리 자동할당 뒤 종료 시 자동 해지하는 메모리 청소 기능 제공

단점 : 인터프리터 방식은 비교적 실행속도가 느린 단점을 가짐

 

인터프리터 : 프로그래밍 소스 코드를 바로 실행하는 환경, 원시 코드를 기계어로 번역하는 컴파일러와 대비

 

데이터 분할 : 분석용 데이터 모형을 구축하여 평가 및 검증하기 위해 전체 데이터를 분할

학습 데이터 데이터를 학습하여 분석 모형을 만드는 데에 직접 사용되는 데이터
평가 데이터 추정한 분석 모델이 과대·과소적합인지 모형의 성능을 평가하기 위한 데이터
테스트 데이터 최종적으로 일반화된 분석 모형을 검증하는 테스트를 위한 데이터 

 

과대적합(과적합) : 학습 데이터에 대해서는 높은 정확도를 나타내지만 테스트 데이터나 새로운 데이터에 대해서는 예측을 잘 하지 못하는 것

과소적합 : 모형이 단순하여 데이터 내부의 패턴 또는 규칙을작 학습하지 못하는 것

일반화 : 학습 데이터를 통해 생성된 모델이 평가 데이터를 통한 성능 평가 외에도 테스트 데이터를 통해 정확하게 예측하는 것

 

그림(2) 참고도서: 이기적 빅데이터분석기사 필기(2024)

 

 

#3 분석기법

 > 학습 유형에 따른 데이터 분석 모델

지도학습 주어진 데이터에 대해 정답을 부여하고 동일한 정답이 나오도록 분류 또는 새로운 데이터의 정답을 예측하도록 학습
- 분류 : 의사결정나무, 랜덤 포레스트, 인공신경망, SVM, 로지스틱 회귀분석
- 회귀(예측) : 의사결정나무, 선형 회귀분석, 다중 회귀 분석 
비지도학습 정답없이 컴퓨터 스스로 입력 데이터의 패턴을 찾아내고 구조화
- 군집 분석, 연관성 분석, 인공신경망, 오토 인코더
준지도학습 효율적 학습을 위해 목표값이 표시된 데이터와 그렇지 않은 데이터를 모두 학습에 사용함으로써 주어진 데이터 특징을 표현하는 잠재변수를 찾음
- 셀프 트레이닝, GAN 
강화학습 주어진 환경에서 보상을최대화하도록 에이전트를 학습
- Q-Learning, 정책경사(PG) 

 

회귀분석 : 원인과 결과의 연관을 분석, 예측이나 분류에 사용

선형 회귀분석 통계적 의미로 종속변수 y와 한 개 이상의 독립변수 x와의 선형 상관성파악  
로지스틱 회귀분석  - 종속변수가 이항형(유효한 범주의 개수가 두 개)일 떄 사용
- 신용 평가에 많이 사용

 

의사결정나무 : 의사결정 규칙을 나무 모양으로 조합하여 목표 변수에 대한 분류 또는 예측을 수행

 > 부모마디보다 자식마디의 순수도(purity) 증가, 불확실성은 감소하도록 분리 진행(정보 획득)

 

의사결정나무 분석 과정

1. 변수 선택 : 목표변수와 관련된 설명(독립) 변수들을 선택

2. 의사결정나무 형성 : 분석 목적에 따라 적절히 훈련데이터를 활용

3. 가지치기 : 부적절한 추론규칙을 가지거나 불필요 또는 분류 오류를 크게 할 위험이 있는 마디 제거

4. 타당성 평가 : 이익, 비용, 위험 등을 고려하여 모형을 평가

5. 해석 및 예측 : 최종 모형에 대한 해석으로 분류 및 예측 모델을 결정

 

랜덤 포레스트 :  부트스트래핑 기반 샘플링을 활용한 의사결정나무 생성 이후 배깅 기반 나무들을 모아 앙상블 학습하여 숲을 형성

부트 스트래핑 : 단순 복원 임의추출법(랜덤 샘플링)으로 크기가 동일한 여러 개의 표본 자료 생성

배깅 : 여러 부트스트랩 자료를 생성하여 학습하는 모델링

부스팅 : 가중치를 활용하여 약분류기를 강분류기로 만드는 방법

앙상블 학습 : 여러 모델을 학습시켜 결합

 

 

참고도서 

이기적 빅데이터분석기사 필기(2024)

반응형