#1 분석 절차 수립
분석 모형 : 분석 목표에 따라 데이터 특성을도출, 가설 수립에 따라 전체적 분석 방향을 정의
> 예측 분석 모형, 현황 진단 모형, 최적화 분석 모형 등
분석 모형 선정 프로세스 : 문제요건 정의 - 데이터 수집·정리 - 데이터 전처리 - 분석 모형 선정
상향식 접근 : 특정 영역을 지정하여 의사결정 지점으로 진행하는 과정에서 분석 기회를 발굴
분석 유스케이스 기반 접근 : 분석 테마 후보 그룹(pool)을 활용하고 연관된 분석 기회를 발굴
분석 모형 구축 절차
분석 시나리오 작성 : 데이터 분석 대상 및 범위를 요구사항에 맞게 정의, 해결할 수 있는 문제와 목표, 목표별 구현 모델과 예상 결과 작성
분석 모형 설계 : 분석 대상 및 범위를 정하여 분석 목적구현을 위한 분석 방법론 설계
분석 모델링 설계와 검정 - 분석 목적에 기반한 가설검정 방법
1. 유의수준 결정, 귀무가설과 대립가설 설정
2. 검정통계량(가설을 검정하기 위한 기준으로 사용하는 값)의 설정
3. 기각역 설정
4. 검정통계량 계산
> 검정통계량 = (표본평균 − 모평균) / (표본 표준편차)
5. 통계적인 의사결정(가설검정)
양측검정 | - 귀무가설을 기각하는 영역이 양쪽에 있는 검정 - 대립가설이 ~가 아니다(크거나 작다)인 경우 사용 |
단측검정 | - 귀무가설을 기각하는 영역이 한쪽 끝에 있는 검정 - 대립가설이 ~보다 작다 혹은 크다인 경우 사용 |
분석 모델링 설계와 검정 - 추정 방법에 대한 기술 검토
- 데이터 전처리 과정을 거치며 모형에 활용될 후보 변수와 후보 분석 모형에 사용할 알고리즘 파악
- 분석 모형 선정 문제 : 비즈니스 환경 여건, 종속 변수 유무에 따라 달라짐
> 종속 변수가 없으면 사용가능 알고리즘이 군집과 원인 분석, 이상치, 연관 법칙 등으로 제한
#2 분석 환경 구축
> R과 Python
R | - 객체지향언어, 고속메모리 처리, 다양한 최신 패키지 제공 - 벡터, 배열, 행렬, 데이터프레임, 리스트 등 다양한 자료구조와 연산 가능 - 데이터 분석과 표현을 위한 다양한 그래픽 도구 제공, 시각화 특화 단점 : 대용량 메모리 처리가 어렵고 보안에 취약, 별도의 모듈 연동이 아니면 웹 브라우저에서 사용할 수 없음 |
Python | - 인터프리터 언어, 컴파일, 실행, 테스트 용이 - 동적으로 데이터 타입 결정 - 플랫폼 독립적, 컴파일 없이 동작 실행 - 리스트, 사전, 튜플 등 유연한 내장 객체 자료형 지원, 메모리 자동할당 뒤 종료 시 자동 해지하는 메모리 청소 기능 제공 단점 : 인터프리터 방식은 비교적 실행속도가 느린 단점을 가짐 |
인터프리터 : 프로그래밍 소스 코드를 바로 실행하는 환경, 원시 코드를 기계어로 번역하는 컴파일러와 대비
데이터 분할 : 분석용 데이터 모형을 구축하여 평가 및 검증하기 위해 전체 데이터를 분할
학습 데이터 | 데이터를 학습하여 분석 모형을 만드는 데에 직접 사용되는 데이터 |
평가 데이터 | 추정한 분석 모델이 과대·과소적합인지 모형의 성능을 평가하기 위한 데이터 |
테스트 데이터 | 최종적으로 일반화된 분석 모형을 검증하는 테스트를 위한 데이터 |
과대적합(과적합) : 학습 데이터에 대해서는 높은 정확도를 나타내지만 테스트 데이터나 새로운 데이터에 대해서는 예측을 잘 하지 못하는 것
과소적합 : 모형이 단순하여 데이터 내부의 패턴 또는 규칙을작 학습하지 못하는 것
일반화 : 학습 데이터를 통해 생성된 모델이 평가 데이터를 통한 성능 평가 외에도 테스트 데이터를 통해 정확하게 예측하는 것
#3 분석기법
> 학습 유형에 따른 데이터 분석 모델
지도학습 | 주어진 데이터에 대해 정답을 부여하고 동일한 정답이 나오도록 분류 또는 새로운 데이터의 정답을 예측하도록 학습 - 분류 : 의사결정나무, 랜덤 포레스트, 인공신경망, SVM, 로지스틱 회귀분석 - 회귀(예측) : 의사결정나무, 선형 회귀분석, 다중 회귀 분석 |
비지도학습 | 정답없이 컴퓨터 스스로 입력 데이터의 패턴을 찾아내고 구조화 - 군집 분석, 연관성 분석, 인공신경망, 오토 인코더 |
준지도학습 | 효율적 학습을 위해 목표값이 표시된 데이터와 그렇지 않은 데이터를 모두 학습에 사용함으로써 주어진 데이터 특징을 표현하는 잠재변수를 찾음 - 셀프 트레이닝, GAN |
강화학습 | 주어진 환경에서 보상을최대화하도록 에이전트를 학습 - Q-Learning, 정책경사(PG) |
회귀분석 : 원인과 결과의 연관을 분석, 예측이나 분류에 사용
선형 회귀분석 | 통계적 의미로 종속변수 y와 한 개 이상의 독립변수 x와의 선형 상관성파악 |
로지스틱 회귀분석 | - 종속변수가 이항형(유효한 범주의 개수가 두 개)일 떄 사용 - 신용 평가에 많이 사용 |
의사결정나무 : 의사결정 규칙을 나무 모양으로 조합하여 목표 변수에 대한 분류 또는 예측을 수행
> 부모마디보다 자식마디의 순수도(purity) 증가, 불확실성은 감소하도록 분리 진행(정보 획득)
의사결정나무 분석 과정
1. 변수 선택 : 목표변수와 관련된 설명(독립) 변수들을 선택
2. 의사결정나무 형성 : 분석 목적에 따라 적절히 훈련데이터를 활용
3. 가지치기 : 부적절한 추론규칙을 가지거나 불필요 또는 분류 오류를 크게 할 위험이 있는 마디 제거
4. 타당성 평가 : 이익, 비용, 위험 등을 고려하여 모형을 평가
5. 해석 및 예측 : 최종 모형에 대한 해석으로 분류 및 예측 모델을 결정
랜덤 포레스트 : 부트스트래핑 기반 샘플링을 활용한 의사결정나무 생성 이후 배깅 기반 나무들을 모아 앙상블 학습하여 숲을 형성
부트 스트래핑 : 단순 복원 임의추출법(랜덤 샘플링)으로 크기가 동일한 여러 개의 표본 자료 생성
배깅 : 여러 부트스트랩 자료를 생성하여 학습하는 모델링
부스팅 : 가중치를 활용하여 약분류기를 강분류기로 만드는 방법
앙상블 학습 : 여러 모델을 학습시켜 결합
참고도서
이기적 빅데이터분석기사 필기(2024)
'빅데이터분석기사 > 필기' 카테고리의 다른 글
[빅데이터분석기사 / 필기] 빅데이터 결과해석 (7) | 2024.08.30 |
---|---|
[빅데이터분석기사 / 필기] 빅데이터 모델링2 (1) | 2024.08.29 |
[빅데이터분석기사 / 필기] 빅데이터 탐색3 (0) | 2024.08.26 |
[빅데이터분석기사 / 필기] 빅데이터 탐색2 (2) | 2024.08.21 |
[빅데이터분석기사 / 필기] 빅데이터 탐색 (1) | 2024.08.13 |