빅데이터분석기사/필기

[빅데이터분석기사 / 필기] 빅데이터 모델링2

록스타★ 2024. 8. 29. 17:10
반응형

인공신경망

가중치 : 노드와의 연결계수 

학습 : 가중치와 편향을 훈련 데이터에 적응하도록 조정하는 과정

 > 1단계 : 미니배치, 2단계 : 가중치 매개변수 기울기 산출, 3단계 : 매개변수 갱신

오차역전파 : 가중치 매개변수 기울기를 미분을 통해 진행하지 않고 오차를 출력층에서 입력층으로 전달, 연쇄법칙을 활용한 역전파를 통해 가중치와 편향을 계산

 

과대적합 해결방안

1. 가중치 감소 : 가중치가 클수록 일종의 패널티를 부과하여 가중치 매개변수 절대값을 감소시킴

 > 패널티 역할로 L1 규제(라쏘), L2 규제(릿지)

2. 드롭아웃 : 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법, 적은 뉴런만으로 훈련한 뒤 테스트 시 전체 뉴런을 사용하면 정답을 더 잘 찾음

3. 초매개변수 최적화 : 수동으로 변수들을 설정하여 과적합 방지

> 활성함수

Sigmoid 참에 가까워지면 0.5~1, 거짓에 가까워지면 0~0.5 사이의 값으로 출력
Relu 0보다 크면 입력값을 그대로 출력, 0이하의 값만 0으로 출력

 

> 딥러닝 모델 종류

합성곱 신경망(CNN) - 사람의 시신경구조 모방, 모든 입력 데이터들을 동등한 뉴런으로 처리
- 데이터의 특징, 차원을 추출하여 패턴을 이해하는 방식, 이미지의 특징을 추출하는 과정(합성곱 계층, 풀링 계층)과 클래스를 분류하는 과정으로 진행 
순환 신경망(RNN) - 순서를 가진 데이터를 입력하여 단위 간 연결이 시퀀스를 따라 방향성 그래프를 형성하는 모델
- 필기나 음성 인식과 같이 시변적 특징을 지니는 데이터 처리에 적용
LSTM - 점차 데이터가 소멸되는 RNN의 단점을 보완
- 보통 신경망 대비 4배 이상 파라미터를 보유, 여러 단계를 거쳐도 오랜 시간동안 데이터를 잘 기억
오토인코더 입력으로 들어온 다차원 데이터를 저차원으로 바구고, 다시 고차원으로 바꾸면서 특징점 탐색
생성적 적대 신경망(GAN) 학습 데이터 패턴과 유사하게 만드는 생성자 네트워크와 패턴의 진위 여부를 판별하는 판별자 네트워크가 서로의 목적을 달성하도록 학습 반복

 

합성곱 신경망 모델(CNN)

1. 필터(커널) : 이미지 특징을 찾기 위한 정사각형 행렬로 정의된 파라미터

2. 스트라이드 : 필터는 입력 데이터를 일정한 간격인 스트라이드로 순회하면서 특징을 추출하며, 결과로 특징지도(feature map)가 생성

3. 패딩 : 생성된 특징지도는 입력데이터 크기보다 작은데, 해당 출력데이터 크기가 줄어드는 것을 방지하고자 입력데이터 주변을 특정값으로 채우는 것

출력 높이 (OH):

OH=((H+2P−FH)/S)+1OH = ((H + 2P - FH) / S) + 1

출력 너비 (OW):

OW=((W+2P−FW)/S)+1OW = ((W + 2P - FW) / S) + 1

 

 

 

지지도(support) 데이터 전체에서 해당 사건이 나타나는 확률
신뢰도(confidence) 어떠한 사건이 다른 사건에 대하여 나타나는 확률
향상도(lift) 두 규칙의 상관관계, 독립인지 판단하는 개념
Lift(A → B) = P(A, B) / (P(A) * P(B))

 

아프리오리(Apriori) 알고리즘 : 최소 지지도 이상의 빈발항목집합만 찾아내서 연관규칙을 계산

 

군집분석

- 비지도학습, 각 개체들의 유사성을 분석해서 높은 대상끼리 일반화된 그룹으로 분류, 이상치에 민감하여 신뢰성과 타당성 검증이 어려움, 사전 정보 없이 특정 패턴/속성 파악에 효과적

> 군집분석의 척도

유클리드 거리 2차원 공간에서 두 점 간의 가장 짧은 거리 개념, 피타고라스 정리
맨해튼 거리 택시 거리, 시가지 거리, 가로지르지않고 도착하는 최단 거리 
민코프스키 거리 d(A,B)=(i=1p(xiyi)m)m1

*m=1일 때 맨해튼 거리, m=2일 때 유클리드 거리와 같음

마할라노비스 거리 특정 값이 얼마나 평균에서 멀리 있는지를 나타냄, 변수 간 상간관계 고려
자카드 거리 두 집합간 비유사성을 측정하는 지  

 

계층적 군집분석 : 계층화된 구조로 군집을 형성, 군집 수 명시 불필요, 덴드로그램 통해 결과 표현

 > 최단, 최장, 평균, Ward 연결법, 계층적 병합 군집화

비 계층적 군집분석 : 사전 군집 수로 표본을 나누며 레콛들을 정해진 군집에 할당, 적은 계산량으로 대규모 DB에서 처리가 유용

 > K-평균 군집 분석

 

# 고급 분석기법

범주형 자료분석

빈도분석 : 질적자료를 대상으로 빈도와 비율을 계산할 때 쓰임

카이제곱검정 : 두 범주형 변수가 서로 상관이 있는지 독립인지를 판단하는 통계적 검정 방법

로지스틱 회귀분석 : 분석하고자 하는 대상들이 두 집단 또는 그 이상의 집단으로 나누어진 경우 개별 관측치들이 어느 집단으로 분류될 수 있는지 분석할 때 사용

T 검정 : 독립변수가 범주형(두 개의 집단)이고 종속변수가 연속형인 경우 사용되는 검정 방법

분산분석 : 독립변수가 범주형(두 개 이상 집단)이고 종속변수가 연속형인 경우 사용되는 검정 방법

 

다변량분석

다중회귀분석 : 다수의 독립변수 변화에 따른 종속변수의 변화를 예측

다변량분산분석 : 두 개 이상의 범주형 종속변수와 다수의 계량적 독립변수 간 관련성을 동시에 알아볼 때 이용되는 통계적 방법

다변량공분산분석 : 실험에서 통제되지 않은 독립변수들의 종속변수들에 대한 효과를 제거하기 위해 이용되는 방법

정준상관분석 : 종속변수군과 독립변수군 간의 상관을 최대화하는 각 변수군의 선형조합을 찾음

요인분석 : 많은 변수들 간 상호관련성을 분석하고 어떤 공통 요인들로 설명하고자 할 때 이용

군집분석 : 집단에 관한 사전정보가 전혀 없는 각 표본에 대하여 그 분류체계를 찾음

다중판별분석 : 종속변수가 비계량적 변수인 경우, 집단 간 차이를 판별하며 어떤 사례가 여러 개의 계량적 독립변수에 기초하여 특정 집단에 속할 가능성을 예측하는 것이 주목적

다차원척도법: 개체들을 원래의 차원보다 낮은 차원의 공간상에 위치시켜 개체들사이의 구조 또는 관계를 쉽게 파악하는 목적

 

시계열 분석

추세성분, 계절성분, 순환성분, 복합성분, 자기상관성, 백색잡음

정상성(stationarity) : 시계열 데이터가 평균과 분산이 일정한 경우, 분석이 용이한 형태

 > 모든 시점의 평균과 분산이 일정, 공분산이 시차에만 의존, 정상시계열은 평균 회귀 경향을 가짐

 > 시계열 자료의 대표 분석방법

단순 방법 - 이동편균법 : 일정기간을 시계열을 이동하며 평균을 계산
- 지수평활법 : 관찰기간 제한없이 모든 시계열 데이터를 사용, 최근 시계열에 더 많은 가중치를 둠
- 분해법 : 시계열 자료의 성분 분류대로 분해하는 방법
모형기반 방법 - 자기회귀모형 : 과거의 패턴이 현재자료에 영향을 준다는 가정
- 자기회귀이동평균모형 - AR(p) 모형과 MA(q) 모형의 결합형태
- 자기회귀누적이동평균모형 : 비정상성을 가지는 시계열 데이터 분석

 

베이즈 기법

회귀분석모델 적용 : 추정치와 실제의 차이를 최소화하는 것이 목표

나이브 베이즈 분류 : 분류에 필요한 파라미터를 추정하기 위한 학습 데이터의 양이 매우 적음, 간단한 디자인, 지도학습환경에서 효율적  

 

딥러닝 분석

- 인공신경망 : 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜 문제 해결 능력을 가지는 모델 전반

- 심층 신경망(DNN) : 입력층과 출력층 사이에 여러 개의 은닉층들로 이루어진 인공 신경망

- 합성곱 신경망(CNN) : 최소한의 전처리를 사용하도록 설계된 다계층 퍼셉트론의 한 종류

- 순환 신경망(RNN) : 인공 신경망을구성하는 유닛 사이의 연결이 directed cycle을 구성

- 심층 신뢰 신경망(DBN) : 잠재변수의 다중계층으로 이루어진 심층 신경망

 

비정형 데이터 분석

- 비정형 데이터 분석 기본 원리 : 비정형 데이터의 내용 파악과 패턴 발견을 위해 다양한 기법 활용, 정련 과정을 통해 정형 데이터로 만든 후 데이터 마이닝을 통해 의미있는 정보 발굴

- 데이터 마이닝 : 데이터 안에서 통계적 규칙이나 패턴을 분석하여 가치 있는 정보 추출

 > 텍스트 마이닝, 자연어 처리, 웹 마이닝, 오피니언 마이닝, 리얼리티 마이닝

 

앙상블 분석

- 주어진 자료로부터 여러 개의 학습 모형을 만든 후 조합하여 하나의 최종 모형을 만드는 개념, 약학습기를 통해 강학습기를 만들어 내는 과정

- 약학습기 : 무작위 선정이 아닌 성공률이 높은 학습 규칙

 > 앙상블 분석의 종류

보팅(voting) 서로 다른 알고리즘 모델을 조합해서 사용, 결과물에 대해 투표로 결정
부스팅(boosting) 가중치를 활용해 연속적인 약학습기를 생성하고 이를 통해 강학습기를 만듦,
순차적인 학습을 하며 가중치를 부여해서 오차를 보완
병렬처리 어려움
배깅(bagging) 같은 알고리즘 내에서 다른표본 데이터 조합을 사용,
샘플을 여러 번 뽑아 각 모델을 학습시켜 결과물을 집계 > 랜덤 포레스트 
스태킹(stacking) 다양한 모델들의 예측 결과를결합 

 

비모수 통계

- 통계학에서 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진데이터에서 직접 확률을 계산하여 통계학적 검정을 하는 분석

 > 모집단의 형상이 정규분포가 아닐 때, 표본이 적을 때, 자료들이 서로 독립적일 때

 > 질적척도로 측정된 자료도 분석 가능, 비교적 신속하고 쉽게 통계량 구할 수 있음

 > 부호검정, 윌콕슨 부호순위 검정, 만 휘트니 검정, 크루스칼-왈리스 검정

 

 

참고도서

이기적 빅데이터분석기사 필기(2024)

반응형