인공신경망
가중치 : 노드와의 연결계수
학습 : 가중치와 편향을 훈련 데이터에 적응하도록 조정하는 과정
> 1단계 : 미니배치, 2단계 : 가중치 매개변수 기울기 산출, 3단계 : 매개변수 갱신
오차역전파 : 가중치 매개변수 기울기를 미분을 통해 진행하지 않고 오차를 출력층에서 입력층으로 전달, 연쇄법칙을 활용한 역전파를 통해 가중치와 편향을 계산
과대적합 해결방안
1. 가중치 감소 : 가중치가 클수록 일종의 패널티를 부과하여 가중치 매개변수 절대값을 감소시킴
> 패널티 역할로 L1 규제(라쏘), L2 규제(릿지)
2. 드롭아웃 : 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법, 적은 뉴런만으로 훈련한 뒤 테스트 시 전체 뉴런을 사용하면 정답을 더 잘 찾음
3. 초매개변수 최적화 : 수동으로 변수들을 설정하여 과적합 방지
> 활성함수
Sigmoid | 참에 가까워지면 0.5~1, 거짓에 가까워지면 0~0.5 사이의 값으로 출력 |
Relu | 0보다 크면 입력값을 그대로 출력, 0이하의 값만 0으로 출력 |
> 딥러닝 모델 종류
합성곱 신경망(CNN) | - 사람의 시신경구조 모방, 모든 입력 데이터들을 동등한 뉴런으로 처리 - 데이터의 특징, 차원을 추출하여 패턴을 이해하는 방식, 이미지의 특징을 추출하는 과정(합성곱 계층, 풀링 계층)과 클래스를 분류하는 과정으로 진행 |
순환 신경망(RNN) | - 순서를 가진 데이터를 입력하여 단위 간 연결이 시퀀스를 따라 방향성 그래프를 형성하는 모델 - 필기나 음성 인식과 같이 시변적 특징을 지니는 데이터 처리에 적용 |
LSTM | - 점차 데이터가 소멸되는 RNN의 단점을 보완 - 보통 신경망 대비 4배 이상 파라미터를 보유, 여러 단계를 거쳐도 오랜 시간동안 데이터를 잘 기억 |
오토인코더 | 입력으로 들어온 다차원 데이터를 저차원으로 바구고, 다시 고차원으로 바꾸면서 특징점 탐색 |
생성적 적대 신경망(GAN) | 학습 데이터 패턴과 유사하게 만드는 생성자 네트워크와 패턴의 진위 여부를 판별하는 판별자 네트워크가 서로의 목적을 달성하도록 학습 반복 |
합성곱 신경망 모델(CNN)
1. 필터(커널) : 이미지 특징을 찾기 위한 정사각형 행렬로 정의된 파라미터
2. 스트라이드 : 필터는 입력 데이터를 일정한 간격인 스트라이드로 순회하면서 특징을 추출하며, 결과로 특징지도(feature map)가 생성
3. 패딩 : 생성된 특징지도는 입력데이터 크기보다 작은데, 해당 출력데이터 크기가 줄어드는 것을 방지하고자 입력데이터 주변을 특정값으로 채우는 것
출력 높이 (OH):
OH=((H+2P−FH)/S)+1OH = ((H + 2P - FH) / S) + 1
출력 너비 (OW):
OW=((W+2P−FW)/S)+1OW = ((W + 2P - FW) / S) + 1
지지도(support) | 데이터 전체에서 해당 사건이 나타나는 확률 |
신뢰도(confidence) | 어떠한 사건이 다른 사건에 대하여 나타나는 확률 |
향상도(lift) | 두 규칙의 상관관계, 독립인지 판단하는 개념 Lift(A → B) = P(A, B) / (P(A) * P(B)) |
아프리오리(Apriori) 알고리즘 : 최소 지지도 이상의 빈발항목집합만 찾아내서 연관규칙을 계산
군집분석
- 비지도학습, 각 개체들의 유사성을 분석해서 높은 대상끼리 일반화된 그룹으로 분류, 이상치에 민감하여 신뢰성과 타당성 검증이 어려움, 사전 정보 없이 특정 패턴/속성 파악에 효과적
> 군집분석의 척도
유클리드 거리 | 2차원 공간에서 두 점 간의 가장 짧은 거리 개념, 피타고라스 정리 |
맨해튼 거리 | 택시 거리, 시가지 거리, 가로지르지않고 도착하는 최단 거리 |
민코프스키 거리 | d(A,B)=(∑i=1p(xi−yi)m)m1 *m=1일 때 맨해튼 거리, m=2일 때 유클리드 거리와 같음 |
마할라노비스 거리 | 특정 값이 얼마나 평균에서 멀리 있는지를 나타냄, 변수 간 상간관계 고려 |
자카드 거리 | 두 집합간 비유사성을 측정하는 지 |
계층적 군집분석 : 계층화된 구조로 군집을 형성, 군집 수 명시 불필요, 덴드로그램 통해 결과 표현
> 최단, 최장, 평균, Ward 연결법, 계층적 병합 군집화
비 계층적 군집분석 : 사전 군집 수로 표본을 나누며 레콛들을 정해진 군집에 할당, 적은 계산량으로 대규모 DB에서 처리가 유용
> K-평균 군집 분석
# 고급 분석기법
범주형 자료분석
빈도분석 : 질적자료를 대상으로 빈도와 비율을 계산할 때 쓰임
카이제곱검정 : 두 범주형 변수가 서로 상관이 있는지 독립인지를 판단하는 통계적 검정 방법
로지스틱 회귀분석 : 분석하고자 하는 대상들이 두 집단 또는 그 이상의 집단으로 나누어진 경우 개별 관측치들이 어느 집단으로 분류될 수 있는지 분석할 때 사용
T 검정 : 독립변수가 범주형(두 개의 집단)이고 종속변수가 연속형인 경우 사용되는 검정 방법
분산분석 : 독립변수가 범주형(두 개 이상 집단)이고 종속변수가 연속형인 경우 사용되는 검정 방법
다변량분석
다중회귀분석 : 다수의 독립변수 변화에 따른 종속변수의 변화를 예측
다변량분산분석 : 두 개 이상의 범주형 종속변수와 다수의 계량적 독립변수 간 관련성을 동시에 알아볼 때 이용되는 통계적 방법
다변량공분산분석 : 실험에서 통제되지 않은 독립변수들의 종속변수들에 대한 효과를 제거하기 위해 이용되는 방법
정준상관분석 : 종속변수군과 독립변수군 간의 상관을 최대화하는 각 변수군의 선형조합을 찾음
요인분석 : 많은 변수들 간 상호관련성을 분석하고 어떤 공통 요인들로 설명하고자 할 때 이용
군집분석 : 집단에 관한 사전정보가 전혀 없는 각 표본에 대하여 그 분류체계를 찾음
다중판별분석 : 종속변수가 비계량적 변수인 경우, 집단 간 차이를 판별하며 어떤 사례가 여러 개의 계량적 독립변수에 기초하여 특정 집단에 속할 가능성을 예측하는 것이 주목적
다차원척도법: 개체들을 원래의 차원보다 낮은 차원의 공간상에 위치시켜 개체들사이의 구조 또는 관계를 쉽게 파악하는 목적
시계열 분석
추세성분, 계절성분, 순환성분, 복합성분, 자기상관성, 백색잡음
정상성(stationarity) : 시계열 데이터가 평균과 분산이 일정한 경우, 분석이 용이한 형태
> 모든 시점의 평균과 분산이 일정, 공분산이 시차에만 의존, 정상시계열은 평균 회귀 경향을 가짐
> 시계열 자료의 대표 분석방법
단순 방법 | - 이동편균법 : 일정기간을 시계열을 이동하며 평균을 계산 - 지수평활법 : 관찰기간 제한없이 모든 시계열 데이터를 사용, 최근 시계열에 더 많은 가중치를 둠 - 분해법 : 시계열 자료의 성분 분류대로 분해하는 방법 |
모형기반 방법 | - 자기회귀모형 : 과거의 패턴이 현재자료에 영향을 준다는 가정 - 자기회귀이동평균모형 - AR(p) 모형과 MA(q) 모형의 결합형태 - 자기회귀누적이동평균모형 : 비정상성을 가지는 시계열 데이터 분석 |
베이즈 기법
회귀분석모델 적용 : 추정치와 실제의 차이를 최소화하는 것이 목표
나이브 베이즈 분류 : 분류에 필요한 파라미터를 추정하기 위한 학습 데이터의 양이 매우 적음, 간단한 디자인, 지도학습환경에서 효율적
딥러닝 분석
- 인공신경망 : 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜 문제 해결 능력을 가지는 모델 전반
- 심층 신경망(DNN) : 입력층과 출력층 사이에 여러 개의 은닉층들로 이루어진 인공 신경망
- 합성곱 신경망(CNN) : 최소한의 전처리를 사용하도록 설계된 다계층 퍼셉트론의 한 종류
- 순환 신경망(RNN) : 인공 신경망을구성하는 유닛 사이의 연결이 directed cycle을 구성
- 심층 신뢰 신경망(DBN) : 잠재변수의 다중계층으로 이루어진 심층 신경망
비정형 데이터 분석
- 비정형 데이터 분석 기본 원리 : 비정형 데이터의 내용 파악과 패턴 발견을 위해 다양한 기법 활용, 정련 과정을 통해 정형 데이터로 만든 후 데이터 마이닝을 통해 의미있는 정보 발굴
- 데이터 마이닝 : 데이터 안에서 통계적 규칙이나 패턴을 분석하여 가치 있는 정보 추출
> 텍스트 마이닝, 자연어 처리, 웹 마이닝, 오피니언 마이닝, 리얼리티 마이닝
앙상블 분석
- 주어진 자료로부터 여러 개의 학습 모형을 만든 후 조합하여 하나의 최종 모형을 만드는 개념, 약학습기를 통해 강학습기를 만들어 내는 과정
- 약학습기 : 무작위 선정이 아닌 성공률이 높은 학습 규칙
> 앙상블 분석의 종류
보팅(voting) | 서로 다른 알고리즘 모델을 조합해서 사용, 결과물에 대해 투표로 결정 |
부스팅(boosting) | 가중치를 활용해 연속적인 약학습기를 생성하고 이를 통해 강학습기를 만듦, 순차적인 학습을 하며 가중치를 부여해서 오차를 보완 병렬처리 어려움 |
배깅(bagging) | 같은 알고리즘 내에서 다른표본 데이터 조합을 사용, 샘플을 여러 번 뽑아 각 모델을 학습시켜 결과물을 집계 > 랜덤 포레스트 |
스태킹(stacking) | 다양한 모델들의 예측 결과를결합 |
비모수 통계
- 통계학에서 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진데이터에서 직접 확률을 계산하여 통계학적 검정을 하는 분석
> 모집단의 형상이 정규분포가 아닐 때, 표본이 적을 때, 자료들이 서로 독립적일 때
> 질적척도로 측정된 자료도 분석 가능, 비교적 신속하고 쉽게 통계량 구할 수 있음
> 부호검정, 윌콕슨 부호순위 검정, 만 휘트니 검정, 크루스칼-왈리스 검정
참고도서
이기적 빅데이터분석기사 필기(2024)
'빅데이터분석기사 > 필기' 카테고리의 다른 글
[빅데이터분석기사 / 필기] 빅데이터 결과해석 (7) | 2024.08.30 |
---|---|
[빅데이터분석기사 / 필기] 빅데이터 모델링 (1) | 2024.08.26 |
[빅데이터분석기사 / 필기] 빅데이터 탐색3 (0) | 2024.08.26 |
[빅데이터분석기사 / 필기] 빅데이터 탐색2 (2) | 2024.08.21 |
[빅데이터분석기사 / 필기] 빅데이터 탐색 (1) | 2024.08.13 |