반응형

빅데이터분석기사/필기 7

[빅데이터분석기사 / 필기] 빅데이터 결과해석

오차행렬실제답 True False예측결과TrueTrue PositiveFalse PositiveFalseFalse NegativeTrue Negative정확도(accuracy)정밀도 (Precision)재현율 (Recall)(TP + TN) / (TP + FP + TN + FN)TP / (TP + FP)TP / (TP + FN) F1 score : 정밀도와 재현율을 결합한 조화평균 지표, 값이 클수록 모형이 정확ROC Curve : FP rate가 변할 때 TP rate가 어떻게 변화하는지 나타내는 곡선, 하단 면적 = AUC (지도학습) 회귀모델 평가 지표- SSE : 실제값과 예측값의 차이를 제곱하여 더한값 > SSE에 평균을 취하면 MSE, MSE에 루트를 취하면 RMSE, MSE를 퍼센트로 변환하..

[빅데이터분석기사 / 필기] 빅데이터 모델링2

인공신경망가중치 : 노드와의 연결계수 학습 : 가중치와 편향을 훈련 데이터에 적응하도록 조정하는 과정 > 1단계 : 미니배치, 2단계 : 가중치 매개변수 기울기 산출, 3단계 : 매개변수 갱신오차역전파 : 가중치 매개변수 기울기를 미분을 통해 진행하지 않고 오차를 출력층에서 입력층으로 전달, 연쇄법칙을 활용한 역전파를 통해 가중치와 편향을 계산 과대적합 해결방안1. 가중치 감소 : 가중치가 클수록 일종의 패널티를 부과하여 가중치 매개변수 절대값을 감소시킴 > 패널티 역할로 L1 규제(라쏘), L2 규제(릿지)2. 드롭아웃 : 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법, 적은 뉴런만으로 훈련한 뒤 테스트 시 전체 뉴런을 사용하면 정답을 더 잘 찾음3. 초매개변수 최적화 : 수동으로 변수들을 설정하여 ..

[빅데이터분석기사 / 필기] 빅데이터 모델링

#1 분석 절차 수립분석 모형 : 분석 목표에 따라 데이터 특성을도출, 가설 수립에 따라 전체적 분석 방향을 정의 > 예측 분석 모형, 현황 진단 모형, 최적화 분석 모형 등분석 모형 선정 프로세스 : 문제요건 정의 - 데이터 수집·정리 - 데이터 전처리 - 분석 모형 선정상향식 접근 : 특정 영역을 지정하여 의사결정 지점으로 진행하는 과정에서 분석 기회를 발굴분석 유스케이스 기반 접근 : 분석 테마 후보 그룹(pool)을 활용하고 연관된 분석 기회를 발굴 분석 모형 구축 절차분석 시나리오 작성 : 데이터 분석 대상 및 범위를 요구사항에 맞게 정의, 해결할 수 있는 문제와 목표, 목표별 구현 모델과 예상 결과 작성분석 모형 설계 : 분석 대상 및 범위를 정하여 분석 목적구현을 위한 분석 방법론 설계 분석..

[빅데이터분석기사 / 필기] 빅데이터 탐색3

추론통계점추정 : 모수 즉 모평균이나 모표준편차 등과 같은 추정치를 이에 대응하는 통계량으로 추정 > 모수와 추정량 처리모수추정량모평균(𝜇)에 대한 점추정표본집단의 표본평균x̄ = (1/k) * Σ (i=1부터 k까지) xi모분산(𝜎 2 )에 대한 점추정표본집단의 표본분산s² = (1 / (n - 1)) * Σ (i=1부터 n까지) (xi - x̄)²모비율에 대한 점추P̂ = X / n X : 표본 중에 성공으로 나타난 개체수, n : 표본의 개체수 편향 : 기대하는 추정량과 모수의 차이, 편향이 0이 되면 불편추정량최대우도추정량 : 표본을 얻을 확률이 가장 높은, 즉 주어진 관찰값을 가장 잘 설명해주는 𝜃̂구간추정 : 첨추정에 오차의 개념을 도입하여 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래..

[빅데이터분석기사 / 필기] 빅데이터 탐색2

#1 고급데이터 탐색시공간 데이터 : 공간적 정보에 시간의 흐름이 결합된 다차원 데이터시간 데이터 : 데이터에 유효 시간, 거래 시간, 사용자 정의 시간과 같은 연관된 시간 표현 정의공간 데이터 : 래스터, 벡터 공간, 기하학, 위상적 타입 등 정의 공간 데이터 모델관계형 모델정적 모델, 표현이 유연하지 못해 실세계 공간 객체의 특징 표현에 한계객체지향 모델비 구조적, 자연스런 표현, 연산과 함수 확장이 쉬움, 무결성 검사 용이 시공간자료 질의어시공간자료정의언어- 시공간 테이블 인덱스 및 뷰의 정의문, 변경문 등- 공간적, 시간적 속성을 동시 포함시공간자료조작언어- 객체의 삽입, 삭제, 변경 등의 검색문- 시간지원, 공간 연산자를 포함, 공간관리와 이력정보 제공   다변량 데이터 탐색 : 변수들간 인과관..

[빅데이터분석기사 / 필기] 빅데이터 탐색

#1 데이터 정제데이터 정제 과정 : 다양한 매체로부터 데이터 수집, 원하는 형태로 변환, 원하는 장소에 저장, 활용가능성을 타진하기 위한 품질 확인, 사용이 원활하도록 관리 > 비정형 데이터의 경우 구조화된 정형 데이터로 변환을 수행, 결측치와 오류 수정 과정 필요전처리데이터 저장 전 처리, 대상 데이터와 입수 방법 결정, 저장 방식/장소 선정  후처리데이터 저장 후 처리, 저장 데이터의 품질관리 등의 과정 포함  결측치 (missing data, 손실 데이터) : 어떠한 자료값도 관측 대상변수에 저장되지 않을 때 발생완전 무작위 결측어떤 변수상에서 결측 데이터가 다른 변수와 아무런 연관이 없는 경우무작위 결측결측 데이터가 관측된 다른 변수와 연관이 있지만 비관측값들과는 연관되지 않는 경우, 결측이 완..

[빅데이터분석기사 / 필기] 빅데이터의 이해

#1 빅데이터 개요 및 활용 정량적 데이터(quantitative) : 주로 숫자로 이루어진 데이터(800m, 80km/h 등)정성적 데이터(qualitative) : 문자와같은 텍스트로 구성되며 함축적 의미를 지니고 있는 데이터 (내가 시험에 합격했다.) 정형 데이터정해진 형식과 구조에 맞게 저장되도록 수어된 데이터, 연산이 가능반정형 데이터데이터의 형식과 구조가 비교적 유연, 스키마 정보를 데이터와 함께 제공하는파일 형식의 데이터, 연산이 불가능 비정형 데이터구조가 정해지지 않은 대부분의 데이터, 연산이 불가능 암묵지 : 학습과 경험을 통하여 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식데이터베이스 : 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고..

반응형