빅데이터분석기사/필기

[빅데이터분석기사 / 필기] 빅데이터의 이해

록스타★ 2024. 8. 8. 15:59
반응형

#1 빅데이터 개요 및 활용

 

정량적 데이터(quantitative) : 주로 숫자로 이루어진 데이터(800m, 80km/h 등)

정성적 데이터(qualitative) : 문자와같은 텍스트로 구성되며 함축적 의미를 지니고 있는 데이터 (내가 시험에 합격했다.) 

정형 데이터 정해진 형식과 구조에 맞게 저장되도록 수어된 데이터, 연산이 가능
반정형 데이터 데이터의 형식과 구조가 비교적 유연, 스키마 정보를 데이터와 함께 제공하는파일 형식의 데이터, 연산이 불가능 
비정형 데이터 구조가 정해지지 않은 대부분의 데이터, 연산이 불가능

 

암묵지 : 학습과 경험을 통하여 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식

데이터베이스 : 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합

빅데이터 : 기존보다 방대한 규모의 데이터, 새로운 통찰이나 가치를 추출할 수 있음

-> 규모(Volume), 유형(Veriety), 속도(Velocity), 품질(Veracity), 가치(Value)의 3V + 2V

 

빅데이터 활용을 위한 3 요소

자원 - 정형, 반정형, 비정형 데이터를 실시간으로 수집
- 수집된 데이터를 전처리 과정을 통해 품질 향상
기술 - 분산파일시스템을 통해 대용량 데이터를 분산 처리
- 데이터마이닝 등을 통해 데이터를 분석 및 시각화
- 데이터를 스스로 학습, 처리할 수 있는 AI 기술을 활용
인력 - 통계학, 수학, 컴퓨터 공학, 경영학 등 전문지식
- 도메인 지식을 습득하여 데이터 분석 및 결과를 해석

 

데이터 웨어하우스(DW) : 의사결정에 도움을 주기 위해 기관시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스

 -> 주제지향성, 통합성, 시계열성, 비휘발성

 

ETL(Extract, Transform, Load) : 기업의 내외부로부터 데이터를 추출, 정제 및 가공하여 DW에 적재

ODS(Operational Data Store) : 다양한 DBMS에서 추출한 데이터를 통합적 관리

빅데이터 조직 구성 : 집중형(별도의 조직), 기능형(직접 수행), 분산형(전문 인력을 부서 배치)

 

 

#2 빅데이터 기술 및 제도

빅데이터 처리과정

데이터(생성) > 수집 > 저장(공유) > 처리 > 분석 > 시각화

 

수집

- 크롤링(crawling) : 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술

- 로그 수집기, 센서 네트워크, RSS Reader/Open API, ETL 프로세스

 

저장

- NoSQL : 데이터 모델을 단순화하여 설계된 비관계형 데이터베이스

                  > Hbase, MongoDB, Cassandra, Cloudata 등

- 공유 데이터 시스템, 병렬 데이터베이스 관리 시스템, 분산 파일 시스템, 네트워크 저장 시스템

 

처리

- 분산 병렬 컴퓨팅 : 다수의 독립된 컴퓨팅자우너을 네트워크상에 연결하여 이를 제어하는 미들웨어를 이용해 하나의 시스템으로 동작하게 하는 기술

- 맵리듀스(MapReduce) : 구글에서 개발한 프로그래밍 모델, 효과적 병렬 및 분산처리 지원

- 하둡 : 분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원하는 오픈 소스 프레임워크

 

분석

- 탐구 요인 분석 : 데이터 간 상호 관계를 파악하여 데이터를 부넉

- 확인 요인 분석 : 관찰된 변수들의 집합 요소 구조를 파악하기 위한 통계적 기법 활용

 

딥러닝   

- 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있도록 인공신경망 등의 기술을 이용

- 지도학습 : 학습 데이터로부터 하나의 함수를 유추, 분류와 회귀

- 비지도학습 : 입력값에 대한 목표치가 없음, 주요 특징을 발견하고 요약

 

전이학습

- 기존의 학습된 모델의 지식을 새로운 문제에 적용하여 학습을 빠르고 효율적으로 수행

 

개인정보

- 살아 있는 개인에 관한 정보, 다른 정보와 쉽게 결합하여 특정 개인을 알아볼 수 있는 정보

- 개인정보의 처리 위탁 : 개인정보 처리위탁을 받는 자, 처리위탁을 하는 업무의 내용을 알리고 동의를 받아야함

     > 단, 정보통신서비스 제공에 관한 계약을 이행하고 이용자 편의 증진 등을 위한 경우 고지절차와 동의절차를 거치지            않고, 이용자에게 이에 관해 알리거나 개인정보 처리방침 등에 공개할 수 있다.

- 개인정보 비식별화 : 개인을식별할 수 있는 요소를 삭제하거나 대체 등의 방법으로 개인을 알아볼 수 없도록 하는 것

   (가명 처리, 총계 처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹)

- GDPR : 유럽 의회에서 유럽 시민들의 개인정보 보호를 강화하기 위해 만든 통합 규정

 

 

 

분석방안수립

데이터 분석 : 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행

하향식 접근 : 문제가 주어지고 이에 대한 해법을 찾음

상향식 접근: 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결방안 탐색

분석 방법론 : 데이터 분석의 효과적 수행과 품질 확보를 위해 분석 절차를 체계적으로 정리한 방법

KDD : 데이터셋 선택, 데이터 전처리, 데이터 변환, 데이터 마이닝, 데이터 마이닝 결과 평과

CRISP-DM : 업무 이해, 데이터 이해, 데이터 준비, 모델링, 평가, 전개

SEMMA : 추출, 탐색, 수정, 모델링, 평가

모델링

- 기계학습 등을 이용한 데이터 모델링은 훈련용 데이터를 활용하여 분류, 예측, 군집 등의 모형을 만들어 가동중인 운영시스템에 적용 가능

- 필요한 경우 비전형 데이터 분석 결과를 활용하여 프로젝트 목적에 맞는 통합 모델링을 수행

데이터 거버넌스

- 전사 차원의 모든 데이터에 대하여 정책 및 지침, 운영조직과 책임 등의 표준화된 관리 체계를 수립하고 운영하기 위한 프레임워크와 저장소 구축

  > 데이터의 가용성, 유용성, 통합성, 보안성, 안정성을 확보

메타데이터 : 다른 데이터를 설명하기 위해 사용되는 데이터

분석 성숙도 모델

- 비즈니스, 조직 및 역량, IT 부문 대상 실시

  > 도입, 활용, 확산, 최적화 단계로 구분 

 

#4 분석 작업계획

데이터 처리 영역 : 데이터 분석을 위한 기초 데이터를 정의하고 수집 및 저장, 분석하기 수월하도록 물리적 환경을 제공

데이터 분석 영역 : 데이터를 추출하여 분석 목적과 방법에 맞게 가공한 후 데이터 분석을 직접 수행하고 결과를 표현

데이터 확보를 위한 사전 검토 : 필요 데이터의 정의, 보유 데이터의 현황파악, 분석 데이터의 유형, 편향되지 않고 충분한 양의 데이터 규모, 내부 데이터의 사용, 외부 데이터의 수집

데이터 전처리 수행 : 정제, 통합, 축소, 변환

데이터 품질 지표 : 정확성, 완전성, 적시성, 일관성

 

 

분석 절차

 > 일반적 분석 절차

문제 인식 문제를 인식하고 분석 목적을 명확히 정의
연구조사 문제에 대한 해결방안, 중요한 요인이나 변수 파악
모형화 복잡한 문제를 논리적으로 단순화, 문제를 변수들 간 관계로 정의
데이터 수집 데이터 수집 또는 변수 측정
데이터 분석 수집된 데이터로부터 인사이트 발굴
분석 결과 제시 변수들 간 인과/상관 관계를 포함한 분석 결과 제시, 공유, 시각화

 

분석 프로젝트

 > 중점 관리 영역

데이터 크기 데이터의 지속적 생성을 고려
데이터 복잡도 데이터 종류 고려, 다양한 시스템에 산재되어 있는 원천 데이터 통합 진행
속도 분석 모형의 성능과 속도를 고려한 개발과 테스트 수행
분석 모형 복잡도 분석 모형이 복잡할수록 정확도는 상승하나 해석이 어려워질 수 있음
정확도와 정밀도 분석 결과 활용에서는 정확도, 분석 모형 안정성 측면에서는 정밀도가 중요

 

 

 

#5 데이터 수집 및 전환

데이터 수집 시스템 구축 절차

 - 수집데이터 유형 파악 > 수집 기술 결정 > 아키텍처 수립 > 하드웨어 구축 > 실행환경 구축

 

원천 데이터 정보 : 데이터의 수집 가능성, 보안, 정확성, 수집 난이도, 수집 비용

 > 수집 데이터 구분

내부 데이터 - 조직 내부의 서비스 시스템, 네트워크 및 서버 장비, 마케팅 관련 시스템 등으로부터 생성
- 분석에 적합한 정형화된 형식으로 수집
외부 데이터 - 다양한 소셜 데이터, 특정 기관 데이터, M2M 데이터, LOD 등
- 분석 목표에 맞게 수집 데이터를 변환하는 노력이 필요

 

아파치 스쿱 : 관계형 데이터스토어 간 대량 데이터를 효과적으로 전송하는 도구

아파치 플럼 : 대용량의 로그 데이터를 효과적으로 수집, 집계, 이동시키는 분산 서비스 제공 솔루션

스크래피 : 웹사이트를 크롤링하고 구조화된 데이터를 수집하는 도구, 파이썬으로 작성됨

데이터 확보 비용 산정 요소 : 데이터의 종류, 크기 및 보관 주기, 수집 주기와 방식/기술, 가치성

데이터 저장 방식 : 파일 시스템, 관계형 데이터베이스, 분산처리 데이터베이스

 

프라이버시 보호 모델

k-익명성 특정인임을 추론할 수 있는 지 검토, 일정 수준 이상 비식별 되도록 함 동일한 값을 가진 레코드를 k개 이상으로 하며, 특정 개인을 식별할 확률은 1/k
l-다양성 특정인 추론이 안된다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 낮춤 각 레코드는 최소 l개 이상의 다양성을 가지도록 하여 동질성 또는 배경지식 등에 의한 추론 방지
t-근접석 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮춤 전체 데이터 집합의 정보 분포와 특정 정보의 분포 차이를 t이하로 하여 추론 방지

 

데이터 품질 관리 : 비즈니스 목표에 부합한 데이터 분석을 위해 가치성, 정확성, 유용성 확보

 > 정형 데이터 품질 기준

완전성 필수항목에 누락이 없어야 함
유일성 데이터 항목은 유일해야 하며 중복 불가
유효성 정해진 데이터 유효범위 및 도메인을 충족
일관성 구조, 값, 표현되는 형태가 일관되게 정의
정확성 현실에 존재하는 객체의 표현 값이 정확히 반영

 

> 비정형 데이터 품질 기준

기능성 해당 컨텐츠가 특정 조건에서 사용될 때 요구를 만족하는 기능 제공 정도
신뢰성 규정된 신뢰 수준을 유지, 사용자로 하여금 오류를 방지할 수 있는 정도
사용성 사용자에 의해 이해되고 선호되는 정도
효율성 사용되는 자원의 양에 따라 요구된 성능을 제공하는 정도
이식성 다양한 환경과 상황에서 실행될 가능성

 

 

#6 데이터 적재 및 저장

데이터 적재 : 데이터의 유형과 실시간 처리 여부에 따라 구분

 > 데이터 수집 도구 이용, NoSQL DBMS가 제공하는 도구를 이용, 관계형 DBMS의 데이터를 NoSQL DBMS에서 적재

데이터 저장 : 파일 시스템 저장방식, 데이터베이스 저장 방식

  > 데이터 모델에 따른 NoSQL 데이터베이스 분류

key-value DB - 데이터를 키와 그에 해당하는 값의 쌍으로 저장하는 모델에 기반
- 관계형 데이터베이스보다 확장성이 뛰어나고 질의 응답 시간이 빠름
column-oriented DB - 데이터를 로우가 아닌 칼럼 기반으로 저장하고 처리
document DB - 문서 형식의 정보를 저장, 검색, 관리하기 위한 데이터베이스
- key-value 데이터베이스보다 문서의 내부구조에 기반을 둔 복잡한 형태의 데이터 저장을 지원

 

빅데이터 저장시스템 선정을 위한 분석 : 가능성 비교분석, 분석방식 및 환경, 분석대상 데이터 유형, 기존 시스템과의 연계

스트리밍 데이터

- 빠르고 연속적, 대용량, 다양한 장소에서 발생

  > 네트워크 모니터링 데이터, IoT에서 발생하는 센서 데이터, 통신 데이터, 웹 로그 등

  > 로그 : 컴퓨터의 처리 내용이나 이용 상황을 시간의 흐름에 따라 기록한 것

 

 

참조 도서

이기적 빅데이터분석기사필기 2024 

반응형