#1 빅데이터 개요 및 활용
정량적 데이터(quantitative) : 주로 숫자로 이루어진 데이터(800m, 80km/h 등)
정성적 데이터(qualitative) : 문자와같은 텍스트로 구성되며 함축적 의미를 지니고 있는 데이터 (내가 시험에 합격했다.)
정형 데이터 | 정해진 형식과 구조에 맞게 저장되도록 수어된 데이터, 연산이 가능 |
반정형 데이터 | 데이터의 형식과 구조가 비교적 유연, 스키마 정보를 데이터와 함께 제공하는파일 형식의 데이터, 연산이 불가능 |
비정형 데이터 | 구조가 정해지지 않은 대부분의 데이터, 연산이 불가능 |
암묵지 : 학습과 경험을 통하여 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식
데이터베이스 : 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합
빅데이터 : 기존보다 방대한 규모의 데이터, 새로운 통찰이나 가치를 추출할 수 있음
-> 규모(Volume), 유형(Veriety), 속도(Velocity), 품질(Veracity), 가치(Value)의 3V + 2V
빅데이터 활용을 위한 3 요소
자원 | - 정형, 반정형, 비정형 데이터를 실시간으로 수집 - 수집된 데이터를 전처리 과정을 통해 품질 향상 |
기술 | - 분산파일시스템을 통해 대용량 데이터를 분산 처리 - 데이터마이닝 등을 통해 데이터를 분석 및 시각화 - 데이터를 스스로 학습, 처리할 수 있는 AI 기술을 활용 |
인력 | - 통계학, 수학, 컴퓨터 공학, 경영학 등 전문지식 - 도메인 지식을 습득하여 데이터 분석 및 결과를 해석 |
데이터 웨어하우스(DW) : 의사결정에 도움을 주기 위해 기관시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스
-> 주제지향성, 통합성, 시계열성, 비휘발성
ETL(Extract, Transform, Load) : 기업의 내외부로부터 데이터를 추출, 정제 및 가공하여 DW에 적재
ODS(Operational Data Store) : 다양한 DBMS에서 추출한 데이터를 통합적 관리
빅데이터 조직 구성 : 집중형(별도의 조직), 기능형(직접 수행), 분산형(전문 인력을 부서 배치)
#2 빅데이터 기술 및 제도
빅데이터 처리과정
데이터(생성) > 수집 > 저장(공유) > 처리 > 분석 > 시각화
수집
- 크롤링(crawling) : 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술
- 로그 수집기, 센서 네트워크, RSS Reader/Open API, ETL 프로세스
저장
- NoSQL : 데이터 모델을 단순화하여 설계된 비관계형 데이터베이스
> Hbase, MongoDB, Cassandra, Cloudata 등
- 공유 데이터 시스템, 병렬 데이터베이스 관리 시스템, 분산 파일 시스템, 네트워크 저장 시스템
처리
- 분산 병렬 컴퓨팅 : 다수의 독립된 컴퓨팅자우너을 네트워크상에 연결하여 이를 제어하는 미들웨어를 이용해 하나의 시스템으로 동작하게 하는 기술
- 맵리듀스(MapReduce) : 구글에서 개발한 프로그래밍 모델, 효과적 병렬 및 분산처리 지원
- 하둡 : 분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원하는 오픈 소스 프레임워크
분석
- 탐구 요인 분석 : 데이터 간 상호 관계를 파악하여 데이터를 부넉
- 확인 요인 분석 : 관찰된 변수들의 집합 요소 구조를 파악하기 위한 통계적 기법 활용
딥러닝
- 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있도록 인공신경망 등의 기술을 이용
- 지도학습 : 학습 데이터로부터 하나의 함수를 유추, 분류와 회귀
- 비지도학습 : 입력값에 대한 목표치가 없음, 주요 특징을 발견하고 요약
전이학습
- 기존의 학습된 모델의 지식을 새로운 문제에 적용하여 학습을 빠르고 효율적으로 수행
개인정보
- 살아 있는 개인에 관한 정보, 다른 정보와 쉽게 결합하여 특정 개인을 알아볼 수 있는 정보
- 개인정보의 처리 위탁 : 개인정보 처리위탁을 받는 자, 처리위탁을 하는 업무의 내용을 알리고 동의를 받아야함
> 단, 정보통신서비스 제공에 관한 계약을 이행하고 이용자 편의 증진 등을 위한 경우 고지절차와 동의절차를 거치지 않고, 이용자에게 이에 관해 알리거나 개인정보 처리방침 등에 공개할 수 있다.
- 개인정보 비식별화 : 개인을식별할 수 있는 요소를 삭제하거나 대체 등의 방법으로 개인을 알아볼 수 없도록 하는 것
(가명 처리, 총계 처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹)
- GDPR : 유럽 의회에서 유럽 시민들의 개인정보 보호를 강화하기 위해 만든 통합 규정
분석방안수립
데이터 분석 : 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행
하향식 접근 : 문제가 주어지고 이에 대한 해법을 찾음
상향식 접근: 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결방안 탐색
분석 방법론 : 데이터 분석의 효과적 수행과 품질 확보를 위해 분석 절차를 체계적으로 정리한 방법
KDD : 데이터셋 선택, 데이터 전처리, 데이터 변환, 데이터 마이닝, 데이터 마이닝 결과 평과
CRISP-DM : 업무 이해, 데이터 이해, 데이터 준비, 모델링, 평가, 전개
SEMMA : 추출, 탐색, 수정, 모델링, 평가
모델링
- 기계학습 등을 이용한 데이터 모델링은 훈련용 데이터를 활용하여 분류, 예측, 군집 등의 모형을 만들어 가동중인 운영시스템에 적용 가능
- 필요한 경우 비전형 데이터 분석 결과를 활용하여 프로젝트 목적에 맞는 통합 모델링을 수행
데이터 거버넌스
- 전사 차원의 모든 데이터에 대하여 정책 및 지침, 운영조직과 책임 등의 표준화된 관리 체계를 수립하고 운영하기 위한 프레임워크와 저장소 구축
> 데이터의 가용성, 유용성, 통합성, 보안성, 안정성을 확보
메타데이터 : 다른 데이터를 설명하기 위해 사용되는 데이터
분석 성숙도 모델
- 비즈니스, 조직 및 역량, IT 부문 대상 실시
> 도입, 활용, 확산, 최적화 단계로 구분
#4 분석 작업계획
데이터 처리 영역 : 데이터 분석을 위한 기초 데이터를 정의하고 수집 및 저장, 분석하기 수월하도록 물리적 환경을 제공
데이터 분석 영역 : 데이터를 추출하여 분석 목적과 방법에 맞게 가공한 후 데이터 분석을 직접 수행하고 결과를 표현
데이터 확보를 위한 사전 검토 : 필요 데이터의 정의, 보유 데이터의 현황파악, 분석 데이터의 유형, 편향되지 않고 충분한 양의 데이터 규모, 내부 데이터의 사용, 외부 데이터의 수집
데이터 전처리 수행 : 정제, 통합, 축소, 변환
데이터 품질 지표 : 정확성, 완전성, 적시성, 일관성
분석 절차
> 일반적 분석 절차
문제 인식 | 문제를 인식하고 분석 목적을 명확히 정의 |
연구조사 | 문제에 대한 해결방안, 중요한 요인이나 변수 파악 |
모형화 | 복잡한 문제를 논리적으로 단순화, 문제를 변수들 간 관계로 정의 |
데이터 수집 | 데이터 수집 또는 변수 측정 |
데이터 분석 | 수집된 데이터로부터 인사이트 발굴 |
분석 결과 제시 | 변수들 간 인과/상관 관계를 포함한 분석 결과 제시, 공유, 시각화 |
분석 프로젝트
> 중점 관리 영역
데이터 크기 | 데이터의 지속적 생성을 고려 |
데이터 복잡도 | 데이터 종류 고려, 다양한 시스템에 산재되어 있는 원천 데이터 통합 진행 |
속도 | 분석 모형의 성능과 속도를 고려한 개발과 테스트 수행 |
분석 모형 복잡도 | 분석 모형이 복잡할수록 정확도는 상승하나 해석이 어려워질 수 있음 |
정확도와 정밀도 | 분석 결과 활용에서는 정확도, 분석 모형 안정성 측면에서는 정밀도가 중요 |
#5 데이터 수집 및 전환
데이터 수집 시스템 구축 절차
- 수집데이터 유형 파악 > 수집 기술 결정 > 아키텍처 수립 > 하드웨어 구축 > 실행환경 구축
원천 데이터 정보 : 데이터의 수집 가능성, 보안, 정확성, 수집 난이도, 수집 비용
> 수집 데이터 구분
내부 데이터 | - 조직 내부의 서비스 시스템, 네트워크 및 서버 장비, 마케팅 관련 시스템 등으로부터 생성 - 분석에 적합한 정형화된 형식으로 수집 |
외부 데이터 | - 다양한 소셜 데이터, 특정 기관 데이터, M2M 데이터, LOD 등 - 분석 목표에 맞게 수집 데이터를 변환하는 노력이 필요 |
아파치 스쿱 : 관계형 데이터스토어 간 대량 데이터를 효과적으로 전송하는 도구
아파치 플럼 : 대용량의 로그 데이터를 효과적으로 수집, 집계, 이동시키는 분산 서비스 제공 솔루션
스크래피 : 웹사이트를 크롤링하고 구조화된 데이터를 수집하는 도구, 파이썬으로 작성됨
데이터 확보 비용 산정 요소 : 데이터의 종류, 크기 및 보관 주기, 수집 주기와 방식/기술, 가치성
데이터 저장 방식 : 파일 시스템, 관계형 데이터베이스, 분산처리 데이터베이스
프라이버시 보호 모델
k-익명성 | 특정인임을 추론할 수 있는 지 검토, 일정 수준 이상 비식별 되도록 함 | 동일한 값을 가진 레코드를 k개 이상으로 하며, 특정 개인을 식별할 확률은 1/k |
l-다양성 | 특정인 추론이 안된다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 낮춤 | 각 레코드는 최소 l개 이상의 다양성을 가지도록 하여 동질성 또는 배경지식 등에 의한 추론 방지 |
t-근접석 | 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮춤 | 전체 데이터 집합의 정보 분포와 특정 정보의 분포 차이를 t이하로 하여 추론 방지 |
데이터 품질 관리 : 비즈니스 목표에 부합한 데이터 분석을 위해 가치성, 정확성, 유용성 확보
> 정형 데이터 품질 기준
완전성 | 필수항목에 누락이 없어야 함 |
유일성 | 데이터 항목은 유일해야 하며 중복 불가 |
유효성 | 정해진 데이터 유효범위 및 도메인을 충족 |
일관성 | 구조, 값, 표현되는 형태가 일관되게 정의 |
정확성 | 현실에 존재하는 객체의 표현 값이 정확히 반영 |
> 비정형 데이터 품질 기준
기능성 | 해당 컨텐츠가 특정 조건에서 사용될 때 요구를 만족하는 기능 제공 정도 |
신뢰성 | 규정된 신뢰 수준을 유지, 사용자로 하여금 오류를 방지할 수 있는 정도 |
사용성 | 사용자에 의해 이해되고 선호되는 정도 |
효율성 | 사용되는 자원의 양에 따라 요구된 성능을 제공하는 정도 |
이식성 | 다양한 환경과 상황에서 실행될 가능성 |
#6 데이터 적재 및 저장
데이터 적재 : 데이터의 유형과 실시간 처리 여부에 따라 구분
> 데이터 수집 도구 이용, NoSQL DBMS가 제공하는 도구를 이용, 관계형 DBMS의 데이터를 NoSQL DBMS에서 적재
데이터 저장 : 파일 시스템 저장방식, 데이터베이스 저장 방식
> 데이터 모델에 따른 NoSQL 데이터베이스 분류
key-value DB | - 데이터를 키와 그에 해당하는 값의 쌍으로 저장하는 모델에 기반 - 관계형 데이터베이스보다 확장성이 뛰어나고 질의 응답 시간이 빠름 |
column-oriented DB | - 데이터를 로우가 아닌 칼럼 기반으로 저장하고 처리 |
document DB | - 문서 형식의 정보를 저장, 검색, 관리하기 위한 데이터베이스 - key-value 데이터베이스보다 문서의 내부구조에 기반을 둔 복잡한 형태의 데이터 저장을 지원 |
빅데이터 저장시스템 선정을 위한 분석 : 가능성 비교분석, 분석방식 및 환경, 분석대상 데이터 유형, 기존 시스템과의 연계
스트리밍 데이터
- 빠르고 연속적, 대용량, 다양한 장소에서 발생
> 네트워크 모니터링 데이터, IoT에서 발생하는 센서 데이터, 통신 데이터, 웹 로그 등
> 로그 : 컴퓨터의 처리 내용이나 이용 상황을 시간의 흐름에 따라 기록한 것
참조 도서
이기적 빅데이터분석기사필기 2024
'빅데이터분석기사 > 필기' 카테고리의 다른 글
[빅데이터분석기사 / 필기] 빅데이터 모델링2 (1) | 2024.08.29 |
---|---|
[빅데이터분석기사 / 필기] 빅데이터 모델링 (1) | 2024.08.26 |
[빅데이터분석기사 / 필기] 빅데이터 탐색3 (0) | 2024.08.26 |
[빅데이터분석기사 / 필기] 빅데이터 탐색2 (2) | 2024.08.21 |
[빅데이터분석기사 / 필기] 빅데이터 탐색 (1) | 2024.08.13 |