데이터분석/데이터 분석 기사

[데이터 분석 기사] 빅데이터 분석 기획 - 빅데이터 분석과제 정의

devbean 2020. 9. 21. 21:32
반응형

빅데이터 개요

1. 빅데이터의 정의

 - 대량의 정형 또는 비정형(텍스트 등) 데이터로부터 가치를 추출하고 결과를 분석하는 기술

 

2. 빅데이터의 핵심 특징(5V)

  • Volume: 규모의 증가
  • Variety: 다양성
  • Velocity: 처리속도
  • Value: 가치
  • Veracity: 정확성

 

3. 빅데이터의 부가 특징들

  • Validity(유효성), Volatility(휘발성) -> 얘내둘까지 끼면 7V
  • 복잡성(Complexity)

 

4. 빅데이터의 유형

  • 정형화된 데이터: 텍스트
  • 반 정형화된 데이터 및 비 정형 데이터: 그림, 동영상, 음성, 로그, 센서, 데이터 stream...)

 

5. 빅데이터의 중요성

  • 전분야에 걸쳐서 예측, 개인화 등을 통해서 과거에 불가능 했던 기술을 실현 시킬 수 있음

 

6. 빅데이터 요소 기술

  • 수집: 데이터를 수동/자동으로 수집 하는 과정 -> ETL(Extract/Transform/Load) -> 크롤링, 로그 수집기, OPEN API
  • 저장: 데이터를 크기에 상관없이 빠르고 저렴하게 저장 -> DBMS, Hadoop, NoSQL
  • 공유: 시스템간의 데이터 공유
  • 처리: 대용량 데이터의 저장, 수집, 관리, 분석과정 처리 -> Spark(인 메모리 데이터 처리)
  • 분석: 통계분석, 데이터 마이닝 ...
  • 시각화: 다양한 차트와 관계등을 시각화, 정보시각화 기술, 도구, 편집 기술

 

7. 빅데이터 분석 기획

  • 도메인 이슈 도출하기 -> 분석과제 as/is 및 개선방향 작성
  • 분석 목표 수립하기 -> 분석목표정의서 확정
  • 프로젝트 계획하기 -> 프로젝트 계획 설계(wbs -> work breakdown structure)
  • 보유데이터 자산 확인하기 -> 내 외부 데이터 활용 수준 분석 및 컴플라이언스 점검

 

WBS: 빅데이터 분석을 위한 예산, 소요기간, 현재의 IT 환경등을 고려하는 것

 

NCS 정의(빅데이터 분석 직무): 대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석 기술과 방법론을 기반으로 정형, 비정형 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업무

 

8. 빅데이터와 데이터베이스

  • 데이터베이스 : 여러 사람에 의해 공유되어 사용될 목적으로 통합하여 관리되는 데이터의 집합
  • 데이터베이스 관리 시스템(DBMS): 다수의 컴퓨터 사용자들이 컴퓨터에 수록된 많은 자료들을 쉽고 빠르게 조회, 추가, 수정, 삭제 할수 있도록 해주는 소프트 웨어
  • 데이터: 수, 영상, 단어 등의 형태로 된 의미 단위 -> 자료를 의미있게 정리하면 정보가 됨
  • 정보: 특정 목적을 위하여 광 또는 전자적 방식으로 처리되어 부호, 문자, 음성, 흠향 및 영상등을 표현하는 모든 종류의 자료와 지식
  • 정보의 특징: 정확성, 적시성, 관련성, 충분성
  • 지식: 특정 영역에서 정보를 통합한 형태

 분석 목적 설정

1. 빅데이터 분석 및 활용

  • 빅데이터 분석의 목적은 기업 및 기관마다 다름
    •  Gartner(The Big Data Value Model)
      • 고객분석, 제품 및 처리과정의 효율성 제고, 디지털 제품 및 서비스 제공, 운영효율성, 디지털 마케팅, 리스크 관리 및 운영
    • 기업
      • 제품 차별화, 원가 절감, 소비자 행동분석, 고객관계관리, 고객 경험의 변화, 내부 프로세스 및 효율성 개선, 신규 가치 창출
    • 공공
      • 사전 재난 예방, 사회적 기회 창출

 

2. 빅데이터 분석 목표 정의서

  • 분석 목적 설정
  • 세부 목표 설정
  • 분석 목표 정의서 수립
  • 성과평과 설계(소스데이터, 분석방법, 데이터입수 난이도, 분석 난이도, 분석 수행 주기, 분석결과에 대한 검증)
  • 도메인 이슈 도출을 통한 개선방향을 근거로 분석 목표 수정

 

3. 빅데이터 분석 목표정의서 구성요소

  • 데이터 원천 파악
    • 데이터 정보 조사: 테이블 정보와 데이터 축적기간 및 획득주기 조사
    • 데이터 입수 난이도 조사: 데이터 원천별로 데이터 수집이 용이한지 조사

 

  • 분석 접근방안 및 적용 가능성 판단: 최종 개선 목표와 현시점의 분석 목표와의 차이를 고려하여 목표 조정

 

  • 성과평가 기준
    • 정성평가: 분석기법 및 기술의 활용성
    • 정량평가: KPI

데이터 확보 및 분석 방안 설정

1. 데이터 확보 계획 수립

  • 수립 절차
    • 목표정의 -> 요구사항 도출 -> 예산안 수립 -> 계획 수립

 

  • 데이터 확보시 고려사항
    • 분석목표정의서와 소요비용 배분계획을 중심으로 분석 흐름을 맞게 수립
    • 데이터 분석과제 정의 -> 데이터 준비 및 탐색 -> 분석 모델링 및 검중 -> 산출물 정리
    • 단계별로 문서화 하여 WBS(work breakdown structure)에 기록

 

  • WBS(work breakdown structure) 작성
    • 데이터 분석과제 정의: 분석 목표 정의서를 기준으로 프로젝트 전체 일정에 맞추어 사전준비 수행
    • 데이터 준비 및 탐색 : 데이터 처리 엔지니어와 데이터 분석가의 역할을 구분하여 세부 일정을 수립
    • 데이터 분석 모델링 및 검증: 실험방법 및 실험 절차를 구분하여 기획하고 검증하는 내용에 대한 수행일정 수립
    • 산출물 정리: 분석결과를 별도의 애플리케이션으로 연계하여 나타낼 경우 추가 일정을 수립 -> 문서화

 

2. 데이터 분석 방안 설정

  • 빅데이터 분석 절차
    • 문제인식: 목적을 명확히 정의
    • 관련연구조사: 각종 문헌 조사
    • 모형화: 복잡한 문제를 단순화
    • 자료수집: 데이터 수집 과정
    • 자료분석: 수집된 데이터에서 의미 찾기
    • 분석결과 제시: 변수들 간의 관련성을 포함한 분석결과 제시

 

  • 데이터 마이닝
    • 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 기법
    • 구조화 데이터베이스: 정형화 데이터 -> 일반적인 수치 데이터
    • 비구조화 데이터베이스: 문자, 그림, 영상등 형태와 구조가 복잡한 데이터

 

  • 데이터 마이닝 적용 사례
    • 분류(의사결정나무...), 군집화(K-means), 연관성(동일한 장바구니), 연속성(특정기간), 예측(집합 내의 패턴) 
반응형