ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [데이터 분석 기사] 빅데이터 분석 기획 - 빅데이터 분석과제 정의
    데이터분석/데이터 분석 기사 2020. 9. 21. 21:32
    반응형

    빅데이터 개요

    1. 빅데이터의 정의

     - 대량의 정형 또는 비정형(텍스트 등) 데이터로부터 가치를 추출하고 결과를 분석하는 기술

     

    2. 빅데이터의 핵심 특징(5V)

    • Volume: 규모의 증가
    • Variety: 다양성
    • Velocity: 처리속도
    • Value: 가치
    • Veracity: 정확성

     

    3. 빅데이터의 부가 특징들

    • Validity(유효성), Volatility(휘발성) -> 얘내둘까지 끼면 7V
    • 복잡성(Complexity)

     

    4. 빅데이터의 유형

    • 정형화된 데이터: 텍스트
    • 반 정형화된 데이터 및 비 정형 데이터: 그림, 동영상, 음성, 로그, 센서, 데이터 stream...)

     

    5. 빅데이터의 중요성

    • 전분야에 걸쳐서 예측, 개인화 등을 통해서 과거에 불가능 했던 기술을 실현 시킬 수 있음

     

    6. 빅데이터 요소 기술

    • 수집: 데이터를 수동/자동으로 수집 하는 과정 -> ETL(Extract/Transform/Load) -> 크롤링, 로그 수집기, OPEN API
    • 저장: 데이터를 크기에 상관없이 빠르고 저렴하게 저장 -> DBMS, Hadoop, NoSQL
    • 공유: 시스템간의 데이터 공유
    • 처리: 대용량 데이터의 저장, 수집, 관리, 분석과정 처리 -> Spark(인 메모리 데이터 처리)
    • 분석: 통계분석, 데이터 마이닝 ...
    • 시각화: 다양한 차트와 관계등을 시각화, 정보시각화 기술, 도구, 편집 기술

     

    7. 빅데이터 분석 기획

    • 도메인 이슈 도출하기 -> 분석과제 as/is 및 개선방향 작성
    • 분석 목표 수립하기 -> 분석목표정의서 확정
    • 프로젝트 계획하기 -> 프로젝트 계획 설계(wbs -> work breakdown structure)
    • 보유데이터 자산 확인하기 -> 내 외부 데이터 활용 수준 분석 및 컴플라이언스 점검

     

    WBS: 빅데이터 분석을 위한 예산, 소요기간, 현재의 IT 환경등을 고려하는 것

     

    NCS 정의(빅데이터 분석 직무): 대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석 기술과 방법론을 기반으로 정형, 비정형 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업무

     

    8. 빅데이터와 데이터베이스

    • 데이터베이스 : 여러 사람에 의해 공유되어 사용될 목적으로 통합하여 관리되는 데이터의 집합
    • 데이터베이스 관리 시스템(DBMS): 다수의 컴퓨터 사용자들이 컴퓨터에 수록된 많은 자료들을 쉽고 빠르게 조회, 추가, 수정, 삭제 할수 있도록 해주는 소프트 웨어
    • 데이터: 수, 영상, 단어 등의 형태로 된 의미 단위 -> 자료를 의미있게 정리하면 정보가 됨
    • 정보: 특정 목적을 위하여 광 또는 전자적 방식으로 처리되어 부호, 문자, 음성, 흠향 및 영상등을 표현하는 모든 종류의 자료와 지식
    • 정보의 특징: 정확성, 적시성, 관련성, 충분성
    • 지식: 특정 영역에서 정보를 통합한 형태

     분석 목적 설정

    1. 빅데이터 분석 및 활용

    • 빅데이터 분석의 목적은 기업 및 기관마다 다름
      •  Gartner(The Big Data Value Model)
        • 고객분석, 제품 및 처리과정의 효율성 제고, 디지털 제품 및 서비스 제공, 운영효율성, 디지털 마케팅, 리스크 관리 및 운영
      • 기업
        • 제품 차별화, 원가 절감, 소비자 행동분석, 고객관계관리, 고객 경험의 변화, 내부 프로세스 및 효율성 개선, 신규 가치 창출
      • 공공
        • 사전 재난 예방, 사회적 기회 창출

     

    2. 빅데이터 분석 목표 정의서

    • 분석 목적 설정
    • 세부 목표 설정
    • 분석 목표 정의서 수립
    • 성과평과 설계(소스데이터, 분석방법, 데이터입수 난이도, 분석 난이도, 분석 수행 주기, 분석결과에 대한 검증)
    • 도메인 이슈 도출을 통한 개선방향을 근거로 분석 목표 수정

     

    3. 빅데이터 분석 목표정의서 구성요소

    • 데이터 원천 파악
      • 데이터 정보 조사: 테이블 정보와 데이터 축적기간 및 획득주기 조사
      • 데이터 입수 난이도 조사: 데이터 원천별로 데이터 수집이 용이한지 조사

     

    • 분석 접근방안 및 적용 가능성 판단: 최종 개선 목표와 현시점의 분석 목표와의 차이를 고려하여 목표 조정

     

    • 성과평가 기준
      • 정성평가: 분석기법 및 기술의 활용성
      • 정량평가: KPI

    데이터 확보 및 분석 방안 설정

    1. 데이터 확보 계획 수립

    • 수립 절차
      • 목표정의 -> 요구사항 도출 -> 예산안 수립 -> 계획 수립

     

    • 데이터 확보시 고려사항
      • 분석목표정의서와 소요비용 배분계획을 중심으로 분석 흐름을 맞게 수립
      • 데이터 분석과제 정의 -> 데이터 준비 및 탐색 -> 분석 모델링 및 검중 -> 산출물 정리
      • 단계별로 문서화 하여 WBS(work breakdown structure)에 기록

     

    • WBS(work breakdown structure) 작성
      • 데이터 분석과제 정의: 분석 목표 정의서를 기준으로 프로젝트 전체 일정에 맞추어 사전준비 수행
      • 데이터 준비 및 탐색 : 데이터 처리 엔지니어와 데이터 분석가의 역할을 구분하여 세부 일정을 수립
      • 데이터 분석 모델링 및 검증: 실험방법 및 실험 절차를 구분하여 기획하고 검증하는 내용에 대한 수행일정 수립
      • 산출물 정리: 분석결과를 별도의 애플리케이션으로 연계하여 나타낼 경우 추가 일정을 수립 -> 문서화

     

    2. 데이터 분석 방안 설정

    • 빅데이터 분석 절차
      • 문제인식: 목적을 명확히 정의
      • 관련연구조사: 각종 문헌 조사
      • 모형화: 복잡한 문제를 단순화
      • 자료수집: 데이터 수집 과정
      • 자료분석: 수집된 데이터에서 의미 찾기
      • 분석결과 제시: 변수들 간의 관련성을 포함한 분석결과 제시

     

    • 데이터 마이닝
      • 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 기법
      • 구조화 데이터베이스: 정형화 데이터 -> 일반적인 수치 데이터
      • 비구조화 데이터베이스: 문자, 그림, 영상등 형태와 구조가 복잡한 데이터

     

    • 데이터 마이닝 적용 사례
      • 분류(의사결정나무...), 군집화(K-means), 연관성(동일한 장바구니), 연속성(특정기간), 예측(집합 내의 패턴) 
    반응형

    댓글

Designed by Tistory.