데이터분석
-
pandas 데이터 분석 - 데이터 정렬(sort_index, sort_values)데이터분석/파이썬 2022. 6. 27. 21:18
https://kbkb456.tistory.com/118 pandas 데이터 분석 - 중복제거(drop_duplicates) https://kbkb456.tistory.com/88?category=1021504 pandas 데이터 분석 - group by를 이용한 집계(sum, count, min, max, mean, median, std, var, quantile, describe, agg) https://kbkb456.tistory.com/86 pand.. kbkb456.tistory.com 오늘은 데이터 프레임을 정렬하기 위해서 필요한 함수 sort_index와 sort_value에 대해서 알아보도록 하겠습니다. 예시 데이터 프레임 #예제용 데이터프레임 df = pd.DataFrame([[1,2,3..
-
pandas 데이터 분석 - 중복제거(drop_duplicates)데이터분석/파이썬 2022. 6. 26. 14:20
https://kbkb456.tistory.com/88?category=1021504 pandas 데이터 분석 - group by를 이용한 집계(sum, count, min, max, mean, median, std, var, quantile, describe, agg) https://kbkb456.tistory.com/86 pandas 데이터 분석 4 - apply, map를 활용해서 컬럼 연산해보기 https://kbkb456.tistory.com/85 pandas 데이터 분석 3 - 데이터 합치기(merge, append, inner join, left outer.. kbkb456.tistory.com 오늘은 데이터 프레임에 중복이 있을 때 어떻게 처리하는지 알아보겠습니다. pandas에서는 데이터..
-
스프레드 시트 데이터 분석 2 - 평균비교(t-test)데이터분석/스프레드시트 2022. 6. 18. 21:56
오늘은 스프레드 시트를 통해서 t-test를 하는 법에 대해서 알아보도록 하겠습니다. t-test는 무엇인가요? 두 집단 간 평균을 비교하는 대표적인 방법입니다. t-test는 분석을 위해서 여러 가지 가정을 하게 됩니다. 1. 두 집단의 분포가 정규분포이다.(정규성) 2. 두 집단의 분포는 같은 분산을 가지고 있다(등분 산성) 3. 실험은 서로 독립적으로 이루어졌을 것이다.(독립성) 안타깝지만 해당 가설은 스프레드시트로 검증하기가 어렵습니다. 하지만 R로는 쉬우니 한번 확인해보시기 바랍니다. https://kbkb456.tistory.com/93?category=915378 R 프로그래밍 10 - T-TEST(독립표본 t-test) https://kbkb456.tistory.com/90 R 프로그래밍 ..
-
SQL 프로그래밍 2 - SQL의 분류(DDL, DML, DCL)데이터분석/SQL 2022. 1. 2. 13:44
https://kbkb456.tistory.com/98 SQL 프로그래밍 1 - SQL을 학습하는 방법과 연습환경(sql fiddle, sql test) 데이터 분석이 화두에 오르면서 데이터베이스에서 대이터를 추출하는 SQL에 대한 관심도가 높아지고 있다. 1. 그럼 우리가 왜 SQL을 배워야 하는 걸까? - 일하는데 많이 쓰인다. 요새는 개발자나 kbkb456.tistory.com 이전 시간에 SQL을 왜 배워야 하고 어떻게 편하게 실습할 수 있는지 알아봤다. SQL이란 무엇일까? - 관계형 데이터베이스 관리 시스템(RDBMS)의 데이터를 관리하기 위해 설계된 특수 목적의 프로그래밍 언어 - 자료의 검색과 관리, 데이터베이스 스키마 생성과 수정, 데이터베이스 객체 접근 조정 관리를 위해 고안 - 많은 ..
-
SQL 프로그래밍 1 - SQL을 학습하는 방법과 연습환경(sql fiddle, sql test)데이터분석/SQL 2022. 1. 1. 14:38
데이터 분석이 화두에 오르면서 데이터베이스에서 대이터를 추출하는 SQL에 대한 관심도가 높아지고 있다. 1. 그럼 우리가 왜 SQL을 배워야 하는 걸까? - 일하는데 많이 쓰인다. 요새는 개발자나 데이터 분석 직군뿐 아니라 기획자, 운영 등 비개발 직군에서도 SQL로 데이터를 뽑아서 기획이나 보고서를 작성하는 것 같다. - 데이터 분석가 채용 프로세스에서 코딩 테스트를 SQL로 치는 경우가 많다. 아래의 몇몇 기업들의 데이터 분석가(Data Analyst) 채용절차를 가져온 것이다. 따로 명시하지 않아도 간단한 코딩 테스트를 진행하는 회사들도 있다. [채용절차] • 서류전형 > 직무 인터뷰 > 조직문화 인터뷰 > 처우협의 > 최종합격 • 지원자의 이력 및 경력 사항에 따라 SQL 테스트가 추가될 수 있습..
-
스프레드 시트 데이터 분석 1 - 상관계수 분석(correl)데이터분석/스프레드시트 2021. 12. 26. 15:59
안녕하세요! 오늘은 스프레드 시트를 활용한 상관계수 분석에 대해서 알아보도록 하겠습니다. 1. 상관계수는 어떤 상황에서 활용하는 걸 까요? - 특정 변수와 다른 변수의 상관관계를 분석하기 위함 예를 들어 실제 아이스크림 판매수와 온도와의 상관관계를 본다고 생각해봅시다. 온도가 내려가면 아이스크림 판매수가 떨어지겠지? 온도가 올라가면 아이스크림 판매수가 올라가겠지? 이런 일반적인 지식을 뭔가 숫자로 표현해주는 것이 바로 상관계수입니다. (상관관계랑 인과관계는 다른 것인데 인과관계에 해당 분석은 상관관계만 반영하는 것입니다.) 2. 어떻게 계산되는 걸까? - 스프레드 시트의 상관계수는 pearson의 상관계수를 따릅니다. 수식 https://en.wikipedia.org/wiki/Correlation Cor..
-
빅데이터 분석기사 필기합격 후기(필기합격 후 실기는 2년 내로 치면 된다고?)데이터분석/데이터 분석 기사 2021. 12. 26. 06:09
늦었지만 빅데이터 분석기사 필기 합격 후기에 대해서 적어보려고 한다. 준비기간: 일주일 준비교제: 수제비 빅데이터 분석기사 책 사실 2회 시험은 수제비 책과는 동떨어진 시험 유형들이 나왔다. 어느 정도 통계 관련 전공자라면 그냥 쉽게 풀 수 있는 문제들이 몇 개 있었다. 엄청 어렵지는 않았는데 비전공자분들 입장에서는 조금은 까다롭지 않았을까 싶다. 일단 나는 통계학과 출신이다. 그래서 문제를 풀때 생각보다 전부 어렵지는 않았던 것 같다. (뭐.. 점수는 겨우 턱걸이로 붙은 수준이긴하다.) 기출문제를 요약하자면 이런 느낌이라고 본다. - 어떤 상황에서 어떤 분석 혹은 모델링을 할 것이냐? - 만든 모델을 어떻게 평가할 것이냐? (ROC...) - 기본적인 계산들은 직접 할 줄 아는가? (구간 추정, 점추 ..
-
R 프로그래밍 10 - T-TEST(독립표본 t-test)데이터분석/R 2021. 12. 26. 01:52
https://kbkb456.tistory.com/90 R 프로그래밍 9 - dplyr을 활용하여 깔끔한 코드로 데이터 전처리하기(filter, arrange, mutate, select, summa https://kbkb456.tistory.com/62 R 프로그래밍 8 - R 데이터 프레임을 피벗 테이블 처럼 활용하기(dcast, melt) 오늘은 R의 데이터 프레임을 피벗테이블처럼 활용하는 법에 대해서 알아보도록 하겠습니다. 여 kbkb456.tistory.com 저번 시간까지 데이터를 가공하고 요약하는 법에 대해서 배웠습니다. 오늘은 T-TEST에 대해서 알아보도록 합시다. 필요한 라이브러리 불러오기 library(lawstat) library(dplyr) T-TEST? 두 집단간 평균을 비교하는..