-
스프레드 시트 데이터 분석 1 - 상관계수 분석(correl)데이터분석/스프레드시트 2021. 12. 26. 15:59반응형
안녕하세요!
오늘은 스프레드 시트를 활용한 상관계수 분석에 대해서 알아보도록 하겠습니다.
1. 상관계수는 어떤 상황에서 활용하는 걸 까요?
- 특정 변수와 다른 변수의 상관관계를 분석하기 위함
예를 들어 실제 아이스크림 판매수와 온도와의 상관관계를 본다고 생각해봅시다.
온도가 내려가면 아이스크림 판매수가 떨어지겠지?
온도가 올라가면 아이스크림 판매수가 올라가겠지?
이런 일반적인 지식을 뭔가 숫자로 표현해주는 것이 바로 상관계수입니다.
(상관관계랑 인과관계는 다른 것인데 인과관계에 해당 분석은 상관관계만 반영하는 것입니다.)
2. 어떻게 계산되는 걸까?
- 스프레드 시트의 상관계수는 pearson의 상관계수를 따릅니다.
수식
https://en.wikipedia.org/wiki/Correlation
수식을 간단히 설명하자면 이렇습니다.
분모: x와 y의 공분산
분자: x의 표준편차 * y의 표준편차
- 공분산: 두 숫자형 변수가 같은 방향으로 움직이는 정도
- 상관계수: 공분산을 각각의 표준편차로 나눠준 값
위의 x와 y가 서로 독립이면(관계가 없다면) 공분산이 0이 되어 상관계수를 0으로 나오게 됩니다.
3. 해석은 어떻게 해야 되는 걸까?
상관관계는 -1 ~ 1의 사이의 값을 가지며 해석할 때는 3가지의 관점에서 분석을 하게 됩니다.
- 양의 상관관계: 서로 수치가 같은 방향으로 흘러가는 상관관계
- 음의 상관관계: 서로 수치가 반대방향으로 흘러가는 상관관계
- 서로 독립: 서로 관계가 없는 상관관계
상관계수 수치 관계 -1.0 ~ -0.7 강한 음의 상관관계 -0.7 ~ -0.3 뚜렷한 음의 상관관계 -0.3 ~ -0.1 약한 음의 상관관계 -0.1 ~ +0.1 독립적인 관계 +0.1 ~ +0.3 약한 양의 상관관계 +0.3 ~ +0.7 뚜렷한 양의 상관관계 +0.7 ~ +1.0 강한 양의 상관관계 4. 스프레드 시트로 실습을 해봅시다.
문법
= CORREL(데이터_y, 데이터_x) - 데이터_y - 종속 데이터의 배열 또는 행렬을 나타내는 범위입니다. - 데이터_x - 독립 데이터의 배열 또는 행렬을 나타내는 범위입니다.
예시 데이터셋
사실 구하는 것 자체는 쉽습니다. correl 함수에 관계를 구하고 싶은 두 배열을 넣어주면 됩니다.
각 데이터들과 아이스크림 판매량과의 상관계수를 구해보겠습니다.
#아이스크림과 온도의 관계 =correl($B$5:$B$15,C5:C15) #아이스크림과 담배판매량과의 관계 =correl($B$5:$B$15,D5:D15) #아이스크림과 술판매량과의 관계 =correl($B$5:$B$15,E5:E15)
분석 결과
- 온도와는 강한 양의 상관관계
- 담배와는 뚜렷한 음의 상관관계
- 술과는 독립적인 관계
이렇게 해석할 수 있겠습니다. 내가 만약 아이스크림 판매자라면 온도와 양의 상관관계가 높기 때문에 온도에 민감하게 반응하여 물건을 준비하는 것이 도움이 될 것입니다.
https://docs.google.com/spreadsheets/d/1wkcI0YL-z7L05Iy574X1KVQDa0bx24wPcXL81xrIFeM/edit?usp=sharing
반응형'데이터분석 > 스프레드시트' 카테고리의 다른 글
스프레드 시트 데이터 분석 2 - 평균비교(t-test) (0) 2022.06.18 구글 스프레드 시트 22 - 막대차트와 원형차트 (0) 2021.03.21 구글 스프레드 시트 21 - 주소에서 지번을 분리 해보자 (0) 2021.03.20 구글 스프레드 시트 20 - 데이터 순위 계산(rank, percentrank) (0) 2021.03.20 구글 스프레드 시트 19 - 반올림, 반내림 함수(ROUND, ROUNDUP, ROUNDDOWN, MROUND, INT, FLOOR, CEILING) (0) 2021.03.20