데이터분석/스프레드시트

스프레드 시트 데이터 분석 1 - 상관계수 분석(correl)

devbean 2021. 12. 26. 15:59
반응형

안녕하세요!

오늘은 스프레드 시트를 활용한 상관계수 분석에 대해서 알아보도록 하겠습니다.

 

1. 상관계수는 어떤 상황에서 활용하는 걸 까요?

- 특정 변수와 다른 변수의 상관관계를 분석하기 위함

 

예를 들어 실제 아이스크림 판매수와 온도와의 상관관계를 본다고 생각해봅시다.

 

온도가 내려가면 아이스크림 판매수가 떨어지겠지?

온도가 올라가면 아이스크림 판매수가 올라가겠지?

 

이런 일반적인 지식을 뭔가 숫자로 표현해주는 것이 바로 상관계수입니다.

(상관관계랑 인과관계는 다른 것인데 인과관계에 해당 분석은 상관관계만 반영하는 것입니다.)

 

2. 어떻게 계산되는 걸까?

- 스프레드 시트의 상관계수는 pearson의 상관계수를 따릅니다.

 

수식

대략 수식을 보면 이렇다(출처: 위키백과)

 

https://en.wikipedia.org/wiki/Correlation

 

Correlation - Wikipedia

Statistical concept Several sets of (x, y) points, with the Pearson correlation coefficient of x and y for each set. The correlation reflects the noisiness and direction of a linear relationship (top row), but not the slope of that relationship (middle),

en.wikipedia.org

 

수식을 간단히 설명하자면 이렇습니다. 

 

분모: x와 y의 공분산

분자: x의 표준편차 * y의 표준편차

 

- 공분산: 두 숫자형 변수가 같은 방향으로 움직이는 정도

- 상관계수: 공분산을 각각의 표준편차로 나눠준 값

 

위의 x와 y가 서로 독립이면(관계가 없다면) 공분산이 0이 되어 상관계수를 0으로 나오게 됩니다.

 

3. 해석은 어떻게 해야 되는 걸까?

상관관계는 -1 ~ 1의 사이의 값을 가지며 해석할 때는 3가지의 관점에서 분석을 하게 됩니다.

 

- 양의 상관관계: 서로 수치가 같은 방향으로 흘러가는 상관관계

- 음의 상관관계: 서로 수치가 반대방향으로 흘러가는 상관관계

- 서로 독립: 서로 관계가 없는 상관관계

 

상관계수 수치 관계
-1.0 ~ -0.7 강한 음의 상관관계
-0.7 ~ -0.3 뚜렷한 음의 상관관계
-0.3 ~ -0.1 약한 음의 상관관계
-0.1 ~ +0.1 독립적인 관계
+0.1 ~ +0.3 약한 양의 상관관계
+0.3 ~ +0.7 뚜렷한 양의 상관관계
+0.7 ~ +1.0 강한 양의 상관관계

 

4. 스프레드 시트로 실습을 해봅시다.

 

문법

= CORREL(데이터_y, 데이터_x)
  - 데이터_y - 종속 데이터의 배열 또는 행렬을 나타내는 범위입니다.
  - 데이터_x - 독립 데이터의 배열 또는 행렬을 나타내는 범위입니다.

 

예시 데이터셋

스프레드 시트 상관계수 데이터셋

 

사실 구하는 것 자체는 쉽습니다. correl 함수에 관계를 구하고 싶은 두 배열을 넣어주면 됩니다.

 

각 데이터들과 아이스크림 판매량과의 상관계수를 구해보겠습니다.

#아이스크림과 온도의 관계
=correl($B$5:$B$15,C5:C15)

#아이스크림과 담배판매량과의 관계
=correl($B$5:$B$15,D5:D15)

#아이스크림과 술판매량과의 관계
=correl($B$5:$B$15,E5:E15)

 

분석 결과

스프레드 시트 상관계수 결과

- 온도와는 강한 양의 상관관계

- 담배와는 뚜렷한 음의 상관관계

- 술과는 독립적인 관계

 

이렇게 해석할 수 있겠습니다. 내가 만약 아이스크림 판매자라면 온도와 양의 상관관계가 높기 때문에 온도에 민감하게 반응하여 물건을 준비하는 것이 도움이 될 것입니다.

 

https://docs.google.com/spreadsheets/d/1wkcI0YL-z7L05Iy574X1KVQDa0bx24wPcXL81xrIFeM/edit?usp=sharing 

 

스프레드 시트 데이터 분석

상관관계 아이스크림 + 온도,아이스크림 + 담배,아이스크림 + 술 상관계수,0.80,-0.65,-0.06 아이스크림 판매량,온도,담배판매량,술 판매량 10,-17,27,0 100,-7,18,0 150,-3,12,1 200,1,28,0 300,10,7,0 450,20,1,0 300,13,2,

docs.google.com

 

반응형