데이터분석
-
구글 스프레드 시트 21 - 주소에서 지번을 분리 해보자데이터분석/스프레드시트 2021. 3. 20. 21:56
안녕하세요. 오늘은 주소를 지번과 동으로 나눠보도록 하겠습니다. 이런 주소가 있다고 생각해봅시다. 시군구, 읍, 동... 다양한 경우의 수가 있어서 지번을 분리하기가 쉬워보이지 않아보입니다. 하지만 공통점이 있습니다. 위 주소에서 지번이 시작하는 지점은 모두 숫자라는 점입니다. 서울시 송파구 잠실동, 대구광역시 달성군 다사읍 매곡리 이런 텍스트를 보면 공백수나 텍스트 수나 규칙이 없기 때문에 첫 숫자의 위치값을 찾는 방법이 현실적일 것입니다. 1. 0~9까지 모두 index를 구해봅시다. - 주소에서 숫자의 최초 위치값을 찾아야하기 때문에 일단 각 숫자별로 위치 값들을 찾아주는게 먼저입니다. =if(isnumber(FIND(0,$A2)),FIND(0,$A2),99) - FIND(0,$A2) = a2에 숫..
-
구글 스프레드 시트 20 - 데이터 순위 계산(rank, percentrank)데이터분석/스프레드시트 2021. 3. 20. 19:25
안녕하세요! 오늘은 데이터 순위를 계산하는 방법에 대해서 배워보겠습니다. 어떤 점수가 있다고 했을 때 등수를 정하는 것은 일반적인 일인데요. 스프레드 시트에서는 rank함수와 percentrank 함수를 이용해서 순위를 정하는 것이 가능합니다. 이런 점수 데이터 셋이 있다고 가정해봅시다. 해당 점수에 순위를 정해 보도록 하겠습니다. 1. Rank rank(데이터, 범위, 순위방식) - 데이터: 타겟 되는 데이터 - 범위: 타겟 되는 데이터가 속한 범위(해당 범위 안에서 타겟 데이터가 몇위인지 찾기 위함) - 순위방식: 1(오름차순 -> 작은값이 높은 순위) , 0(내림차순 -> 높은값이 높은 순위) 오름 차순 예시 내림 차순 예시 2. Percentrank percentrank는 기본적으로 내림차순으로 ..
-
구글 스프레드 시트 19 - 반올림, 반내림 함수(ROUND, ROUNDUP, ROUNDDOWN, MROUND, INT, FLOOR, CEILING)데이터분석/스프레드시트 2021. 3. 20. 19:01
오늘은 반올림, 반내림 함수에 대해서 알아보도록 하겠습니다. 1. 반올림, 반내림 함수 목록 함수명 기능 ROUND 표준 규칙에 따라 숫자를 특정 소수점 이하 자릿수로 반올림 TRUNC 특정 개수의 자릿수만 남기고 나머지 자리를 잘라 버립니다. ROUNDUP 숫자를 특정 소수점 이하 자릿수로 올립니다. ROUNDDOWN 숫자를 특정 소수점 이하 자릿수로 버립니다. MROUND 한 숫자를 다른 숫자의 가장 가까운 정수배로 반올림합니다. INT 해당 숫자보다 작거나 같은 가장 가까운 정수로 숫자를 버립니다. FLOOR 숫자를 지정된 significance의 가장 가까운 정수배로 버립니다. CEILING 숫자를 지정된 significance의 가장 가까운 정수배로 올립니다. 2. 소숫점이 0.5보다 큰 경우 ..
-
구글 스프레드 시트 18 - 영역 차트(Area chart)데이터분석/스프레드시트 2021. 3. 20. 16:32
안녕하세요! 오늘은 스프레드 시트의 영역차트에 대해서 알아보도록 하겠습니다. 영역차트란? 영역차트는 선차트와 비슷한 추세를 나타내는 차트이지만 선 아래에 음영이 있어서 추세의 크기도 같이 표현할 수 있는 차트 입니다. 예를 들어보겠습니다. A자동차 회사의 1~6월 매출과 비용에 추세에 대해서 그려보도록 하겠습니다. 이런 데이터셋이 있다고 가정해 봅시다. 매출과 비용을 선차트로 그려도 추세를 알 수 있지만 사실 비용대비 매출이 얼마나 차이가 있는지 알기 위함 입니다. 1. 영역차트 이런식으로 선 아래 음영처리를 통해서 면적을 시각화 함으로써 차이가 얼마나 발생했는지 알기 좋게 표현해 줍니다. 2. 누적 영역차트 비용과 매출을 합산하여 표시하되 각각 항목별로 얼마나 면적을 차지하는지 알려줍니다. 3. 퍼센트..
-
구글 스프레드 시트 17 - 선 차트(line chart)데이터분석/스프레드시트 2021. 1. 15. 00:33
안녕하세요 오늘은 스프레드 시트에서 선 차트(line chart)를 사용하는 법, 사용하는 사례에 대해서 알아보도록 하겠습니다. 1. 선차트(line chart)란 무엇인가? - 데이터를 선으로 표현해서 데이터를 시각화하는 것을 선 차트라고 합니다. 2. 어떨때 활용하면 좋을까요? - 시간에 따른 데이터의 변화를 보고 싶을 때 주로 사용하면 좋습니다. ex) 주식차트, 날짜별 매출변화 ... 이런 데이터가 있다고 가정해봅시다. 날짜별로 자동차 A사와 B사의 매출의 변화를 그래프로 그려보겠습니다. 3. 차트 넣는 법 - 데이터를 드래그 한 뒤 차트 넣기 버튼을 눌러주면 됩니다. 4. 그래프 결과 그래프 결과는 이렇게 나오게 됩니다. 시간에 따라 자동차 B사와 A사의 매출이 벌어지는 것을 한눈에 알 수 있죠..
-
구글 스프레드 시트 16 - 다양한 전화번호 양식 통일시키기(SUBSTITUTE, IF, CONCATENATE, TEXTJOIN)데이터분석/스프레드시트 2021. 1. 11. 13:53
안녕하세요! 오늘은 다양한 양식으로 되어있는 전화번호를 한 양식으로 통일하는 방법에 대해서 알아보겠습니다. 이런 양식이 있다고 가정해봅시다. 정말(?) 다양한 양식으로 전화번호가 입력되어있는데요. 이것은 일반적인 형태인 010-1234-1234로 변경시키는 방법은 어떤게 있을까요? 일일이 손으로 하는 방법도 있지만 이 전화번호가 1000개 10000개가 된다면 손으로 하는 방법은 불가능에 가까울 것입니다. 그럼 어떻게 통일 시킬 수 있을까요? 1. 필요없는 문자는 제거하여 숫자로 된 문자만 남기자 위의 예시에서는 " ","-",".",")"과 같은 문자가 들어가 있고 이들이 불규칙적으로 들어가 있기 때문에 일단 제거하는 작업이 필요합니다. 문자열 내에서 이런 불필요한 문자를 제거하는 함수는 바로 SUBS..
-
R 프로그래밍 6 - R에 CSV파일 불러오기데이터분석/R 2021. 1. 10. 16:01
오늘은 R에서 CSV 파일을 데이터 프레임으로 가져오는 법에 대해서 알아보도록 하겠습니다. 그런데 CSV 파일이 무엇일까요? Comma: 컴마로(,) Separated: 분리된 Values: 값 입니다. 메모장에 예시로 보면 이것을 스프레드 시트로 열어보면 각 셀로 펼쳐져 있습니다. 스프레드시트나 엑셀은 이 파일을 Comma(,)로 자동으로 분리해 각 셀로 가지고 있는 것 입니다. R에서는 CSV파일을 read_csv 함수를 통해서 가져오게 되는데요. (다른 라이브러리에도 CSV파일을 가져오는 함수가 있으나 일단 오늘은 기본내장함수부터 써보도록 하겠습니다.) x 옵션을 선택안했을시 기본 True로 인식 fileEncoding: 한글파일을 인코딩할때 활용하는 옵션 -> CP949, UTF-8 주로활용 st..
-
구글 스프레드 시트 16 - 스프레드 시트 단축키 모음데이터분석/스프레드시트 2021. 1. 9. 02:50
안녕하세요. 오늘은 스프레드 시트의 키보드 단축키에 대해서 알아보겠습니다. 해당 단축키는 support.google.com/docs/answer/181110?co=GENIE.Platform%3DDesktop&hl=ko#zippy=%2Cpc-%EB%8B%A8%EC%B6%95%ED%82%A4 Google 스프레드시트용 단축키 - 컴퓨터 - 문서 편집기 고객센터 Google 스프레드시트의 단축키를 사용하여 이동하고, 서식을 지정하고, 수식을 사용할 수 있습니다. 참고: 일부 단축키는 일부 언어 또는 키보드에서 작동하지 않을 수 있습니다. Google 스프레드시 support.google.com 위에 페이지를 참고했습니다. 자주 쓰는 종류의 단축키만 모아봤습니다. 기능 단축키 열 선택 Ctrl + space b..