반응형
sql url 데이터 추출
-
AWS Athena(presto sql) - url 데이터 가져오기(url_decode, url_extract_host, url_extract_parameter, url_extract_path, url_extract_protocol, url_extract_query)데이터분석/SQL 2022. 7. 25. 21:58
아테나에서 url 데이터를 가져오는 법에 대해서 배워보도록 합시다. 기본적인 url 구조는 아래처럼 되어 있습니다. 여기서 데이터를 하나씩 가져오도록 하겠습니다. [protocol:][//host[:port]][path][?query][#fragment] 얘 시를 봅시다. 이건 네이버에서 디아블로를 검색한 url입니다. https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%EB%94%94%EC%95%84%EB%B8%94%EB%A1%9C url을 쪼개면 이렇게 볼 수 있다. -- host : search.naver.com -- path : /search.naver -- query : ?where=nexearc..