본문 바로가기

tidyverse14

R전처리 - 순위계산 전치리 과정 중에 순위를 계산해야 하는 경우가 있다. 대상 데이터를 추리거나 복잡한 시간 데이터를 결합할 때 시간 순위를 매겨서 결합의 조건으로 이용할 수도 있습니다. 순위를 매길 때는 계산 비용을 고려해야 하는데, 이때, 정렬 기능도 구현해야 하므로 데이터 수가 많으면 계산 비용이 비약적으로 늘어납니다. 하지만, 순위를 매기는 범위를 나누는 처리 등으로 계산 비용을 줄일 수 있습니다. 이처럼 그룹별로 순서를 정렬하고 순위를 매기는 계산은 Window() 함수를 이용하면 간략하고 성능 좋은 코드를 작성할 수 있습니다. Window() 함수는 집약 함수 중 하나인데, 일반적인 집약 함수와 비교하여 행을 집약하는 것이 아니라 집약한 결과를 계산하여 각 행에 첨부하는 점이 다릅니다. 순위를 구하는 함수 같은 .. 2021. 2. 11.
R전처리 - 최빈값 계산 범주값에도 최빈값이라는 형태로 대표값이 존재하는데, 최빈값은 가장 많이 나타나는 값을 말합니다. 수치 데이터도 범주형으로 변환하여 최빈값을 구할 수 있습니다. r에는 최빈값을 계산하는 함수가 없습니다. 따라서 출현 횟수를 계산한 후에 출현 횟수가 최대가 되는 범주값을 찾아야 합니다. 단순한 함수의 조합으로 구현할 수 있지만 이때는 코드가 복잡해집니다. round() 함수로 total_price를 1000 단위로 반올림한다. table() 함수로 금액별 예약 건수를 계산한다. (백터의 속성 정보(names)가 계산된 금액, 백터의 값이 예약 건수) which.max() 함수로 예약 건수가 최대인 백터 요소를 구한다. names() 함수로 예약 건수가 최대인 백터 요소의 속성 정보를(names) 구한다. :.. 2021. 2. 9.
분포 계산 분산값과 표준편찻값은 데이터의 분포 정도를 나타냅니다. 대푯값과 함께 이용하면 수치 데이터의 전체적인 경향을 더욱 잘 표현할 수 있습니다. 분산값을 이용할 때는 한 가지 주의할 점이 있습니다. 분산값과 표준편찻값의 계산식에는 '데이터수 - 1'값을 이용해 나누는 부분이 있는데, 이때 데이터의 수가 1이면 0으로 나누어 잘못 괸 값이 나옵니다. 따라서 데이터 수가 1일 때는 다르게 처리해야 합니다. 보통 데이터 수가 1일 때는 데이터의 분포가 전혀 없다는 의미이므로 분산값과 표준편찻값 모두 0으로 처리합시다. 분산값과 표준편찻값은 데이터 분포를 알 수 있는 기본적인 지표지만 데이터 분석의 기초 집계 작업에서 전혀 확인하지 않는 경우가 간혹 있습니다. 항상 분산값과 표준편찻값을 생각하는 습관을 들여야 합니다.. 2021. 2. 8.
최댓갓, 최솟값, 데푯값 산출 수치 데이터를 분석할 때는 보통 평균 값을 이용합니다. 서로 다른 데이터 집합을 비교할 때 같은 열의 수치 데이터의 평균값을 비교하는 것은 분석의 기본입니다. 평균은 원리가 단순하고 이해하기 쉬워 수치 데이터의 특징을 나타내는 데 유용합니다. 하지만 데이터 분포를 파악하지 않고 평균값의 결과만을 그대로 받아들이면 결과를 잘못 인식할 수 있습니다. 01. 대푯값 데이터셋은 호텔 예약 레코드입니다. 예약 테이블에서 호텔별 예약 금액의 최댓값, 최솟값, 평균값, 중앙갑, 20백분위 값(근삿값도 가능)을 산출합니다. R에서 최댓값은 max() 함수, 최솟값은 min()함수, 평균은 mean() 함수, 중앙값은 median() 함수, 백분위는 quantile() 함수로 구현합니다. reserve_tb %>% gr.. 2021. 2. 5.