수치 데이터를 분석할 때는 보통 평균 값을 이용합니다. 서로 다른 데이터 집합을 비교할 때 같은 열의 수치 데이터의 평균값을 비교하는 것은 분석의 기본입니다. 평균은 원리가 단순하고 이해하기 쉬워 수치 데이터의 특징을 나타내는 데 유용합니다. 하지만 데이터 분포를 파악하지 않고 평균값의 결과만을 그대로 받아들이면 결과를 잘못 인식할 수 있습니다.
01. 대푯값
데이터셋은 호텔 예약 레코드입니다. 예약 테이블에서 호텔별 예약 금액의 최댓값, 최솟값, 평균값, 중앙갑, 20백분위 값(근삿값도 가능)을 산출합니다.
R에서 최댓값은 max() 함수, 최솟값은 min()함수, 평균은 mean() 함수, 중앙값은 median() 함수, 백분위는 quantile() 함수로 구현합니다.
reserve_tb %>%
group_by(hotel_id) %>%
- quantile() 함수에 total_price와 대상 값을 지정하여 20% 백분위 값을 산출한다.
: summarise(price_max = max(total_price),
price_min = min(total_price),
price_avg = mean(total_price),
price_med = median(total_price),
price_20per = quantile(total_price, 0.2))
quantile() 함수는 보통 25% 단위로 값을 반환하지만 두 번째 매개변수에 값을 지정하여 원하는 백분위를 얻을 수 있습니다. reserve_tb %>% summary()와 같이 summary() 함수를 호출하면 평균값, 분산 값, 4 분위(25%의 백분위 값) 등 대푯값을 자동으로 계산하여 출력합니다. 데이터의 전체적인 경향을 파악하는데 유용합니다.
'데이터 분석 > 데이터 전처리' 카테고리의 다른 글
R전처리 - 최빈값 계산 (0) | 2021.02.09 |
---|---|
분포 계산 (0) | 2021.02.08 |
합곗값 계산 (0) | 2021.02.04 |
R, 데이터와 종류의 개수 산출 (0) | 2021.02.03 |
R, 집약 ID에 기반한 샘플링 (0) | 2021.02.02 |
댓글