본문 바로가기

전처리15

R전처리 - 순위계산 전치리 과정 중에 순위를 계산해야 하는 경우가 있다. 대상 데이터를 추리거나 복잡한 시간 데이터를 결합할 때 시간 순위를 매겨서 결합의 조건으로 이용할 수도 있습니다. 순위를 매길 때는 계산 비용을 고려해야 하는데, 이때, 정렬 기능도 구현해야 하므로 데이터 수가 많으면 계산 비용이 비약적으로 늘어납니다. 하지만, 순위를 매기는 범위를 나누는 처리 등으로 계산 비용을 줄일 수 있습니다. 이처럼 그룹별로 순서를 정렬하고 순위를 매기는 계산은 Window() 함수를 이용하면 간략하고 성능 좋은 코드를 작성할 수 있습니다. Window() 함수는 집약 함수 중 하나인데, 일반적인 집약 함수와 비교하여 행을 집약하는 것이 아니라 집약한 결과를 계산하여 각 행에 첨부하는 점이 다릅니다. 순위를 구하는 함수 같은 .. 2021. 2. 11.

R전처리 - 최빈값 계산 범주값에도 최빈값이라는 형태로 대표값이 존재하는데, 최빈값은 가장 많이 나타나는 값을 말합니다. 수치 데이터도 범주형으로 변환하여 최빈값을 구할 수 있습니다. r에는 최빈값을 계산하는 함수가 없습니다. 따라서 출현 횟수를 계산한 후에 출현 횟수가 최대가 되는 범주값을 찾아야 합니다. 단순한 함수의 조합으로 구현할 수 있지만 이때는 코드가 복잡해집니다. round() 함수로 total_price를 1000 단위로 반올림한다. table() 함수로 금액별 예약 건수를 계산한다. (백터의 속성 정보(names)가 계산된 금액, 백터의 값이 예약 건수) which.max() 함수로 예약 건수가 최대인 백터 요소를 구한다. names() 함수로 예약 건수가 최대인 백터 요소의 속성 정보를(names) 구한다. :.. 2021. 2. 9.

분포 계산 분산값과 표준편찻값은 데이터의 분포 정도를 나타냅니다. 대푯값과 함께 이용하면 수치 데이터의 전체적인 경향을 더욱 잘 표현할 수 있습니다. 분산값을 이용할 때는 한 가지 주의할 점이 있습니다. 분산값과 표준편찻값의 계산식에는 '데이터수 - 1'값을 이용해 나누는 부분이 있는데, 이때 데이터의 수가 1이면 0으로 나누어 잘못 괸 값이 나옵니다. 따라서 데이터 수가 1일 때는 다르게 처리해야 합니다. 보통 데이터 수가 1일 때는 데이터의 분포가 전혀 없다는 의미이므로 분산값과 표준편찻값 모두 0으로 처리합시다. 분산값과 표준편찻값은 데이터 분포를 알 수 있는 기본적인 지표지만 데이터 분석의 기초 집계 작업에서 전혀 확인하지 않는 경우가 간혹 있습니다. 항상 분산값과 표준편찻값을 생각하는 습관을 들여야 합니다.. 2021. 2. 8.

합곗값 계산 월별 매출을 알아야 하거나 점포별 매출 금액을 출력하고 싶을 때처럼 분석 대상의 값이 숫자일 경우 게이터의 합을 계산해야 할 경우가 있습니다. 합계 처리는 수치 데이터를 대상으로 하며, 가장 단순하며 유용합니다. R에서 합계 함수는 sum() 함수입니다. reserve_tb %>% group_by()에 hotel_id와 people_num의 조합을 지정한다. : group_by(hotel_id, people_num) %>% sum() 함수를 total_price에 적용하여 매출 합계를 산출한다. : summarise(price_sum = sum(total_price)) # 호텔별 예약 안원수에 따른 total_price의 합계를 산출한다. 2021. 2. 4.

이전 1 2 3 4 다음

티스토리툴바