본문 바로가기

분류 전체보기36

최댓갓, 최솟값, 데푯값 산출 수치 데이터를 분석할 때는 보통 평균 값을 이용합니다. 서로 다른 데이터 집합을 비교할 때 같은 열의 수치 데이터의 평균값을 비교하는 것은 분석의 기본입니다. 평균은 원리가 단순하고 이해하기 쉬워 수치 데이터의 특징을 나타내는 데 유용합니다. 하지만 데이터 분포를 파악하지 않고 평균값의 결과만을 그대로 받아들이면 결과를 잘못 인식할 수 있습니다. 01. 대푯값 데이터셋은 호텔 예약 레코드입니다. 예약 테이블에서 호텔별 예약 금액의 최댓값, 최솟값, 평균값, 중앙갑, 20백분위 값(근삿값도 가능)을 산출합니다. R에서 최댓값은 max() 함수, 최솟값은 min()함수, 평균은 mean() 함수, 중앙값은 median() 함수, 백분위는 quantile() 함수로 구현합니다. reserve_tb %>% gr.. 2021. 2. 5.
합곗값 계산 월별 매출을 알아야 하거나 점포별 매출 금액을 출력하고 싶을 때처럼 분석 대상의 값이 숫자일 경우 게이터의 합을 계산해야 할 경우가 있습니다. 합계 처리는 수치 데이터를 대상으로 하며, 가장 단순하며 유용합니다. R에서 합계 함수는 sum() 함수입니다. reserve_tb %>% group_by()에 hotel_id와 people_num의 조합을 지정한다. : group_by(hotel_id, people_num) %>% sum() 함수를 total_price에 적용하여 매출 합계를 산출한다. : summarise(price_sum = sum(total_price)) # 호텔별 예약 안원수에 따른 total_price의 합계를 산출한다. 2021. 2. 4.
수학의 쓸모 http://www.yes24.com/Product/Goods/89607340?OzSrank=1 수학의 쓸모 언제나 답은 수학이니까우리에게는 여전히 수학이 필요하다당신이 마지막으로 ‘계산’해본 적은 언제인가? 계산이라는 말만 들어도 진절머리가 나는가? 여기, 끔찍한 수포자 바이러스에 걸린 www.yes24.com 이 책은 넷플릭스의 취향을 읽는 법은 과거에 2차 대전에서 유용했던 조건부 확률을 이용해 추천 시스템을 통해 영화를 개인별로 맞춤 제공하고 있다. 우리의 미래는 확률에 달려 있다는 것이다. 데이터의 홍수 속에서 살아남기 위해 확률이라는 수학적 사고로 똑똑해지는 법을 배워나간다. 뉴스 데이터, 주식 시장, 스포츠 통계 등 일상에서 성공의 확률을 높여주는 것은 수학이다. 우리에게 여전히 수학이 필요.. 2021. 2. 4.
R, 데이터와 종류의 개수 산출 가장 기본적인 집약 처리로 데이터 카운트가 있습니다. 대상 데이터 레코드의 수(행 수)를 세는 처리입니다. 이외에도 자주 사용하는 집계 처리로 유니크 카운트가 있는데, 데이터에서 같은 값인 레코드를 제외한 레코드 수를 세는 처리입니다. 즉, 데이터 값의 종류를 카운팅 하는 것입니다. R로 집약 처리할때는 dplyr 패키지의 group_by 함수로 집약 단위를 지정하고 dplyr 패키지의 summarise 함수에서 집약 함수를 지정해 구현합니다. apply 계열의 함수를 사용하는 등 다른 방법도 있지만 계산속도와 가독성을 고려하면 dplyr 패키지를 이용하는 것이 가장 좋습니다. reserve_tb %>% group_by 함수로 집약 단위를 hotel_id로 지정한다 : group_by(hotel_id) .. 2021. 2. 3.