본문 바로가기

분류 전체보기36

R전처리 - 순위계산 전치리 과정 중에 순위를 계산해야 하는 경우가 있다. 대상 데이터를 추리거나 복잡한 시간 데이터를 결합할 때 시간 순위를 매겨서 결합의 조건으로 이용할 수도 있습니다. 순위를 매길 때는 계산 비용을 고려해야 하는데, 이때, 정렬 기능도 구현해야 하므로 데이터 수가 많으면 계산 비용이 비약적으로 늘어납니다. 하지만, 순위를 매기는 범위를 나누는 처리 등으로 계산 비용을 줄일 수 있습니다. 이처럼 그룹별로 순서를 정렬하고 순위를 매기는 계산은 Window() 함수를 이용하면 간략하고 성능 좋은 코드를 작성할 수 있습니다. Window() 함수는 집약 함수 중 하나인데, 일반적인 집약 함수와 비교하여 행을 집약하는 것이 아니라 집약한 결과를 계산하여 각 행에 첨부하는 점이 다릅니다. 순위를 구하는 함수 같은 .. 2021. 2. 11.

R전처리 - 최빈값 계산 범주값에도 최빈값이라는 형태로 대표값이 존재하는데, 최빈값은 가장 많이 나타나는 값을 말합니다. 수치 데이터도 범주형으로 변환하여 최빈값을 구할 수 있습니다. r에는 최빈값을 계산하는 함수가 없습니다. 따라서 출현 횟수를 계산한 후에 출현 횟수가 최대가 되는 범주값을 찾아야 합니다. 단순한 함수의 조합으로 구현할 수 있지만 이때는 코드가 복잡해집니다. round() 함수로 total_price를 1000 단위로 반올림한다. table() 함수로 금액별 예약 건수를 계산한다. (백터의 속성 정보(names)가 계산된 금액, 백터의 값이 예약 건수) which.max() 함수로 예약 건수가 최대인 백터 요소를 구한다. names() 함수로 예약 건수가 최대인 백터 요소의 속성 정보를(names) 구한다. :.. 2021. 2. 9.

분포 계산 분산값과 표준편찻값은 데이터의 분포 정도를 나타냅니다. 대푯값과 함께 이용하면 수치 데이터의 전체적인 경향을 더욱 잘 표현할 수 있습니다. 분산값을 이용할 때는 한 가지 주의할 점이 있습니다. 분산값과 표준편찻값의 계산식에는 '데이터수 - 1'값을 이용해 나누는 부분이 있는데, 이때 데이터의 수가 1이면 0으로 나누어 잘못 괸 값이 나옵니다. 따라서 데이터 수가 1일 때는 다르게 처리해야 합니다. 보통 데이터 수가 1일 때는 데이터의 분포가 전혀 없다는 의미이므로 분산값과 표준편찻값 모두 0으로 처리합시다. 분산값과 표준편찻값은 데이터 분포를 알 수 있는 기본적인 지표지만 데이터 분석의 기초 집계 작업에서 전혀 확인하지 않는 경우가 간혹 있습니다. 항상 분산값과 표준편찻값을 생각하는 습관을 들여야 합니다.. 2021. 2. 8.

팩트풀니스 http://www.yes24.com/Product/Goods/69724044 팩트풀니스 빌 게이츠가 미국 모든 대학 졸업생에게 직접 선물한 화제의 책강력한 사실을 바탕으로 세상을 정확하게 바라보는 방법을 담은 혁명적 저작전 세계적으로 확증편향이 기승을 부리는 탈진실의 www.yes24.com 빌 게이츠가 사회로 진출하는 청춘에게 이 책을 선물한 이유는, ‘세상은 나아지고 있다’는 긍정의 시각을 심어주는 동시에 자기 신념이 사실과 부합하는지 돌아보라는 충고이기도 할 것이다. 우물 안에 계속 갇혀 살기보다 올바르게 사는 데 관심이 있다면, 세계관을 흔쾌히 바꿀 마음이 있다면, 본능적 반응 대신 비판적 사고를 할 준비가 되었다면, 이 책을 반드시 읽어보기 바란다. 한국 사회가 나아갈 방향에도 중요한 이정표가.. 2021. 2. 5.

이전 1 2 3 4 5 ··· 9 다음

티스토리툴바