본문 바로가기

분류 전체보기36

숫자에 약한 사람들을 위한 통계학 수업 http://www.yes24.com/Product/Goods/91860119?OzSrank=1 숫자에 약한 사람들을 위한 통계학 수업 “통계학은 빅데이터 시대의 새로운 필수 교양이다”집값 예측부터 질병 추적, 살인 패턴 분석까지 넘치는 정보 속 세상의 모든 답은 통계에 숨어 있다!-햄, 소시지가 암 발병률을 18% 높인다고 www.yes24.com 통계학인 필수이다. 4차 산업혁명 시대의 넘치는 정보 속에서 세상의 모든 답은 통계에 있다고 주장한다. 집값 예측부터 질병을 추적하거나 하는 일련의 의사결정을 데이터를 바탕으로 한다는 것이다. 데이터에서 세상의 흐름을 읽어내는 통계적 사고를 길러줄 필수 교양 책이다. 통계학은 비전공자에게 쉽게 공부하기 힘든 과목 중 하나이다. 수학적 사고와 논리적 사고가 필.. 2021. 2. 3.
숫자는 거짓말을 한다 http://www.yes24.com/Product/Goods/93738321 숫자는 거짓말을 한다 “어떻게 읽는가에 따라 숫자는 글자만큼 주관적이다”선거 결과부터 주가 등락, 기후변화, 코로나19 현황까지복잡한 차트에서 세상을 빠르고 정확하게 읽어내는 데이터 독해력- 데이터 시각화 www.yes24.com 항상 숫자는 거짓말을 한다는 것을 유의해야 할 것이다. 우리는 많은 인터넷 매체와 언론 등을 통해 여러 가지 통계 수치와 그래프를 쉽게 접할 수 있다. 하지만 숫자를 읽는 방법을 모른다면 잘못된 정보를 인지하게 될 것이다. 의도가 있든 없든 어떻게 표현하느냐에 따라 데이터는 거짓말을 보여줄 수도 있다. 그렇기 때문에 차트를 접했을 때 차트를 읽고 해석하는 능력이 필요하다. 이 책은 숫자가 하는 거짓말.. 2021. 2. 2.
R, 집약 ID에 기반한 샘플링 샘플링은 공평한 샘플링 구현이 가장 중요합니다. 어느 한쪽으로 편향된 샘플링을 하게 되면 이후 분석에서 편향된 데이터에 기반한 경향과 잘못된 결과를 도출할 수 있습니다. 공평하게 샘플링하려면 분석 대상이 단위와 샘플링 단위를 서로 맞춰야 합니다. R을 이용해 집약 ID 단위로 샘플링하려면 먼저 집약 ID의 유니크한 값의 리스트를 뽑아내고, 뽑아낸 집약 ID리스트를 샘플링해 대상 ID을 결정한 다음에 대상 데이터를 추출하면 됩니다. 예를 들어 1행에 1회의 숙박 예약을 나타내는 레코드를 50% 샘플링한 후의 데이터에서 예약 인원 수별 예약 건수 데이터 비율을 생각해보면 샘플링 전후의 분석 결과는 크게 다르지 않습니다. 분석단위가 예약한 건이고, 샘플링 단위도 예약한 건이기 때문입니다. 이번에는 1행에 1회.. 2021. 2. 2.
R, 데이터 값을 고려하지 않는 샘플링 데이터를 분석할 때 추출할 데이터 수가 너무 많아 다루기 어려운 경우가 있습니다. 그럴 때는 샘플링으로 데이터 수를 줄일 수 있습니다. 샘플링에는 자의적 샘플링과 랜덤 샘플링이 있습니다. 자의적 샘플링은 스스로 샘플링할 조건을 정하는 방법입니다. 보통 샘플링이라고하면 랜덤 샐플링을 의미합니다. R을 이용한 샘플링 방법은 다양하지만, 전처리에서는 dplyr 패키지를 활용할 때가 많습니다. # reserve_tbdptj 50% 샘플링 한다. : sample_frac(reserve_tb, 0.5) sample_frac 함수는 행 단위로 랜덤 샘플링을 시행합니다. 첫 번째 매개변수에는 대상 data.fram을 지정하고 두 번째 매개변수에는 추출링 배율을 지정합니다. 배율이 아닌 건수로 지정하려면 sample_n.. 2021. 2. 2.