데이터 분석/데이터 전처리
R, 데이터 값을 고려하지 않는 샘플링
BLOSSOMED_IN
2021. 2. 2. 19:49
데이터를 분석할 때 추출할 데이터 수가 너무 많아 다루기 어려운 경우가 있습니다. 그럴 때는 샘플링으로 데이터 수를 줄일 수 있습니다. 샘플링에는 자의적 샘플링과 랜덤 샘플링이 있습니다. 자의적 샘플링은 스스로 샘플링할 조건을 정하는 방법입니다. 보통 샘플링이라고하면 랜덤 샐플링을 의미합니다.
R을 이용한 샘플링 방법은 다양하지만, 전처리에서는 dplyr 패키지를 활용할 때가 많습니다.
-
# reserve_tbdptj 50% 샘플링 한다.
: sample_frac(reserve_tb, 0.5)
sample_frac 함수는 행 단위로 랜덤 샘플링을 시행합니다. 첫 번째 매개변수에는 대상 data.fram을 지정하고 두 번째 매개변수에는 추출링 배율을 지정합니다. 배율이 아닌 건수로 지정하려면 sample_n 함수를 사용합니다. 이때 sample_n 함수는 두번째 매개변수에 추출할 배율이 아닌 건수를 지정합니다.
: sample_n(reserve_tb, 100)