본문 바로가기
일상생활

통계학을 배워보자 - 표본 추출

by 뉴누누 2022. 7. 7.

  • 표본추출
  • 확률 표본추출법
  • 단순 무작위 추출법
  • 체계적 추출법
  • 군집 추출법
  • 층화 추출법
  • 비확률 표본 추출법
  • 편의 추출법
  • 판탄 추출법
  • 할당 추출법
  • 눈덩이 추출법
  • 표집틀
  • 표본 크기의 결정

표본추출

  • 표본 표집
  • 표본 선정이라고 불립니다.

표본조사가 전수 조사보다 훨씬 현실적이고 합리적인 밥법이라는 것을 알고 있지만, 여전히 문제가 남아 있습니다. 도대체 어떻게 표본을 채취할 것인가가 의문으로 남게 됩니다. 전체 모집단에 대한 후속 일반화에 잠재적인 위험이 있는지도 의문입니다. 한국인의 평균 키를 알아보기 위해 성인 남녀 100명의 표본을 추출했다고 가정해봅시다. 샘플 평균값이 160cm이기 때문에 한국이 호빗의 나라로 판단될 위험이 있을 경우가 있습니다. 결국 연구자 본인으로부터 샘플이 얼마나 믿을 수 있느냐가 문제입니다. 따라서 표본조사의 핵심은 표본 추출 방법에 달려 있다고 해도 과언이 아닙니다.

 

이상적인 표본 추출은 종종 '독립성과 불편함'의 조건을 만족시키는 것으로 알려져 있습니다. 연구자 입장에서는 모집단의 구성단위를 선택할 때 특정 구성 단위를 선택할 확률이 같아야 합니다. 연구자에 대한 편파적 추출을 금지해야 한다는 얘기입니다. 덧붙여 말하자면, 구성단위의 관점에서 연구자에 의해 선택되는 경우, 각 구성단위가 연구자에 의해 선택되는 확률은 동일해야 합니다. 즉, 특정 구성 단위가 연구에서 제외되는 것을 방지해야 합니다.

 

표본추출에는 수학적으로 신뢰할 수 있는 방법인 확률 표본추출과 상대적으로 적게 신뢰할 수 있는 방법인 비확률 표본추출의 두 가지 방법이 있습니다. 물론 전자가 후자 보자 독립성과 불편함을 더 잘 보장한다. 물론 진지한 연구자는 연구의 신뢰성을 확보하기 위해 확률 표본을 최대한 활용하겠지만, 비확률 표본은 항상 시간과 예산이 세상을 지배하고, 심지어 이 방법론에 크게 신경 쓰지 않는 사람들도 현실과 타협하기 위해 자주 이용됩니다.

확률 표본추출법

확률 표본 추출은 모집단의 각 성분의 추출 확률을 계산할 수 있는 추출 방법입니다. 많은 면에서 이상적이지만, 정확한 연구 과정, 많은 돈과 시간을 필요로 합니다. 확률 표본 추출 방법은 다음과 같은 특성을 갖게 됩니다.

  1. 정확한 모집단의 크기에 대한 정보가 알려져 있습니다.
  2. 비확률 표본추출법 방법에 비해 일반화는 쉽고 편향이 없습니다.
  3. 표본 오차를 추정할 수 있습니다. (모집단에 대한 최대 허용 오차를 결정할 수 있습니다.)
  4. 표본 크기가 클수록 모집단 색깔이 진한 것으로 인식됩니다.

많은 준비가 필요하지만, 확률 표본 추출은 피할 수 없는 경우가 아니라면 많은 연구에서 채택된 방법입니다. 하지만, 모집단에 대한 정확한 정보 없이는 사용하기 어렵습니다. 확률 표본추출법에는 간단한 무선 추출, 체계적 추출법, 층화 추출법, 군집 추출법(집락 추출법) 등이 있습니다.

단순 무작위 추출법

모집단의 각 단위가 표본 집단의 구성단위로 선택될 확률을 동일시하는 추출 방법입니다. 가장 간단한 확률 추출 방법으로는 모집단 크기가 (N)이고 표본 크기가 (n)이면 n/N 확률로 표본 그룹에 대해 각 단위를 선택합니다. 독립성과 불편함을 보호하는 가장 철저한 추출 방식이기도 합니다. 객관적이고 일반화하기 쉽기 때문에 이상적이지만 시간과 비용이 많이 들게 됩니다. 또한 SRS를 준수한다고 해서 표본 오차가 반드시 '0'이라고 보장할 수 있지는 않습니다.

 

일반적으로 단순 무선 추출법은 컴퓨터에 의해 난수표를 생성함으로써 임의 추출을 합니다. 컴퓨터가 없으면 원하는 대로 추첨 방식을 사용할 수 있는데, 이벤트 때 자주 나오는 복권 추첨 같은 개념입니다. 쉽게 예상할 수 있듯이, 이 방법은 모집단이 엄청난 수의 단위를 가지고 있으면 사용하기 어려워지기 때문에 번거롭습니다.

체계적 추출법

모집단의 각 구성 요소 사이에 존재하는 순서 또는 배열을 식별하려면 무선으로 첫 번째 항을 추출한 다음 패턴의 각 항을 규칙적으로 표본을 추출합니다. 첫 번째 항을 무선 추출한다는 것은 확률 표본추출법에 속합니다. 설명하기에는 상당히 어렵지만 적용하자면 의외로 우리 생활에서 관찰하기가 쉽다. 일반적인 경우, 이 접근법은 수학적 등가 수열을 연상하게 됩니다. 예를 들어 공무원이 주거환경조사를 위해 20가구 1개 배치에 한가구만 방문할 수 있고, 백화점이 고객만족도 조사에 참여할 수 있습니다. 지금 당장 한 곳에 100명이 있는데 무작위로 10명만 뽑아야 한다면 줄을 서고 10의 배수만 뽑으면 됩니다. 리런 쉬운 규칙성 때문인지는 모르겠지만, 체계적인 추출은 전화번호부나 연감 같은 문헌 자료와 좋은 시너지를 가진 조합을 보여줍니다.

 

체계적인 추출법의 대표적인 단점은 관찰 대상물이 체계적인 추출방법에 의해 적용된 배열과 일치하는 일정한 패턴을 보이는 경우 쓰기가 어렵다는 것입니다. 예를 들어 인구 1000명의 아이큐를 조사하기 위해 10명의 배열로 잘라 100명을 추출하고, 10명 단위로 잘라 오름차순으로 아이큐를 분류할 수 있습니다. 이러한 방식으로 표본에 주기성이 존재하면 큰 규모의 표본 오차가 발생합니다. 만약 첫 번째 단락의 무선 추출의 결과로 각 배열에서 첫 번째 사람만 추출된다면, 그 그룹은 바보들을 향해 행진할 것입니다. 반대로, 각 배열에서 마지막 사람만 추출된다면, 높은 지능을 가진 사람들로 분석될 것입니다. 마찬가지로 홍대입구역의 월 이용자 수를 계산해 금요일 저녁 시간만 체계적으로 추출한다면 실제 인원보다 훨씬 많은 인원이 측정될 것입니다.

댓글