모집단과 표본
모집단
정보를 얻고자 하는 관심 대상의 전체 집합
표본
전체 집합의 데이터를 수집하는 것이 불가능하므로 모집단 데이터 일부만 수집한 것
모수와 통계량
모수(parameters)
모집단의 특성을 수치로 나타낸 것
평균 : μ(mu) 표준편차 : σ(sigma)
통계량(statistics), 또는 대표값
표본의 특성을 수치로 나타낸 것
평균: x̄(x-bar) 표본표준편차 : s(sigma)
표본을 추출하여 표본의 통계량으로 모집단 모수를 추정하는 이유?
모집단의 모든 값에 대한 전수 조사가 실용적이지 않거나 불가능한 경우
ex) 당뇨병 환자에 대한 데이터 분석 시 세계의 모든 당뇨병 환자가 모집단이고, 이를 전수 조사 하기엔 불가능
변수와 관측값
행(row)
각 데이터를 관측한 값
열(column) 또는 변수
관측 대상에 따라 데이터가 달라짐(프로그래밍 언어의 변수와 다른 의미)
통계학의 변수를 다른 용어로 차원이라 부름
변수가 늘어나는만큼 차원이 늘어난다고 말할 수 있음
양적 변수와 질적 변수
양적 변수
크기, 무게, 점수, 인구 수, 기온 등 수치로 나타낼 수 있는 변수
연속형 변수
주어진 범위 내에서 모든 연속적인 값을 취할 수 있는 변수(키, 무게, 기온 등)
이산형 변수
정수값만 취할 수 있는 변수(주문수량, 자녀 수 등)
질적 변수
성별, 거주지 등 수치로 나타낼 수 없는 변수
측정 수준
측정 수준에 따라 분석 방법이 다르므로 측정 수준을 정확히 알아야 함
명목척도(nominal scale)
관측 대상의 특성을 분류하는 척도
ex) 성별, 직업, 거주지 등의 분류가 있고, 데이터 관리 편의를 위해 '남'은 1, '여'는 2등의 숫자로 표현할 수 있지만 숫자로 사칙연산에 사용할 수 없음
서열척도 또는 순서척도(ordinal scale)
크고 작음 등 순서가 표현되는 척도로 정렬에 이용할 수 있지만, 사칙연산에는 이용할 수 없음
ex) 등급, 석차 등
등간척도 또는 구간척도
측정 대상의 순서 뿐만 아니라 순서 사이의 간격을 알 수 있고, 그 차이를 계산할 수는 있는 척도로 차이의 비율은 큰 의미가 없음
ex) 온도, IQ등, 10C, 20C의 온도 차이를 계산할 수 있지만, 그렇다고 두배로 덥거나 추운 것은 아님
비율척도
구간척도의 특징에 추가로 데이터 간 비율 계산도 가능한 척도로 모든 통계적 분석이 가능함
ex) 무게, 거리, 자녀 수 등
단순랜덤추출, 계통추출
단순랜덤추출(Simple Random Sampling)
모집단 전체 데이터에서 각 데이터가 표본으로 선택될 확률을 동일하게 갖도록 설계하는 표본 추출 방법
단점: 간단하지만, 추출 이전에 모든 개체를 확인하고 표시해야 하기 때문에 비용이 많이 들고 실현 가능성 적음
유형: 복원 추출, 비복원 추출
계통추출(Systematic Sampling)
첫 번째 요소를 무작위로 선정한 후 목록의 매번 k번째 요소를 표본으로 선정하는 표집 방법(k=표집 방법)
단점: 주기성을 띄고 있다면 매우 편향된 표본을 얻게 됨
층화추출, 집락추출
층화추출(Stratified Sampling)
모집단을 먼저 중복되지 않도록 층으로 나눈 다음 각 층에서 표본을 추출하는 방법
- 전체 모집단 뿐만 아니라 각 층의 특성에 대한 추정도 할 수 있음
- 각 층으로부터 표본을 추출할 때 단순임의추출 방법을 쓸 수도 있고 계통추출(systematic sampling)등 다른 추출 방법을 쓸 수 있음
- 필요에 따라 각 층을 다시 하위층으로 나누어 추출하는 다단계 층화추출을 하기도 함
집락추출(Cluster Sampling)
임의로 몇 개의 집단을 골라 표본을 임의로 추출하는 방법
- 모집단이 몇 개의 집단(cluster)으로 구성되어 있는 경우 사용할 수 있음
- 다단계 표집 방법 : 그 표본에 대하여 다시 집단을 나누고, 그 집단 중 임의로 몇 개의 집단을 선택하는 과정을 몇 단계 거친 후, 마지막으로 선정된 각 집단에서 표본으로 추출하는 방법
'23년 이전 글 > 통계' 카테고리의 다른 글
통계학이란? (0) | 2022.06.06 |
---|---|
가설검정 (0) | 2022.06.06 |
정규분포와 표준화 (0) | 2022.06.06 |
확률 이론 (0) | 2022.06.05 |
기초 통계량, 확률 (0) | 2022.06.05 |