통계학 중요 용어 및 개념 간단 정리
23년 이전 글/통계

통계학 중요 용어 및 개념 간단 정리

모집단과 표본

 

모집단

정보를 얻고자 하는 관심 대상의 전체 집합

 

표본

전체 집합의 데이터를 수집하는 것이 불가능하므로 모집단 데이터 일부만 수집한 것

 

모수와 통계량

 

모수(parameters)

모집단의 특성을 수치로 나타낸 것

평균 : μ(mu)     표준편차 : σ(sigma)

 

통계량(statistics), 또는 대표값

표본의 특성을 수치로 나타낸 것

평균: x̄(x-bar)      표본표준편차 : s(sigma)

 

표본을 추출하여 표본의 통계량으로 모집단 모수를 추정하는 이유?

모집단의 모든 값에 대한 전수 조사가 실용적이지 않거나 불가능한 경우

ex) 당뇨병 환자에 대한 데이터 분석 시 세계의 모든 당뇨병 환자가 모집단이고, 이를 전수 조사 하기엔 불가능

 

변수와 관측값

 

행(row) 

각 데이터를 관측한 값

 

열(column) 또는 변수

관측 대상에 따라 데이터가 달라짐(프로그래밍 언어의 변수와 다른 의미)

 

통계학의 변수를 다른 용어로 차원이라 부름

변수가 늘어나는만큼 차원이 늘어난다고 말할 수  있음

 

양적 변수와 질적 변수

 

양적 변수

크기, 무게, 점수, 인구 수, 기온 등 수치로 나타낼 수 있는 변수

 

연속형 변수

주어진 범위 내에서 모든 연속적인 값을 취할 수 있는 변수(키, 무게, 기온 등)

 

이산형 변수

정수값만 취할 수 있는 변수(주문수량, 자녀 수 등)

 

질적 변수

성별, 거주지 등 수치로 나타낼 수 없는 변수

 

측정 수준

측정 수준에 따라 분석 방법이 다르므로 측정 수준을 정확히 알아야 함

 

명목척도(nominal scale)

관측 대상의 특성을 분류하는 척도

ex) 성별, 직업, 거주지 등의 분류가 있고, 데이터 관리 편의를 위해 '남'은 1, '여'는 2등의 숫자로 표현할 수 있지만 숫자로 사칙연산에 사용할 수 없음

 

서열척도 또는 순서척도(ordinal scale)

크고 작음 등 순서가 표현되는 척도로 정렬에 이용할 수 있지만, 사칙연산에는 이용할 수 없음

ex) 등급, 석차 등

 

등간척도 또는 구간척도

측정 대상의 순서 뿐만 아니라 순서 사이의 간격을 알 수 있고, 그 차이를 계산할 수는 있는 척도로 차이의 비율은 큰 의미가 없음

ex) 온도, IQ등, 10C, 20C의 온도 차이를 계산할 수 있지만, 그렇다고 두배로 덥거나 추운 것은 아님

 

비율척도

구간척도의 특징에 추가로 데이터 간 비율 계산도 가능한 척도로 모든 통계적 분석이 가능함

ex) 무게, 거리, 자녀 수 등

 

단순랜덤추출, 계통추출

 

단순랜덤추출(Simple Random Sampling)

모집단 전체 데이터에서 각 데이터가 표본으로 선택될 확률을 동일하게 갖도록 설계하는 표본 추출 방법

단점: 간단하지만, 추출 이전에 모든 개체를 확인하고 표시해야 하기 때문에 비용이 많이 들고 실현 가능성 적음

유형: 복원 추출, 비복원 추출

 

계통추출(Systematic Sampling)

첫 번째 요소를 무작위로 선정한 후 목록의 매번 k번째 요소를 표본으로 선정하는 표집 방법(k=표집 방법)

단점: 주기성을 띄고 있다면 매우 편향된 표본을 얻게 됨

 

층화추출, 집락추출

 

층화추출(Stratified Sampling)

모집단을 먼저 중복되지 않도록 층으로 나눈 다음 각 층에서 표본을 추출하는 방법

  • 전체 모집단 뿐만 아니라 각 층의 특성에 대한 추정도 할 수 있음
  • 각 층으로부터 표본을 추출할 때 단순임의추출 방법을 쓸 수도 있고 계통추출(systematic sampling)등 다른 추출 방법을 쓸 수 있음
  • 필요에 따라 각 층을 다시 하위층으로 나누어 추출하는 다단계 층화추출을 하기도 함

 

집락추출(Cluster Sampling)

임의로 몇 개의 집단을 골라 표본을 임의로 추출하는 방법

  • 모집단이 몇 개의 집단(cluster)으로 구성되어 있는 경우 사용할 수 있음
  • 다단계 표집 방법 : 그 표본에 대하여 다시 집단을 나누고, 그 집단 중 임의로 몇 개의 집단을 선택하는 과정을 몇 단계 거친 후, 마지막으로 선정된 각 집단에서 표본으로 추출하는 방법

 

 

 

 

 

 

반응형

'23년 이전 글 > 통계' 카테고리의 다른 글

통계학이란?  (0) 2022.06.06
가설검정  (0) 2022.06.06
정규분포와 표준화  (0) 2022.06.06
확률 이론  (0) 2022.06.05
기초 통계량, 확률  (0) 2022.06.05