기술통계학
23년 이전 글/통계

기술통계학

데이터를 표현하는 통계적 방법

 

위치(location) 척도

  • 데이터의 대표값: 산술평균, 가중평균, 중앙값, 최빈값 등

산포(dispersion) 척도

  • 데이터가 퍼져있는 정도
  • 범위, 평균절대편차, 분산, 표준편차, 변동계수

비대칭도(Skewness)

  • 자료집단이 대표치를 중심으로 좌/우 어느쪽으로 치우쳐 있는지, 치우쳤다면 얼마나 치우쳐 있는지 보여줌
  • 피어슨 비대칭계수 (Pearson`s CS)

첨도(Kurtosis)

  • 분포의 뾰족한 정도 측정
  • 첨도계수(Coefficient of kurtosis, CK)

 

위치척도

데이터 집합의 중심 경향을 기술하는데 사용되는 값

위치척도 종류

  • 평균
  • 중위수
  • 최빈값

산술 평균은 가장 널리 사용되는 위치척도

산술평균_모평균

μ는 모평균을 의미하며 그리스어 소문자 "뮤"를 활용하여 표현함

N은 모집단 내의 값의 개수

x는 어떤 특정한 값

Σ는 그리스어 대문자 "시그마"이며 더하기 연산을 의미

Σx는 모집단 x값의 총합을 의미함

모집단의 측정 가능한 특성은 모수(parameter)라 하며, 모평균은 모수의 대표적인 예시임

 

산술평균_표본평균

x̄는 표본평균을 의미하며 "엑스바"로 읽음

n은 표본의 개수

x는 어떤 특정한 값

측정 가능한 표본의 특성을 표본통계량(Sample statistics)라 하며 표본평균은 표본 통계량의 대표적인 예시임

 

산술평균의 특성

  • 등간척도 또는 비율척도가 요구됨
  • 평균 계산에 모든 데이터 값들이 포함되어야 함
  • 평균은 유일한 값
  • 평균으로부터 각 값들까지의 편차의 합은 0

 

중위수(median)

최소에서 최대의 순서로 정렬된 값들의 중간점

중위수 위, 아래 각각 50%의 데이터가 존재하며 전체 데이터 수가 짝수일 경우 중앙 두 값의 산술평균이 중위수

중위수의 특성

  • 적어도 순서척도가 요구됨
  • 중위수보다 큰 관측치는 전체의 50%, 작은 관측치도 전체의 50%
  • 중위수는 데이터 집합 안에 단 하나만 존재
주문가격(오름차순)   주문가격(내림차순)
60000   275000
65000   80000
70000 중위수 70000
80000   65000
275000   60000

예)

10명의 표본으로 이루어진 성인의 지난 달 페이스북 사용 시간

3, 5, 7, 5, 9, 1, 3, 9, 17, 10 (정렬전)

1, 3, 3, 5, 5, 7, 9, 9, 10, 17 (정렬후)

(5+7) / 2 중위수는 6

 

최빈값

가장 빈번하게 출현하는 관측치 값

최빈값의 특성

  • 명목척도 데이터에서도 사용될 수 있음
  • 극도로 작거나 큰 값에 영향 받지 않음
  • 평균, 중앙값과 달리 값이 여러개일 수 있음 -> 이봉분포(Bimodal distribution) : 최빈값이 2개일 경우
  • 데이터에 따라 존재하지 않을 수도 있음

 

평균, 중위수, 최빈값의 상대적 위치

평균, 중위수, 최빈값 및 왜도

  • 분포의 양, 음은 꼬리의 방향에 의해 좌우됨
  • 최빈값은 항상 분포의 봉우리에 나타남
  • 기울어진 분포의 경우 평균은 분포의 꼬리 방향에 나타남
  • 중위수는 언제나 최빈값과 평균의 사이에 나타남

 

 

반응형

'23년 이전 글 > 통계' 카테고리의 다른 글

데이터의 표현  (0) 2022.06.13
데이터의 위치  (0) 2022.06.13
통계 변수  (0) 2022.06.06
통계학이란?  (0) 2022.06.06
가설검정  (0) 2022.06.06