데이터의 표현
23년 이전 글/통계

데이터의 표현

점도표 (Dot plot)

  • 자료의 가능한 값들을 나타내는 수평선을 따라서 각 관측치를 하나의 점으로 표현
  • 완전히 같거나 아주 비슷한 값들을 "누적"되는 형태로 표현
  • 분포의 모양, 최대값, 최소값을 한 눈에 볼 수 있음
  • 점도표 예제

예) 지난 달 두 판매사에서 서비스 받은 차량의 수 비교

 

줄기-잎 도표(Stem-leaf display)

도수분포와 히스토그램의 단점

  • 자료에 포함된 각 값들의 정확한 값을 알 수 없음
  • 각 구간 내에 값들이 어떻게 분포하는지 알 수 없음

줄기-잎 도표의 장점

  • 각 관측치의 실제값이 유지됨
  • 각 자리수의 값들이 도표에 표시됨

각 관측값은 2개의 부분으로 나누어짐

  • 앞자리 수 -> 줄기, 뒤에 오는 수-> 잎
  • 줄기들은 수직 축에 표현되고 잎들은 수평 축에 다른 값들과 서로 쌓이는 형태로 표현

앞자리수가 줄기, 뒷자리수가 잎

 

분위수

  • 산포, 분포의 형태를 측정하는 방법 중 하나
  • 관측치들을 여러 부분으로 나누는 값들의 위치를 정함
  • 사분위수, 십분위수, 백분위수 등

특정 백분위수 위치

  • 사분위수는 관측치들의 집합을 같은 크기를 가지는 네 개의 하위 집합으로 나눔

  • 십분위수는 관측치들의 집합을 같은 크기를 가지는 10개의 하위 집합으로 나눔
  • 백분위수는 관측치들의 집합을 같은 크기를 가지는 100개의 하위 집합으로 나눔

 

분위수 예제

모건 스탠리는 미국 전역에 사무실을 가지고 있는 투자회사이다. 아래 표는 캘리포니아주 오클랜드에 위치한 사무실의 중개업무 중 15개 표본이 지난달에 벌어들인 수수료를 보여준다.

중위수, 1사분위수, 그리고 3사분위수를 찾아라

15개 표본
자료의 오름차순 정렬

  • 중위수는 $2,038이고 8번째 위치
  • 1사분위수와 3사분위수는 각각 4번째($1,721)와 12번째($2,205)에 위치

 

상자도표(Box plot)

  • 사분위수들을 활용

5개의 통계량 표시

  • 최소값
  • 1사분위수
  • 중위수
  • 3사분위수
  • 최대값

상자도표 예제

  • 알렉산더 피자는 15마일 이내 지역에 무료 배달 서비스를 제공한다. 배달에 소요되는 시간이 어느 정도이고 대부분의 배달이 어느 정도 시간에 완료되는가? 배달 시간에 대한 상자도표를 작성하라.
  • 20개의 표본을 가지고 알렉산더는 다음을 계산
  • 최소값 = 13분, Q1 = 15분, 중위수 = 18분, Q3 = 22분, 최대값 = 30분

두 변수 사이의 관계

산점도(Scatter plot)

  • 두 개 변수 사이의 관계를 보여주는 도표
  • 두 변수 모두 등간 척도이거나 비율 척도로 측정되어야 함
  • 점들이 왼쪽 하단으로부터 오른쪽 상단으로 퍼져 있으면 그 변수들은 양의 관계를 가짐
  • 점들이 왼쪽 상단으로부터 오른쪽 하단으로 퍼져 있으면 그 변수들은 음의 관계를 가짐

  • 두 양적 변수 사이의 관계 확인에 효과적
  • -x 수평축, 독립변수 
  • -y 수직축, 종속변수

 

 

반응형

'23년 이전 글 > 통계' 카테고리의 다른 글

데이터의 위치  (0) 2022.06.13
기술통계학  (0) 2022.06.07
통계 변수  (0) 2022.06.06
통계학이란?  (0) 2022.06.06
가설검정  (0) 2022.06.06