데이터
50,60,40,30,70(점)
6개의 값 전체를 데이터라고 하며 조사항목이 변량(variate)
질적 데이터
카테고리컬 데이터라고도 불리며 혈액형,선호음식,지지정당처럼 헤아릴 수 없는 변량(질적)으로 이루어진것
예> 각 항목에 숫자를 붙였을때 이 숫자를 더하거나 빼는일이 무의미하다.
- A형
- B형
- O형
- AB형
양적데이터
숫자를 더하거나 빼는 것에 의미가 있는 변량(양적변량)
이산형데이터
이웃하는 두가지값 예를 들어 주사위 1과 ,주사위 2처럼 중간값이없고
듬성듬성한 값만 얻을 수 있는것
연속성데이터
키의 경우 170과 171사이에 170.2와같은 아무리 세분화를 시켜도
데이터가 모이는 경우
도수분포표
데이터 정리 순서
- 도수분포표 정리
- 히스토그램화
용어:
- 계급 : 데이터를 몇 개의 동등한 폭으로 나눈 구간
- 계급값 : 각 계급의 중간값
- 도수 : 각각의 계급에 들어가는 데이터수
- 상대도수 : 도수의 합계에 대한 각 계급 도수의 비율
- 누적상대도수 : 그 계급 이하의 상대도수의 합계
데이터정리예
Step1:정리되지 않는 데이터
수학학원에서 학생 40명에게 쪽지 시험(100점)을 실시하고 정리하였다.
쪽지시험결과 | |||||||
51 | 60 | 80 | 39 | 70 | 55 | 51 | 96 |
92 | 82 | 54 | 44 | 94 | 77 | 43 | 13 |
34 | 44 | 81 | 28 | 88 | 33 | 97 | 65 |
88 | 93 | 88 | 48 | 30 | 28 | 92 | 57 |
52 | 21 | 59 | 78 | 65 | 80 | 37 | 68 |
하지만 데이터 전체의 경향이나 특징을 알수가 없다.
Step2:데이터 정렬
그래서 도수분포표로 정리하기로 하였으며 우선 정렬을 하였다.
쪽지시험정렬 | |||||||
13 | 21 | 28 | 28 | 30 | 33 | 34 | 37 |
39 | 43 | 44 | 44 | 48 | 51 | 51 | 52 |
54 | 55 | 57 | 59 | 60 | 65 | 65 | 68 |
70 | 77 | 78 | 80 | 80 | 81 | 82 | 88 |
88 | 88 | 92 | 92 | 93 | 94 | 96 | 97 |
Step3:계급폭 정하기 (JIS규격)
최대값 | 97 | |
최소값 | 13 | |
R(최대-최소) | 84 | |
계급수가 5~20의 범위에 있게한다 | ||
범위-R | 계급폭 | 폭(범위/폭) |
84 | 1 | 84 |
84 | 2 | 42 |
84 | 5 | 16.8 |
84 | 10 | 8.4 |
84 | 20 | 4.2 |
84 | 50 | 1.68 |
지금 샘플의 크기는 40명이므로 99이하에서 계급의 폭이 큰쪽
10을 선택하는것이 JIS(5~20이 되도록한다.)규격에 적합하다.
Step4: 쪽지시험 결과(도수 분포표)
계급(점) | 계급값(점) | 도수명 | 상대도수 | 누적상대도수 |
10~20 | 15 | 1 | 0.025 | 0.025 |
20~30 | 25 | 3 | 0.075 | 0.1 |
30~40 | 35 | 5 | 0.125 | 0.225 |
40~50 | 45 | 4 | 0.1 | 0.325 |
50~60 | 55 | 7 | 0.175 | 0.5 |
60~70 | 65 | 4 | 0.1 | 0.6 |
70~80 | 75 | 3 | 0.075 | 0.675 |
80~90 | 85 | 7 | 0.175 | 0.85 |
90~100 | 95 | 6 | 0.15 | 1 |
합계 | 40 | 1 |
- 계급값 : 40~50 사이의 계급값을 모두 45로 생각하고 그 계급을 대표한다.
- 상대도수: 도수의 함계에 대한 각 계급의 도수 비율 , 상대도수 = 주목하고는 계급도수 / 도수 합계
- 누적도수 : 주목하는 계급이하가 전체 몇 프로인지 확인할때 60점 미만이 0.5임으로 50%를 차지함을 알수있음