Study About Computing/빅데이터_Big Data
[1] 모수와 통계량 용어
gamgok
2024. 5. 26. 23:20
통계란, 집단현상을 수량적으로 관찰하고 분석하는 방법을 일컫는 말이다.
모집단 | 통계 분석 방법을 적용할 관심 대상의 전체 집합 |
모수 | 모집단을 분석하여 얻어지는 결과 수치 |
표본집단 | 직접적인 조사 대상이 된 모집단의 일부. 모집단 데이터는 크기가 매우 크고 실제로 얻기도 어렵기 때문에 표본집단을 활용 |
통계량 | 표본집단을 분석하여 얻어지는 결과 수치 |
모수와 통계량에서 사용하는 기호도 서로 다르다.
평균 | 분산 | 표준편차 | 비율 | |
모수 | \(\mu\) | \(\sigma^2\) | \(\sigma\) | \(p\) |
통계량 | \(\bar{x}\) | \(s^2\) | \(s\) | \(\hat{p}\) |
데이터 지칭 용어
개체(item) | 연구자 또는 관찰자가 관심갖는 대상 |
요인(factors) | 개체에 관한 특성 중 연구자가 특별히 관심갖는 특성 |
변수(variable) | 요인을 구성하고 있는 요소 |
열 정보(feature, attribute) | |
행 정보(관측치, observation, instance) | |
범주형(categorial) | |
연속형(continuous) |
변수의 구분
- 범주형
- 명목형 - 성별, 혈액형
- 순서형 - 비만도, 학점
- 연속형
- 이산형 - 셀 수 있는 형태, 멤버 수
- 연속형
- 등간형 - 비교할 수 있는 단위, 온도, 정수
- 비율형 - 0이 없음, 신장, 체중, 시청률 증가
* ) 더욱 아래 있는 변수 형태에서 활용도(분석 방법수)가 증가한다.
Type별 통계분석
수치형 Y | 범주형 Y | |
수치형 X | 상관분석, 회귀분석 | 로지스틱 회귀분석 |
범주형 X | t-test, ANOVA | 카이제곱 검정 |
통계표
- 수집된 자료의 전체적인 특성을 파악하기 위해서 자료를 정리하고 요악하는데에 사용하는 도구
- 범주형 - 도수분포표, 막대그래프(빈도기반), 원형그래프
- 수치형 - 히스토그램(도수분포표), 박스플롯, 산점도
- 분할표(교차표, confusion matrix): 카이제곱 검정, ANOVA에 사용