Study About Computing/빅데이터_Big Data

[1] 모수와 통계량 용어

gamgok 2024. 5. 26. 23:20

통계란, 집단현상을 수량적으로 관찰하고 분석하는 방법을 일컫는 말이다.

모집단 통계 분석 방법을 적용할 관심 대상의 전체 집합
모수 모집단을 분석하여 얻어지는 결과 수치
표본집단 직접적인 조사 대상이 된 모집단의 일부. 모집단 데이터는 크기가 매우 크고 실제로 얻기도 어렵기 때문에 표본집단을 활용
통계량 표본집단을 분석하여 얻어지는 결과 수치

 

 

모수와 통계량에서 사용하는 기호도 서로 다르다.

  평균 분산 표준편차 비율
모수 \(\mu\) \(\sigma^2\) \(\sigma\) \(p\)
통계량 \(\bar{x}\) \(s^2\) \(s\) \(\hat{p}\)

 

데이터 지칭 용어

개체(item) 연구자 또는 관찰자가 관심갖는 대상
요인(factors) 개체에 관한 특성 중 연구자가 특별히 관심갖는 특성
변수(variable) 요인을 구성하고 있는 요소
열 정보(feature, attribute)  
행 정보(관측치, observation, instance)  
범주형(categorial)  
연속형(continuous)  

 

변수의 구분

  • 범주형
    • 명목형 - 성별, 혈액형
    • 순서형 - 비만도, 학점
  • 연속형
    • 이산형 - 셀 수 있는 형태, 멤버 수
    • 연속형
      • 등간형 - 비교할 수 있는 단위, 온도, 정수
      • 비율형 - 0이 없음, 신장, 체중, 시청률 증가

* ) 더욱 아래 있는 변수 형태에서 활용도(분석 방법수)가 증가한다.

 

Type별 통계분석

  수치형 Y 범주형 Y
수치형 X 상관분석, 회귀분석 로지스틱 회귀분석
범주형 X t-test, ANOVA 카이제곱 검정

 

통계표

  • 수집된 자료의 전체적인 특성을 파악하기 위해서 자료를 정리하고 요악하는데에 사용하는 도구
  • 범주형 - 도수분포표, 막대그래프(빈도기반), 원형그래프
  • 수치형 - 히스토그램(도수분포표), 박스플롯, 산점도
  • 분할표(교차표, confusion matrix): 카이제곱 검정, ANOVA에 사용