집순이 놀이터

[ADSP] 4과목. 통계분석 본문

Study

[ADSP] 4과목. 통계분석

방구석집순이 2020. 11. 25. 23:40

1.  통계

- 정의 : 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 

 ex) 일기예보, 물사/실업율/GNP,정당지지도, 의식조사와 사회조사 분석통계, 임상실험 등의 실험결과 분석 통계 

- 필요한 자료 : 조사 또는 실험을 통해 확보, 조사대상에 따라 총 조사( 전수 조사 ,census)와 표본조사로 구분 

 

2. 통계자료의 획득 방법

- 총조사 /전수조사 : 대상 집단 모두를 조사하므로 많은 비용과 시간이 소요되므로 특별한 경우를 제외하고는 사용되지 않음 (ex 인구주택 총 조사 )

 

- 표본조사 : 대부분

  .모집단 ( population ) :  조사하고자 하는 대상 집단 전체 

  .원소(element) : 모집단을 구성하는 개체

 . 표본(sample) : 조사하기 위해 추출한 모집단의 일부 원소 

 . 모수(parameter) :표본관측에 의해구하고자 하는 모집단에 대한 정보 

 . 통계량(statistic) : 표본관측에 의해 구한 정보 

 . 모집단의 정의 , 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야함 *

 

- 표본 추출방법 : 

단순 랜덤 추출법
(Sample random sampling)
- 각 모집단에 번호를 부여하여 임의의 n개를 추출하는 방법으로 각 샘플은 선택될 확률이 동일 ( 복원/ 비복원 추출 : 뽑은 것을 다시 넣으면 복원 안넣으면 비복원) 

-특징 
  . 이론적으로 가장 기본적인 방법
  . 모집단의 특성이나 구성을 고려하지 않고 모든 개체가 동일한 확률로 선택
  . sampling 기법이 간단하여 모집단이 큰 경우 용이하게 사용
  . 모집단에 대한 지식을 활용할 수 없음
  . 추출 기회가 동등하고 독립적이기 때문에 표본의 대표성이 높음 

ex ) 로또 , 제비뽑기

(systemetic sampling)
- 단순랜덤 추출법의 변형된 방식으로 번호를 부여한 샘플을 나열하여 k 개씩 n 개의 구간으로 나눈고 첫 구간에서 하나를 선택한 후에 k 개씩 띄워서 표본을 선택 임의 위치에서 매 k 번째 항목에서 추출 

- 특징
  . 데이터에 주기성, 특정한 경향성이 존재하지 않는다는 가정이 필요
  . 표본 추출이 간편 랜덤 추출 
  . 난수표에 기초하지만 주기성을 기반으로 추출
  . 샘플 기법이 간단, 모집단이 큰 경우 적용이 곤란 
집략 추출법 
(cluster sampling)
- 모집단을 군집으로 구분하고 임의로 군집을 선택한 후 모든 자료를 활용하거나 샘플링 하는 방법 ( 지역표본추출, 다단계 표본 추출)

-특징 
 . 다른 표본 추출법에 비해 표본 오차가 커질 가능성이 있음 
 . Sampling 기법이 간단하여 모집단이 큰 경우 용이하게 사용
 . 표본 추출 기법 

ex) 서울의 소득수준을 임의의 구 하나를 선택하여 측정 
층화 추출법
(Stratified random sampling
- 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법. 유사한 원소끼리 몇 개의 층(stratum) 으로 나누어 각 층에서 랜덤 추출하는 방법 (비례층화추출법, 불비례층화추출법)

- 특징 
 . 모집단에서 사전지식이 필요하고 시간과 노력이 많이 소요 
 . 중요 집단이 표본에서 제외되는것을 막을 수 있음 

  ex ) 11번가에서 고객의 세분화 그룹에서 각 그룹별로 비율만큼 단순 랜덤 샘플링
  .  모집단을 직업별로 그룹화 한 후 각 그룹에서 일정 표본을 선택 

 

 - 측정  : 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것 

 

- 측정 방법 

명목척도 측정 대상이 어느 집단에 속하는지 분류할때 사용 (ex)  성별, 출생지 구분) 질적 척도
( 범주형 자료 , 숫자들의 크기 차이가 계산 되지 않는 척도 
순서척도 측정대상의 특성이 서열관계를 관측하는 척도 (ex) 만족도평가, 선호도평가, 학년, 신용등급 ) 
-> 각 구간의 차이가 비율적이아니라 순서적 (간격이 의미가 없음)
-> 명목척도로도 사용가능함
구간척도 측정 대상이 갖고 있는 속성의 양이 측정하는 것으로 구간이나 구간사이의 간격이 의미가 있는 자료 (ex) 온도 , 지수 ) 

-> 온도 0 : 온도가 없니 ? No 하나의 수치일 뿐
-> 지수 0 : 지수가 없니 ? No 특정 수치일 뿐. 
양적척도 
( 수치형 자료 , 숫자들의 크기 차이를 계산할 수 있는 척도 )
비율척도 간격(차이)에 대한 비율이 의미를 가지는 자료. 절대적인 기준 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가지는 척도 (ex) 무게, 나이, 시간, 거리)

-> 무게 0 : 저울위에 아무것도 없다
시간0 : 아직 아무것도 시작하지 않았다.
나이 0 : 아직 태어나지 않았다. 

* 구간척도와 비율척도의 차이 구분하기 

 

3. 통계분석

-정의 : 특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정

 

- 기술통계 ( Descriptive statistics) : 주어진 자료로부터 어떠한 판단이나 예측과 같은 주관이 섞일 수 있는 과정을 배제하여 통계집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론

(ex)  평균, 표준편차, 중위수, 최빈값, 그래프 등 활용 ) 

 

- 통계정 추론( 추측통계 , Inference statistics) : 수집된 자료를 이용해 대상집단 (모집단) 에 대한 의사결정을 하는 것 

  . 모수 추정 : 표본집단으로 부터 모집단의 특성인 모수를 분석하여 모집단을 추론 

  . 가설검정  : 대상 집단에 대해 특정한 가설을 설정한 후에 그 가설의 채택여부를 결정하는 방법론 

  . 예측(forcast) : 미래의 불확실성을 해결해 효과적인 의사결정을 하기 위해 추론

 

4. 확률 및 확률 분포 

- 확률 : 특정한 사건이 일어날 가능성의 척도 

  . 표본공간(옴 )  : 나타날 수 있는 모든 결과물의 집합

  . 원소 (element)  : 개개의 결과들

  . 사건(event) : 관찰자가 관심이 있는 사건으로 표본공간의 부분집합 

=> 표본공간의 부분집합인 사건의 확률은  P(E)는 표본공간의 원소의 개수에 대한 사건의 개수의 비율로 다음과 같이 정의한다 

                                             P(E) = n(E) / n(옴)

 

- 확률 변수(random variable) : 특정값이 나타날 가능성이 확률적으로 주어지는 변수 

정의역(domain)이 표본공간 , 지역(Range)이 실수값인 함수 

0이아닌 확률을 갖는 실수값의 형태에 따라 이산형 확률변수와 연속형 확률변수로 구분됨

 

 

 

- 이산형 확률변수 (discrete random variable) : 0이 아닌 확률을 갖는 실수 값, x가 셀 수 있는 값 

                                                              -> 확률질량함수를 만들수 있다. P(x=1) 

                                                              -> 막대형그래프 

  . 베르누이 확률 분포 ( Bernoulli distribution) : 결과가 2개만 나오는 경우 ( ex) 동전 앞/뒤, 시험 합/불합 ) 

   기대값 E(x) = p

   분산 var(x) = p(1-p) 

 

베르누이 확률 분포 

 

 

. 이항분포 (Binomial distribution) 베르누이 시행을 n 번 반복했을 때 k 번 성공할 확률 

  p 가 이나 1에 가깝지 않고 n이 충분히 크면 이항분포는 정규분포에 가까워진다 , p =1/2 에 가까우면 종모양이 됨 

   * 이항분포의 가정

    . n 의 값은 미리 정해져 있다.

    . 매 번의 시행은 상호 독립이다.

    . p 는 매 시행마다 동일하다. 

 

. 기하분포 ( Geometiric distribution : 성공확률이 p 인 베르누이 시행에서 첫번째 성공이 있기까지 x 번 실패할 확률 

                                                ex)  야구선수가 5번째 타석에서 홈런을 칠 확률 

. 다항분포 (multinomiral distribution ) : 이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포 

 

. 포아송분포(Poisson distribution) : 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률 분포 

                                         ex) 책에 오타가 5페이지에 10 개씩 나온다고 할때, 한페이지에 오타가 3개 나올 확률

                                               => ㅅ=2, k =3

 *ㅅ = 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값   k = 사건이 일어난 수 

포아송분포

 

 

 

 

 . 연속형 확률 변수 ()  : 실수값 x 가 셀수 있는 값이 아님 , 구간별 확률 

 -> 확률 밀도 함수를 만든다  f(x)

 -> 곡선의 그래프 

-> P(160<X<a) = Sf(x)dx   ............... 160부터 a 까지 f(x) 를 적분 하여 확률을 구할 수 있다. 

ex) 키 

 

* 이산형 확률분포와 연속형 확률 변수를 구분하는것이 중요 -> 다이어리에 그림정리참고 

 

* 덧셈정리(배반이 아닌경우) P(AUB) = P(A) +P(B) - P(AnB) 

  B 가주어졌을때, A의 조건부 확률 : P(A|B) = P(AnB) / P(B) 

* 덧셈정리(배반일 경우) : P(AUB) = P(A) +P(B)

 

* 곱셈정리 : 서로 무관할 경우, P(AnB) = P(A) * P(B)

  B 가주어졌을때, A의 조건부 확률  P(A|B) = P(A)

 

 

'Study' 카테고리의 다른 글

[ADSP] 3과목 데이터 처리  (0) 2020.11.25