[ADSP] 4과목. 통계분석

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

집순이 놀이터

[ADSP] 4과목. 통계분석 본문

Study

[ADSP] 4과목. 통계분석

방구석집순이 2020. 11. 25. 23:40

1. 통계

- 정의 : 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현

ex) 일기예보, 물사/실업율/GNP,정당지지도, 의식조사와 사회조사 분석통계, 임상실험 등의 실험결과 분석 통계

- 필요한 자료 : 조사 또는 실험을 통해 확보, 조사대상에 따라 총 조사( 전수 조사 ,census)와 표본조사로 구분

2. 통계자료의 획득 방법

- 총조사 /전수조사 : 대상 집단 모두를 조사하므로 많은 비용과 시간이 소요되므로 특별한 경우를 제외하고는 사용되지 않음 (ex 인구주택 총 조사 )

- 표본조사 : 대부분

.모집단 ( population ) : 조사하고자 하는 대상 집단 전체

.원소(element) : 모집단을 구성하는 개체

. 표본(sample) : 조사하기 위해 추출한 모집단의 일부 원소

. 모수(parameter) :표본관측에 의해구하고자 하는 모집단에 대한 정보

. 통계량(statistic) : 표본관측에 의해 구한 정보

. 모집단의 정의 , 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야함 *

- 표본 추출방법 :

단순 랜덤 추출법 (Sample random sampling)	- 각 모집단에 번호를 부여하여 임의의 n개를 추출하는 방법으로 각 샘플은 선택될 확률이 동일 ( 복원/ 비복원 추출 : 뽑은 것을 다시 넣으면 복원 안넣으면 비복원) -특징 . 이론적으로 가장 기본적인 방법 . 모집단의 특성이나 구성을 고려하지 않고 모든 개체가 동일한 확률로 선택 . sampling 기법이 간단하여 모집단이 큰 경우 용이하게 사용 . 모집단에 대한 지식을 활용할 수 없음 . 추출 기회가 동등하고 독립적이기 때문에 표본의 대표성이 높음 ex ) 로또 , 제비뽑기
(systemetic sampling)	- 단순랜덤 추출법의 변형된 방식으로 번호를 부여한 샘플을 나열하여 k 개씩 n 개의 구간으로 나눈고 첫 구간에서 하나를 선택한 후에 k 개씩 띄워서 표본을 선택 임의 위치에서 매 k 번째 항목에서 추출 - 특징 . 데이터에 주기성, 특정한 경향성이 존재하지 않는다는 가정이 필요 . 표본 추출이 간편 랜덤 추출 . 난수표에 기초하지만 주기성을 기반으로 추출 . 샘플 기법이 간단, 모집단이 큰 경우 적용이 곤란
집략 추출법 (cluster sampling)	- 모집단을 군집으로 구분하고 임의로 군집을 선택한 후 모든 자료를 활용하거나 샘플링 하는 방법 ( 지역표본추출, 다단계 표본 추출) -특징 . 다른 표본 추출법에 비해 표본 오차가 커질 가능성이 있음 . Sampling 기법이 간단하여 모집단이 큰 경우 용이하게 사용 . 표본 추출 기법 ex) 서울의 소득수준을 임의의 구 하나를 선택하여 측정
층화 추출법 (Stratified random sampling	- 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법. 유사한 원소끼리 몇 개의 층(stratum) 으로 나누어 각 층에서 랜덤 추출하는 방법 (비례층화추출법, 불비례층화추출법) - 특징 . 모집단에서 사전지식이 필요하고 시간과 노력이 많이 소요 . 중요 집단이 표본에서 제외되는것을 막을 수 있음 ex ) 11번가에서 고객의 세분화 그룹에서 각 그룹별로 비율만큼 단순 랜덤 샘플링 . 모집단을 직업별로 그룹화 한 후 각 그룹에서 일정 표본을 선택

- 측정 : 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것

- 측정 방법

명목척도	측정 대상이 어느 집단에 속하는지 분류할때 사용 (ex) 성별, 출생지 구분)	질적 척도 ( 범주형 자료 , 숫자들의 크기 차이가 계산 되지 않는 척도
순서척도	측정대상의 특성이 서열관계를 관측하는 척도 (ex) 만족도평가, 선호도평가, 학년, 신용등급 ) -> 각 구간의 차이가 비율적이아니라 순서적 (간격이 의미가 없음) -> 명목척도로도 사용가능함	질적 척도 ( 범주형 자료 , 숫자들의 크기 차이가 계산 되지 않는 척도
구간척도	측정 대상이 갖고 있는 속성의 양이 측정하는 것으로 구간이나 구간사이의 간격이 의미가 있는 자료 (ex) 온도 , 지수 ) -> 온도 0 : 온도가 없니 ? No 하나의 수치일 뿐 -> 지수 0 : 지수가 없니 ? No 특정 수치일 뿐.	양적척도 ( 수치형 자료 , 숫자들의 크기 차이를 계산할 수 있는 척도 )
비율척도	간격(차이)에 대한 비율이 의미를 가지는 자료. 절대적인 기준 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가지는 척도 (ex) 무게, 나이, 시간, 거리) -> 무게 0 : 저울위에 아무것도 없다 시간0 : 아직 아무것도 시작하지 않았다. 나이 0 : 아직 태어나지 않았다.	양적척도 ( 수치형 자료 , 숫자들의 크기 차이를 계산할 수 있는 척도 )

* 구간척도와 비율척도의 차이 구분하기

3. 통계분석

-정의 : 특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정

- 기술통계 ( Descriptive statistics) : 주어진 자료로부터 어떠한 판단이나 예측과 같은 주관이 섞일 수 있는 과정을 배제하여 통계집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론

(ex) 평균, 표준편차, 중위수, 최빈값, 그래프 등 활용 )

- 통계정 추론( 추측통계 , Inference statistics) : 수집된 자료를 이용해 대상집단 (모집단) 에 대한 의사결정을 하는 것

. 모수 추정 : 표본집단으로 부터 모집단의 특성인 모수를 분석하여 모집단을 추론

. 가설검정 : 대상 집단에 대해 특정한 가설을 설정한 후에 그 가설의 채택여부를 결정하는 방법론

. 예측(forcast) : 미래의 불확실성을 해결해 효과적인 의사결정을 하기 위해 추론

4. 확률 및 확률 분포

- 확률 : 특정한 사건이 일어날 가능성의 척도

. 표본공간(옴 ) : 나타날 수 있는 모든 결과물의 집합

. 원소 (element) : 개개의 결과들

. 사건(event) : 관찰자가 관심이 있는 사건으로 표본공간의 부분집합

=> 표본공간의 부분집합인 사건의 확률은 P(E)는 표본공간의 원소의 개수에 대한 사건의 개수의 비율로 다음과 같이 정의한다

P(E) = n(E) / n(옴)

- 확률 변수(random variable) : 특정값이 나타날 가능성이 확률적으로 주어지는 변수

정의역(domain)이 표본공간 , 지역(Range)이 실수값인 함수

0이아닌 확률을 갖는 실수값의 형태에 따라 이산형 확률변수와 연속형 확률변수로 구분됨

- 이산형 확률변수 (discrete random variable) : 0이 아닌 확률을 갖는 실수 값, x가 셀 수 있는 값

-> 확률질량함수를 만들수 있다. P(x=1)

-> 막대형그래프

. 베르누이 확률 분포 ( Bernoulli distribution) : 결과가 2개만 나오는 경우 ( ex) 동전 앞/뒤, 시험 합/불합 )

기대값 E(x) = p

분산 var(x) = p(1-p)

. 이항분포 (Binomial distribution) 베르누이 시행을 n 번 반복했을 때 k 번 성공할 확률

p 가 이나 1에 가깝지 않고 n이 충분히 크면 이항분포는 정규분포에 가까워진다 , p =1/2 에 가까우면 종모양이 됨

* 이항분포의 가정

. n 의 값은 미리 정해져 있다.

. 매 번의 시행은 상호 독립이다.

. p 는 매 시행마다 동일하다.

. 기하분포 ( Geometiric distribution : 성공확률이 p 인 베르누이 시행에서 첫번째 성공이 있기까지 x 번 실패할 확률

ex) 야구선수가 5번째 타석에서 홈런을 칠 확률

. 다항분포 (multinomiral distribution ) : 이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포

. 포아송분포(Poisson distribution) : 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률 분포

ex) 책에 오타가 5페이지에 10 개씩 나온다고 할때, 한페이지에 오타가 3개 나올 확률

=> ㅅ=2, k =3

*ㅅ = 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값 k = 사건이 일어난 수

. 연속형 확률 변수 () : 실수값 x 가 셀수 있는 값이 아님 , 구간별 확률

-> 확률 밀도 함수를 만든다 f(x)

-> 곡선의 그래프

-> P(160<X<a) = Sf(x)dx ............... 160부터 a 까지 f(x) 를 적분 하여 확률을 구할 수 있다.

ex) 키

* 이산형 확률분포와 연속형 확률 변수를 구분하는것이 중요 -> 다이어리에 그림정리참고

* 덧셈정리(배반이 아닌경우) P(AUB) = P(A) +P(B) - P(AnB)

B 가주어졌을때, A의 조건부 확률 : P(A|B) = P(AnB) / P(B)

* 덧셈정리(배반일 경우) : P(AUB) = P(A) +P(B)

* 곱셈정리 : 서로 무관할 경우, P(AnB) = P(A) * P(B)

B 가주어졌을때, A의 조건부 확률 P(A|B) = P(A)

저작자표시 비영리 변경금지 (새창열림)

'Study' 카테고리의 다른 글

[ADSP] 3과목 데이터 처리 (0)	2020.11.25

'Study' Related Articles

[ADSP] 3과목 데이터 처리 2020.11.25

집순이 놀이터

[ADSP] 4과목. 통계분석 본문

[ADSP] 4과목. 통계분석

'Study' 카테고리의 다른 글

티스토리툴바