일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 내돈내산
- 수면위내시경
- 터키택시미터기
- 튀르키예환전
- 택시바가지
- 터키택시사기
- Mode
- 부모님모시고오기좋은음식점
- 양재동맛집
- SQL
- 터키택시
- 중구사랑상품권
- 건강검진
- 네이버머니포인트카드
- 캐리어보스턴백
- TDay
- SKT
- 경량보스턴백
- 튀르키예택시
- 이스탄불택시
- 이스탄불택시사기
- 포켓몬고
- 카보목배게
- 위내시경
- kmi
- 페이북
- 신당동한우
- TNE목배게
- 대장내시경
- 수면대장내시경
- Today
- Total
집순이 놀이터
[ADSP] 4과목. 통계분석 본문
1. 통계
- 정의 : 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현
ex) 일기예보, 물사/실업율/GNP,정당지지도, 의식조사와 사회조사 분석통계, 임상실험 등의 실험결과 분석 통계
- 필요한 자료 : 조사 또는 실험을 통해 확보, 조사대상에 따라 총 조사( 전수 조사 ,census)와 표본조사로 구분
2. 통계자료의 획득 방법
- 총조사 /전수조사 : 대상 집단 모두를 조사하므로 많은 비용과 시간이 소요되므로 특별한 경우를 제외하고는 사용되지 않음 (ex 인구주택 총 조사 )
- 표본조사 : 대부분
.모집단 ( population ) : 조사하고자 하는 대상 집단 전체
.원소(element) : 모집단을 구성하는 개체
. 표본(sample) : 조사하기 위해 추출한 모집단의 일부 원소
. 모수(parameter) :표본관측에 의해구하고자 하는 모집단에 대한 정보
. 통계량(statistic) : 표본관측에 의해 구한 정보
. 모집단의 정의 , 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야함 *
- 표본 추출방법 :
단순 랜덤 추출법 (Sample random sampling) |
- 각 모집단에 번호를 부여하여 임의의 n개를 추출하는 방법으로 각 샘플은 선택될 확률이 동일 ( 복원/ 비복원 추출 : 뽑은 것을 다시 넣으면 복원 안넣으면 비복원) -특징 . 이론적으로 가장 기본적인 방법 . 모집단의 특성이나 구성을 고려하지 않고 모든 개체가 동일한 확률로 선택 . sampling 기법이 간단하여 모집단이 큰 경우 용이하게 사용 . 모집단에 대한 지식을 활용할 수 없음 . 추출 기회가 동등하고 독립적이기 때문에 표본의 대표성이 높음 ex ) 로또 , 제비뽑기 |
(systemetic sampling) |
- 단순랜덤 추출법의 변형된 방식으로 번호를 부여한 샘플을 나열하여 k 개씩 n 개의 구간으로 나눈고 첫 구간에서 하나를 선택한 후에 k 개씩 띄워서 표본을 선택 임의 위치에서 매 k 번째 항목에서 추출 - 특징 . 데이터에 주기성, 특정한 경향성이 존재하지 않는다는 가정이 필요 . 표본 추출이 간편 랜덤 추출 . 난수표에 기초하지만 주기성을 기반으로 추출 . 샘플 기법이 간단, 모집단이 큰 경우 적용이 곤란 |
집략 추출법 (cluster sampling) |
- 모집단을 군집으로 구분하고 임의로 군집을 선택한 후 모든 자료를 활용하거나 샘플링 하는 방법 ( 지역표본추출, 다단계 표본 추출) -특징 . 다른 표본 추출법에 비해 표본 오차가 커질 가능성이 있음 . Sampling 기법이 간단하여 모집단이 큰 경우 용이하게 사용 . 표본 추출 기법 ex) 서울의 소득수준을 임의의 구 하나를 선택하여 측정 |
층화 추출법 (Stratified random sampling |
- 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법. 유사한 원소끼리 몇 개의 층(stratum) 으로 나누어 각 층에서 랜덤 추출하는 방법 (비례층화추출법, 불비례층화추출법) - 특징 . 모집단에서 사전지식이 필요하고 시간과 노력이 많이 소요 . 중요 집단이 표본에서 제외되는것을 막을 수 있음 ex ) 11번가에서 고객의 세분화 그룹에서 각 그룹별로 비율만큼 단순 랜덤 샘플링 . 모집단을 직업별로 그룹화 한 후 각 그룹에서 일정 표본을 선택 |
- 측정 : 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것
- 측정 방법
명목척도 | 측정 대상이 어느 집단에 속하는지 분류할때 사용 (ex) 성별, 출생지 구분) | 질적 척도 ( 범주형 자료 , 숫자들의 크기 차이가 계산 되지 않는 척도 |
순서척도 | 측정대상의 특성이 서열관계를 관측하는 척도 (ex) 만족도평가, 선호도평가, 학년, 신용등급 ) -> 각 구간의 차이가 비율적이아니라 순서적 (간격이 의미가 없음) -> 명목척도로도 사용가능함 |
|
구간척도 | 측정 대상이 갖고 있는 속성의 양이 측정하는 것으로 구간이나 구간사이의 간격이 의미가 있는 자료 (ex) 온도 , 지수 ) -> 온도 0 : 온도가 없니 ? No 하나의 수치일 뿐 -> 지수 0 : 지수가 없니 ? No 특정 수치일 뿐. |
양적척도 ( 수치형 자료 , 숫자들의 크기 차이를 계산할 수 있는 척도 ) |
비율척도 | 간격(차이)에 대한 비율이 의미를 가지는 자료. 절대적인 기준 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가지는 척도 (ex) 무게, 나이, 시간, 거리) -> 무게 0 : 저울위에 아무것도 없다 시간0 : 아직 아무것도 시작하지 않았다. 나이 0 : 아직 태어나지 않았다. |
* 구간척도와 비율척도의 차이 구분하기
3. 통계분석
-정의 : 특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정
- 기술통계 ( Descriptive statistics) : 주어진 자료로부터 어떠한 판단이나 예측과 같은 주관이 섞일 수 있는 과정을 배제하여 통계집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론
(ex) 평균, 표준편차, 중위수, 최빈값, 그래프 등 활용 )
- 통계정 추론( 추측통계 , Inference statistics) : 수집된 자료를 이용해 대상집단 (모집단) 에 대한 의사결정을 하는 것
. 모수 추정 : 표본집단으로 부터 모집단의 특성인 모수를 분석하여 모집단을 추론
. 가설검정 : 대상 집단에 대해 특정한 가설을 설정한 후에 그 가설의 채택여부를 결정하는 방법론
. 예측(forcast) : 미래의 불확실성을 해결해 효과적인 의사결정을 하기 위해 추론
4. 확률 및 확률 분포
- 확률 : 특정한 사건이 일어날 가능성의 척도
. 표본공간(옴 ) : 나타날 수 있는 모든 결과물의 집합
. 원소 (element) : 개개의 결과들
. 사건(event) : 관찰자가 관심이 있는 사건으로 표본공간의 부분집합
=> 표본공간의 부분집합인 사건의 확률은 P(E)는 표본공간의 원소의 개수에 대한 사건의 개수의 비율로 다음과 같이 정의한다
P(E) = n(E) / n(옴)
- 확률 변수(random variable) : 특정값이 나타날 가능성이 확률적으로 주어지는 변수
정의역(domain)이 표본공간 , 지역(Range)이 실수값인 함수
0이아닌 확률을 갖는 실수값의 형태에 따라 이산형 확률변수와 연속형 확률변수로 구분됨
- 이산형 확률변수 (discrete random variable) : 0이 아닌 확률을 갖는 실수 값, x가 셀 수 있는 값
-> 확률질량함수를 만들수 있다. P(x=1)
-> 막대형그래프
. 베르누이 확률 분포 ( Bernoulli distribution) : 결과가 2개만 나오는 경우 ( ex) 동전 앞/뒤, 시험 합/불합 )
기대값 E(x) = p
분산 var(x) = p(1-p)
. 이항분포 (Binomial distribution) 베르누이 시행을 n 번 반복했을 때 k 번 성공할 확률
p 가 이나 1에 가깝지 않고 n이 충분히 크면 이항분포는 정규분포에 가까워진다 , p =1/2 에 가까우면 종모양이 됨
* 이항분포의 가정
. n 의 값은 미리 정해져 있다.
. 매 번의 시행은 상호 독립이다.
. p 는 매 시행마다 동일하다.
. 기하분포 ( Geometiric distribution : 성공확률이 p 인 베르누이 시행에서 첫번째 성공이 있기까지 x 번 실패할 확률
ex) 야구선수가 5번째 타석에서 홈런을 칠 확률
. 다항분포 (multinomiral distribution ) : 이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포
. 포아송분포(Poisson distribution) : 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률 분포
ex) 책에 오타가 5페이지에 10 개씩 나온다고 할때, 한페이지에 오타가 3개 나올 확률
=> ㅅ=2, k =3
*ㅅ = 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값 k = 사건이 일어난 수
. 연속형 확률 변수 () : 실수값 x 가 셀수 있는 값이 아님 , 구간별 확률
-> 확률 밀도 함수를 만든다 f(x)
-> 곡선의 그래프
-> P(160<X<a) = Sf(x)dx ............... 160부터 a 까지 f(x) 를 적분 하여 확률을 구할 수 있다.
ex) 키
* 이산형 확률분포와 연속형 확률 변수를 구분하는것이 중요 -> 다이어리에 그림정리참고
* 덧셈정리(배반이 아닌경우) P(AUB) = P(A) +P(B) - P(AnB)
B 가주어졌을때, A의 조건부 확률 : P(A|B) = P(AnB) / P(B)
* 덧셈정리(배반일 경우) : P(AUB) = P(A) +P(B)
* 곱셈정리 : 서로 무관할 경우, P(AnB) = P(A) * P(B)
B 가주어졌을때, A의 조건부 확률 P(A|B) = P(A)
'Study' 카테고리의 다른 글
[ADSP] 3과목 데이터 처리 (0) | 2020.11.25 |
---|