DAY17. R ํต๊ณ๋ถ์์ ์ฐจ, ํต๊ณ๊ธฐ๋ณธ์ง์
ํต๊ณ๋ถ์์ ์ฐจ
00. ์ฐ๊ตฌ์กฐ์ฌ
์ฐ๊ตฌ๋ฌธ์ ์ ์ > ์๋น์กฐ์ฌ > ์ฐ๊ตฌ๋ชจํ (ํต๊ณ๋ถ์ ์ ์ฐจ)
01. ๊ฐ์ค ์ค์
๊ฐ์ค? ์ด๋ค ๋ช ์ ๋ฅผ ์ฌ์ค์ด๋ผ๊ณ ์ถ๋ก
๋ฌธ์ ๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด ๋ฏธ๋ฆฌ ์ธ์ด ๊ฒฐ๋ก
์ฃผ์ด์ง ์ฐ๊ตฌ ๋ฌธ์ ์ ๋ํ ์์ธก์ ํด๋ต (=์ ์ ์ ์ง์ )
ํต๊ณ๋ถ์์ ํตํด ์ฑํor๊ธฐ๊ฐ (=ํต๊ณ์ ๊ฐ์ค๊ฒ์ )
* ํต๊ณ์ ๊ฐ์ค๊ฒ์ : ๋ณธ์์ ์ป์ ์ ๋ณด๋ฅผ ํตํด ๊ท๋ฌด๊ฐ์คor๋๋ฆฝ๊ฐ์ค ์ค ์ด๋ค ๊ฐ์ค์ด ์ณ๊ณ ๊ทธ๋ฅธ์ง๋ฅผ ํ๋จ
ex) ์ฃผ์ 10๊ฐ ๋์๋ฅผ ๋์์ผ๋ก ๊ฐ๊ฐ n๋ช ์ฉ ํ๋ณธ์ ์ ์ ํด ํ๊ท ํค๋ฅผ ๊ณ์ฐ
๊ฐ์ค ์ ํ | |
๊ท๋ฌด๊ฐ์ค(์๊ฐ์ค) : H0 | ๋๋ฆฝ๊ฐ์ค(์ฐ๊ตฌ๊ฐ์ค) : H1 |
๋ถ์ ์ ํํ๋ก ๊ฐ์ ๋ ๊ฐ์ค '๋ ๋ณ์ ๊ฐ ๊ด๊ณ๊ฐ ์๋ค', '์ฐจ์ด๊ฐ ์๋ค', 'ํจ๊ณผ๊ฐ ์๋ค' |
๊ธ์ ์ ํํ๋ก ๊ฐ์ ๋ ๊ฐ์ค '๋ ๋ณ์ ๊ฐ ๊ด๊ณ๊ฐ ์๋ค', '์ฐจ์ด๊ฐ ์๋ค', 'ํจ๊ณผ๊ฐ ์๋ค' |
* ๋ชจ๋ ๊ฐ์ค์ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ์ค์ผ๋ก ๊ฐ์ค ๊ฒ์ ์ ์ํ
๊ท๋ฌด๊ฐ์ค์ด ์ฑํ๋์ง ์์ผ๋ฉด ๊ธฐ๊ฐ ํ ๋๋ฆฝ๊ฐ์ค ์ํ
02. ์ ์์์ค(=์ ๋ขฐ์์ค) ์ค์
์ ์์์ค? ๊ท๋ฌด๊ฐ์ค ์ฑํor๊ธฐ๊ฐ์ ๊ธฐ์ค(์๊ณ๊ฐ)
์ํ(α)๊ฐ : ๊ฐ์ค์ ์ ๋ขฐํ ์ ์๋ ํ๋ฅ (=๊ฒฝ๊ณ๊ฐ) ex)α=0.05
์ ๋ขฐ์์ค(1-α) : ๊ฐ์ค์ ์ ๋ขฐํ ์ ์๋ ํ๋ฅ
* ํต์์ ์ผ๋ก ์ ๋ขฐ์์ค์ 0.95(95%)๋ก ์ค์
* ์ํα์ ์ ๋ขฐ์์ค์ ์๋ก ๋ฐ๋น๋ก์ ํ๋ฅ
์ ์์์ค ์ด๋ด : ๊ท๋ฌด๊ฐ์ค ์ฑํ
์ ์์์ค ์ด์ : ๊ท๋ฌด๊ฐ์ค ๊ธฐ๊ฐ
์ ์์์ค ๊ฒฐ์
<๊ฐ์ค1>
"H0 : ์ ์ฝ A๋ A์ ์น๋ฃ์ ํจ๊ณผ๊ฐ ์๋ค."
์ผ๋ฐ ์ฌํ๊ณผํ ๋ถ์ผ : α=0.05 (5%)
ํ๋ณธ ํต๊ณ๊ฐ ๋ชจ์๋ฅผ ๋ํ๋ด๋ ํ์ฉ ์ค์ฐจ 5%
ex) 100๋ง๋ฆฌ ์ค์์ 5๋ง๋ฆฌ ๋ฏธ๋ง์ผ๋ก ์น๋ฃ ํจ๊ณผ๊ฐ ์๋ ๊ฒฝ์ฐ H0 ๊ธฐ๊ฐ
์๋ช ๋ถ์ผ : α=0.01 (1%)
ํ์ฉ ์ค์ฐจ 1%
ex) 100๋ง๋ฆฌ ์ค์์ 1๋ง๋ฆฌ ๋ฏธ๋ง์ผ๋ก ์น๋ฃ ํจ๊ณผ๊ฐ ์๋ ๊ฒฝ์ฐ H0 ๊ธฐ๊ฐ
<๊ฐ์ค2>
"H1 : ์ ์ฝA๋ ์A ์น๋ฃ์ ํจ๊ณผ๊ฐ ์๋ค."
"H0 : ์ ์ฝA๋ ์A ์น๋ฃ์ ํจ๊ณผ๊ฐ ์๋ค."
<๋ฌธ์ >
์์ฅ 100๋ง๋ฆฌ๋ฅผ ๋์์ผ๋ก ์ ์ฝA๋ฅผ ํฌ์ฝํ ๊ฒฐ๊ณผ, ํจ๊ณผ๊ฐ ์๋ ๊ฒ์ผ๋ก ๋ํ๋ ํ๋ฅ (=์ ์ํ๋ฅ )์ P=0.03์ด ๋์๋ค.
์ด๋ α=5%์์ ๊ท๋ฌด๊ฐ์ค์ ์ฑํ๋๋๊ฐ ๊ธฐ๊ฐ๋๋๊ฐ?
A. 100๋ง๋ฆฌ ์ค 3๋ง๋ฆฌ์๊ฒ๋ ํจ๊ณผ๊ฐ ์์๋ค. ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐ๋๊ณ , ๋๋ฆฝ๊ฐ์ค์ด ์๋์ผ๋ก ์ฑํ๋๋ค.
์ ์์์ค(α) VS ์ ์ํ๋ฅ (P)
P ≥ α : ๊ท๋ฌด๊ฐ์ค ์ฑํ (๋๋ฆฝ๊ฐ์ค ๊ธฐ๊ฐ)
P < α : ๊ท๋ฌด๊ฐ์ค ๊ธฐ๊ฐ (๋๋ฆฝ๊ฐ์ค ์ฑํ. ์ค์ ํต๊ณ๊ณผ์ ์ ์๋ฏธ๊ฐ ์์.)
์ ์ํ๋ฅ (P-value) : ๊ฒ์ ํต๊ณ๋์ ์ํด ๊ตฌํด์ง ๊ฐ (=๊ท๋ฌด๊ฐ์ค์ ์ง์งํ ์ ์๋ ํ๋ฅ )
์ ์์์ค(α) : P-value๋ฅผ ์ผ๋ง๋ ์ ์ํ๋ค๊ณ ๊ฒฐ์ ํ ์ ์๋ ์๊ณ๊ฐ
* ์ ์ํ๋ฅ ์ด ์ ์์์ค๋ณด๋ค ์ ์ผ๋ฉด ‘ํต๊ณ์ ์ผ๋ก ์ ์ํ๋ค.’
H0 : ‘์์์๋ณ ํจ๊ณผ์ ์ฐจ์ด๋ ์๋ค’์์ ์ ์์์ค์ด α=0.05 ์ผ ๋, ์ ์ํ๋ฅ ์ด p-value=0.04๊ฐ ๋์๋ค๋ฉด, p(0.04) < α(0.05) โฉ ๊ท๋ฌด๊ฐ์ค(์๊ฐ์ค) ๊ธฐ๊ฐ
์์์๋ณ ํจ๊ณผ์ ์ฐจ์ด๊ฐ ์์ ํ๋ฅ ์ด ๋ฎ๊ธฐ ๋๋ฌธ์ ๋๋ฆฝ๊ฐ์ค ์ฑํ.
์ด๋ ‘ํต๊ณ์ ์ผ๋ก ์ ์ํ๋ค.’๋ผ๊ณ ํด์, p<0.01์ด๋ฉด ๋งค์ฐ ์ ์ํ๋ค.
p<0.05 ์์ค์ด๋ฉด ํต๊ณ์ ์ผ๋ก ์ ์์ ์ธ ์ฐจ์ด๋ฅผ ๋ณด์ธ๋ค.
BUT! ๋จ์ ์ ์ผ๋ก ํํํ ์ ์๋ค. (P value๊ฐ์ด ๋ชจ์ง๋จ์ด ์๋ ํ๋ณธ์์ ์ถ์ถ๋ ๊ฐ์ด๋ฏ๋ก)
์ ์์์คVS์ ์ํ๋ฅ | |
์ ์์์ค(α) | ์ ์ํ๋ฅ (P-value) |
๊ฐ์ค ๊ฒ์ ์, ํ์ฉ ๊ฐ๋ฅํ 1์ข
์ค๋ฅ์ ์ต๋์น ํต์ 0.05% |
๊ด์ธก๋ ํ๋ณธ์ ๊ฒฐ๊ณผ๊ฐ ๊ท๋ฌด๊ฐ์ค์ ์ง์งํ๋ ์ ๋์ ํ๋ฅ |
์ฐ๊ตฌ์๊ฐ ์ธ์ด ๊ท๋ฌด๊ฐ์ค์ ์ฑํor๊ธฐ๊ฐ ์ฌ๋ถ๋ฅผ ํ๋จํ๋ ๊ธฐ์ค | ์ ์์์ค๊ณผ ๋น๊ตํด์ ๊ท๋ฌด๊ฐ์ค์ ์ฑํor๊ธฐ๊ฐ ์ฌ๋ถ๋ฅผ ํ๋จํ๋ ํ๋ฅ |
๊ฐ์ค๊ฒ์ ์ค๋ฅ
์ 1์ข ์ค๋ฅ : ๊ท๋ฌด๊ฐ์ค์ด ์ฐธ์ธ๋ฐ, ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ๋ ์ค๋ฅ
์ 2์ข ์ค๋ฅ : ๊ท๋ฌด๊ฐ์ค์ด ๊ฑฐ์ง์ด๋ฐ, ๊ท๋ฌด๊ฐ์ค์ ์ฑํํ๋ ์ค๋ฅ
๊ท๋ฌด๊ฐ์ค ์ฐธ | ๊ท๋ฌด๊ฐ์ค ๊ฑฐ์ง | |
๊ท๋ฌด๊ฐ์ค ์ฑํ | ์ณ์ ๊ฒฐ์ (1-α) | ์ 2์ข ์ค๋ฅ(β) |
๋๋ฆฝ๊ฐ์ค ์ฑํ | ์ 1์ข ์ค๋ฅ(α) | ์ณ์ ๊ฒฐ์ (1-β) |
α : ์ 1์ข ์ค๋ฅ ๋ฐ์ ํ๋ฅ = ์ ์์์ค(α)
β : ์ 2์ข ์ค๋ฅ ๋ฐ์ ํ๋ฅ
* ํ์์ ์ผ๋ก ๋ฐ์ํ๋ ์ค๋ฅ์ด์ง๋ง, ๋ ๊ฐ์ง ๋ชจ๋๊ฐ ์์ ๊ฒฝ์ฐ๊ฐ ๋ฐ๋์งํจ
* ์ 1์ข ์ค๋ฅ์ ์ 2์ข ์ค๋ฅ๋ ์๋ก ์ญ์ ๊ด๊ณ
* ์ ์์์ค(=์๊ณ๊ฐ,α)์ด ์ปค์ง๋ฉด ์ฑํ์ญ์ด ์ข์์ ธ ์ 1์ข ์ค๋ฅ๊ฐ ์ปค์ง๊ณ , ๋ฐ๋ฉด ๊ธฐ๊ฐ์ญ์ด ๋์ด๋๋ฏ๋ก 2์ข ์ค๋ฅ๋ ์์์ง๋ค.
[๋ฌธ์ ] ์ 1์ข
์ค๋ฅ VS ์ 2์ข
์ค๋ฅ ์ค ๋ ์น๋ช
์ ์ธ ๊ฒ์? ex) ์ฝ๋ก๋19 ์ง๋จํคํธ ์ค๋ฅ
1) ๋ฐ์ด๋ฌ์ค๊ฐ ์๋๋ฐ, ์๋ค๊ณ ํ ๊ฒฝ์ฐ : 2์ข
์ค๋ฅ
2) ๋ฐ์ด๋ฌ์ค๊ฐ ์๋๋ฐ, ์๋ค๊ณ ํ ๊ฒฝ์ฐ : 1์ข
์ค๋ฅ (๊ท๋ฌด๊ฐ์ค(๋ถ์ ์ด๋ก ๊ฐ์ )ํ๋๋ฐ, ์ฑํX)
์ ๋ต : 2์ข
์ค๋ฅ
[๋ฌธ์ ] ์ด๋ค ๋ชจ์ง๋จ์ ๋ถํฌ๊ฐ ์ ๊ท๋ถํฌ N(50, 102)์ ๋ฐ๋ฅด๊ณ , ์๋์ ๊ฐ์ ์ ๊ท๋ถํฌ์ ํ๋ฅ ๋ฐ๋ํจ์ f(x)์ ๊ทธ๋ํ์์ 44~48 ์ฌ์ด์ผ ํ๋ฅ ์?
z = (44-50)/10 #z = 0.6 = ๋ถํฌํ 0.2257
z2 = (48-50)/10 #z2 = -0.2 = ๋ถํฌํ 0.0793
#P(-0.6 < z < -0.2)
p = 0.2257-0.0793
p #0.1464
03. ์ธก์ ๋๊ตฌ ์ ์
๊ฐ์ค์ ๋์ค๋ ๋ณ์๋ฅผ ๋ฌด์์ผ๋ก ์ธก์ ํ ๊ฒ์ธ๊ฐ๋ฅผ ๊ฒฐ์ ํ๋ ๋จ๊ณ
๊ฐ์ค์ ๋์ค๋ ๋ณ์(๋ณ์ธ) ์ถ์ถ
๋ณ์์ ์ฒ๋๋ฅผ ๊ณ ๋ คํ์ฌ ์ธก์ ๋๊ตฌ ์ ์
04. ๋ฐ์ดํฐ ์์ง
๋ฐ์ดํฐ ์์ง(์ค๋ฌธ์ง ์์ฑ), ์ ์ ๋ ์ธก์ ๋๊ตฌ๋ฅผ ์ด์ฉํ์ฌ ์ค๋ฌธ ๋ฌธํญ ์์ฑ ๋จ๊ณ
์กฐ์ฌ์๋ต์ ๋์ ์ค๋ฌธ ์ค์ & ํ์
์ ํ/๋น์ ํ ๋ฐ์ดํฐ ์์ง(DB, WEB, SNS ๋ฑ )
๋ณธ ๋จ๊ณ๊น์ง ์๋ฃ๋ ๊ฒฝ์ฐ
์ฐ๊ตฌ๋ชฉ์ ๊ณผ ๋ฐฐ๊ฒฝ, ์ฐ๊ตฌ๋ชจํ, ์ฐ๊ตฌ๊ฐ์ค๊น์ง ๋๋ ์ํ
05. ๋ฐ์ดํฐ(์ค๋ฌธ์ง) ์ฝ๋ฉ
ํต๊ณ๋ถ์ ํ๋ก๊ทธ๋จ(Excel, R, SPSS, SAS, Python) ๋ฐ์ดํฐ ์ ๋ ฅ
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ(๋ฏธ ์๋ต์, ์๋ชป๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌ
06. ํต๊ณ๋ถ์ ์ํ
ํต๊ณ๋ถ์ ํ๋ก๊ทธ๋จ(R, SPSS, SAS) ์ด์ฉ ๋ถ์ ๋จ๊ณ
* ํต๊ณ๋ถ์ ๋ฐฉ๋ฒ์ ๊ณํํ์ง ์๊ณ ์๋ฃ๋ฅผ ์์งํ ๊ฒฝ์ฐ ์คํจ ํ๋ฅ ๋์
07. ๊ฒฐ๊ณผ๋ถ์ ์ ์
์ฐ๊ตฌ๋ชฉ์ ๊ณผ ์ฐ๊ตฌ๊ฐ์ค์ ๋ํ ๋ถ์ ๋ฐ ๊ฐ์ค๊ฒ์ฆ ๋จ๊ณ
์ธ๊ตฌํต๊ณํ์ ํน์ฑ ๋ฐ์
์ฃผ์ ๋ณ์ธ์ ๋ํ ๊ธฐ์ ํต๊ณ๋ ์ ์
์ฐ๊ตฌ๊ฐ์ค์ ๋ํ ํต๊ณ๋ ๊ฒ์ ๋ฐ ํด์
์ฐ๊ตฌ์ ์๊ฒฌ ๊ธฐ์ (๋ ผ๋ฌธ/๋ณด๊ณ ์ ์์ฑ)
ํต๊ณ๊ธฐ๋ณธ์ง์
01. ํต๊ณํ(Statistics)?
๋ ผ๋ฆฌ์ ์ฌ๊ณ ์ ๊ฐ๊ด์ ์ธ ์ฌ์ค์ ์๊ฑฐ, ํ๋ฅ ๊ธฐ๋ฐ ์ธ๊ณผ๊ด๊ณ ๊ท๋ช . ํนํ ์ฐ๊ตฌ๋ชฉ์ ์ ์ํด ์ค์ ๋ ๊ฐ์ค๋ค์ ๋ํ์ฌ ๋ถ์๊ฒฐ๊ณผ๊ฐ ์ด๋ค ๊ฒฐ๊ณผ๋ฅผ ๋ท๋ฐ์นจํ๊ณ ์๋์ง๋ฅผ ํต๊ณ์ ๋ฐฉ๋ฒ์ผ๋ก ๊ฒ์
๊ธฐ์ (Descriptive) ํต๊ณํ | ์ถ๋ก (Inferential) ํต๊ณ | |
๊ธฐ๋ฅ | ์์ง๋ ์๋ฃ์ ํน์ฑ์ ์ฝ๊ฒ ํ์
ํ๊ธฐ ์ํด ์๋ฃ๋ฅผ ์ ๋ฆฌ ๋ฐ ์์ฝ |
๋ชจ์ง๋จ์์ ์ถ์ถํ ํ๋ณธ์ ์ ๋ณด๋ฅผ ์ด์ฉํ์ฌ ๋ชจ์ง๋จ์ ํน์ฑ์ ๊ณผํ์ ์ผ๋ก ์ถ๋ก ํ๊ณ , ๊ฒฐ๊ณผ์ ๋ํ ์ ๋ขฐ์ฑ ๊ฒ์ |
๋ฐฉ๋ฒ | ํ, ๊ทธ๋ํ, ๋ํฏ๊ฐ | ํ๊ท๋ถ์, T-๊ฒ์ , ๋ถ์ฐ๋ถ์ |
02. ํ๋ฅ ๋ถํฌ
ํ๋ฅ ๋ณ์? ์ผ์ ํ ํ๋ฅ (๊ฐ)์ ๊ฐ๋ ๋ณ์, ํ๋ฅ ์คํ์์ ์ป์ด์ง ๊ฐ
ํ๋ฅ ์ ๋ฒ์ : 0 <= P(X) <= 1 (0~1 ์ฌ์ด์ ์์๊ฐ)
ํ๋ฅ ์ ์ ์ฒด ํฉ : 1
ํ๋ฅ ์ ์ ์ฌ๊ฑด : ํ๋ฅ ๋ณ์๋ ๋์ฌ ์ ์๋ ๋ชจ๋ ์ฌ๊ฑด(ํ๋ฅ ๊ฐ)์ ํฌํจํ๋ค.
ํ๋ฅ ์ ๋ฐฐ๋ฐ์ฌ๊ฑด : ํ๋ฅ ๋ณ์๋ ๋์์ ์ผ์ด๋์ง ์๋๋ค. ex.๋์ ์ ๋์ก์ ๋, ์๋ฉด๊ณผ ๋ท๋ฉด์ด ๋์์ ๋์ฌ ์๋ ์์
ํ๋ฅ ๋ถํฌ?
ํ๋ฅ ๋ณ์ X๊ฐ ํน์ ํ ๊ฐ์ ๊ฐ์ง ํ๋ฅ ๋ถํฌ
= ์ดํญ๋ถํฌ(๋ง๋ ๊ทธ๋ํ)
์ ๊ท๋ถํฌ, ์นด์ด์ ๊ณฑ๋ถํฌ = ์ฐ์ํ ๋ณ์ (๊ณก์ ๊ทธ๋ํ)
โ ์ด์ฐํ๋ฅ ๋ถํฌ(์ด์ฐํ๋ฅ ๋ณ์)
ํ๋ฅ ๋ณ์ X๊ฐ ๊ฐ์ง ์ ์๋ ๊ฐ์ด ์ ์ ์๋ ์งํฉ
ex. ์ฃผ์ฌ์๋ฅผ ๋์ก์ ๋ ๋์ค๋ ์, ๋์ ์ ์๋ฉด/๋ท๋ฉด(์ดํญ๋ถํฌ)
โก ์ฐ์ํ๋ฅ ๋ถํฌ(์ฐ์ํ๋ฅ ๋ณ์)
ํ๋ฅ ๋ณ์ X๊ฐ ์ด๋ค ๊ตฌ๊ฐ ์์ ์๋ ๋ชจ๋ ์ค์๊ฐ์ ๊ฐ๋ ๋ถํฌ
ex. ์ ์ฒด ๋จํ์์ ํค, ๋ชธ๋ฌด๊ฒ(๊ท ๋ฑ๋ถํฌ, ์ ๊ท๋ถํฌ)
ํ๋ฅ ๋ถํฌํจ์?
ํ๋ฅ ๋ณ์ X์ ๋ถํฌ๋ฅผ ๋ํ๋ด๋ ํจ์(ํฌ๊ธฐ/๋ฉด์ , ๋ชจ์)
โ ํ๋ฅ ์ง๋ํจ์(PMF : Probability Mess Function)
ํ๋ฅ ์ง๋ํจ์ f(๐ฅ) : ์ด์ฐํ๋ฅ ๋ณ์ X๊ฐ์ ๋ถํฌ๋ฅผ ๋ํ๋ธ ํจ์
์ด์ฐํ๋ฅ ๋ณ์ X๋ฅผ ์ธ์๋ก ๊ฐ๋ ํจ์
์ง๋์ ์ด์ฐํ๋ฅ ๋ณ์ X๊ฐ ๊ฐ๋ ๊ณ ์ ํ ์
ex. ๋์ 1ํ ๋์ ธ์ ์๋ฉด์ด ๋์ฌ ํ๋ฅ : ½(0.5), ์ง๋ : ์๋ฉด:1, ๋ท๋ฉด:0
โก ํ๋ฅ ๋ฐ๋ํจ์(PDF : Probability Density Function)
ํ๋ฅ ๋ฐ๋ํจ์ f(x) : ์ด๋ค ์ฐ์ํ๋ฅ ๋ณ์ X์ ๋ถํฌ๋ฅผ ๋ํ๋ธ ํจ์
ํ๋ฅ ๋ฐ๋๋ถํฌ๊ณก์ : ๊ณ๊ธ์ ํฌ๊ธฐ๋ฅผ ๋ฌดํํ ์๊ฒ ์ชผ๊ฐ์ ๋ถํฌ๋ค๊ฐํ์ ๊ทธ๋ฆด ๋ ๊ทธ๋ ค์ง๋ ๊ณก์ (๊ณก์ ์ ๋ฉด์ = 1)
์ ๋ถ ๋๋ z๋ถํฌํ ์ด์ฉํ์ฌ ํ๋ฅ ์ ๊ณ์ฐ
๋ฐ๋(Density) : ๋จ์ ๋ถํผ๋น ์ง๋ (์ง๋/๋ถํผ)
f(x)์ ํฌ๊ธฐ๋ 'ํ๋ฅ /๋ถํผ'๋ก ํด์ํ์ฌ '๋ฐ๋'๋ผ๋ ์ฉ์ด ์ฌ์ฉ
03. ์ ๊ท๋ถํฌ (=๊ฐ์ฐ์ค ๋ถํฌ)
๊ฐ์ฅ ํํ๊ฒ ๋์ค๋ ์ฐ์ํ๋ฅ ๋ถํฌ์ ์ผ์ข
ํ๋ฅ ๋ถํฌ๊ณก์ (๋์๋ถํฌ๊ณก์ )์ด ํ๊ท ๊ฐ์ ์ค์์ผ๋ก ํ์ฌ ์ข์ฐ๋์นญ์ธ ์ข ๋ชจ์
๋ณ์ : ์ฐ์ ๋ณ์
๋ถํฌ : ํ๊ท ์ ์ค์ฌ์ผ๋ก ์ข์ฐ๋์นญ์ธ ์ข ๋ชจ์
๋ํ๊ฐ : ํ๊ท = ์ค์๊ฐ = ์ต๋น๊ฐ
์๋/์ฒจ๋ : ์๋=0, ์ฒจ๋=0 (๋๋ 3)
* ์๋ : ๋ถํฌ๊ฐ ๊ธฐ์ธ์ด์ง ๋ฐฉํฅ๊ณผ ์ ๋ / ์ฒจ๋ : ๊ฐ์ฅ ๋พฐ์กฑํ ๋ถ๋ถ
๋ชจ์ : ํ์คํธ์ฐจ์ ์ํด ๋ชจ์์ด ๋ฌ๋ผ์ง๋ค
์์น : ํ๊ท ์ ์ํด ์์น๊ฐ ๋ฌ๋ผ์ง๋ค
๋์ด : ์ ๊ท๋ถํฌ์ ์ ์ฒด ๋ฉด์ ์ 1 (ํ๋ฅ = 100%)
* ํ๊ท ๊ณผ ํ์คํธ์ฐจ์ ์ํด์ ์ ๊ท๋ถํฌ ๋ชจ์๊ณผ ์์น๊ฐ ๊ฒฐ์
์ ๊ท๋ถํฌ ํ๋ฅ ๋ฐ๋ํจ์
ํ๊ท ์ ์ค์ฌ์ผ๋ก ์ข์ฐ๋์นญ์ธ ์ข ๋ชจ์(bell shape)
ํ๋ฅ ๋ณ์ ๋ฒ์๊ฐ -∞, +∞)์ด๋ฏ๋ก ๊ณก์ ์ด ์ํ์ถ์ ๋ฟ์ง ์๋๋ค.
๊ณก์ ์๋ ์ ์ฒด ๋ฉด์ (ํ๋ฅ )=1
ํ๊ท ์ด 50, ํธ์ฐจ๊ฐ 5์ธ ๊ทธ๋ํ๋ฅผ ์ ๊ท๋ถํฌ์์ผ๋ก ํํํ๋ฉด N(50, 5^2)
* 55~60 = 32~34 : ํ๊ท ๊ณผ ํ์คํธ์ฐจ์ ๊ด๊ณ์์ด ๋ฉด์ (ํ๋ฅ )์ ๊ฐ๋ค.
04. ํ์ค์ ๊ท๋ถํฌ (=Z๋ถํฌ)
๋ชจ๋ ์ ๊ท๋ถํฌ๋ฅผ ํ๊ท 0๊ณผ ํ์คํธ์ฐจ 1๋ก ํ์คํ(์ ๊ท๋ถํฌ ํ๋ฅ ๊ณ์ฐ ์ฉ์ด)
ํ์คํ ๊ณต์ Z = x-์ฐ์ ํ๊ท /ํ์คํธ์ฐจ
ํ์ค์ ๊ท๋ถํฌํ(=Z๋ถํฌํ)?
์ ๋ถ ์์ด Z๊ฐ์ผ๋ก ํน์ ๊ตฌ๊ฐ์ ๊ณก์ ๋์ด(ํ๋ฅ )๋ฅผ ๊ตฌํ ์ ์๋ค
ํ๊ท ์ด0, ํ์คํธ์ฐจ๊ฐ 1์ธ ๊ทธ๋ํ์ 0๋ถํฐ 1์ฌ์ด์ ๊ตฌ๊ฐ ๋ฉด์ : 0.3413
* ํ๊ท ์ ์ค์ฌ์ผ๋ก ์ข์ฐ๋์นญ์ด๋ฏ๋ก -1๋ถํฐ 0์ ๋ฉด์ ๋ํ 0.3413
ํ๊ท 0์ ๊ธฐ์ค์ผ๋ก ์ข์ฐ ๊ท ๋ฑ(50% + 50%)
ํ๊ท 0์์ ±1 ๋ฒ์ ๋ด ์ ์ฒด์ 68.26% ๊ฐ ์กด์ฌ : P(- 1 < μ < + 1) = 0.6826
ํ๊ท 0์์ ±2 ๋ฒ์ ๋ด ์ ์ฒด์ 95.44% ๊ฐ ์กด์ฌ : P(- 2 < μ < + 2) = 0.9544
ํ๊ท 0์์ ±3 ๋ฒ์ ๋ด ์ ์ฒด์ 99.74% ๊ฐ ์กด์ฌ : P(- 3 < μ < + 3) = 0.9974
* Z๋ถํฌํ ์ฐธ๊ณ
P( 0 < Z < 1) = 0.3413
P( 0 < Z < 2) = 0.4772
P( 0 < Z < 3) = 0.4987
์ ๋ขฐ์์ค VS Z๊ฐ(์ ๋ขฐ๊ตฌ๊ฐ)
95% ์ ๋ขฐ์์ค์ Z๊ฐ = P(-1.96 ≤ ๐ ≤ +๐๐. ๐๐๐๐)
์ ๋ขฐ๊ตฌ๊ฐ = ์ฑํ์ญ
1) ์ ๊ท๋ถํฌ ๋์(ํ๋ฅ ๋ณ์) ์์ฑ
n = 1000 #์์์ ๋์ 1000๊ฐ ์์ฑ
x = rnorm(n, mean=100, sd=5) #์ ๊ท๋ถํฌ์ : n(100,5^2)
hist(x) #ํ๋ฅ ๋ณ์ x์ ๋ํ ํ๋ฅ ๋ถํฌ๋ฅผ ์๊ฐํ
2) ์ ๊ท์ฑ ๊ฒ์
#๊ท๋ฌด๊ฐ์ค(H0) : ์ ๊ท๋ถํฌ์ ์ฐจ์ด๊ฐ ์๋ค (p-value๋ฅผ ๊ทผ๊ฑฐ๋ก ์ฑํ)
#๋๋ฆฝ๊ฐ์ค(H1) : ์ ๊ท๋ถํฌ์ ์ฐจ์ด๊ฐ ์๋ค (๊ธฐ๊ฐ)
shapiro.test(x) #W = 0.99905, p-value = 0.8991 : ์ ์ํ๋ฅ >= ์ ์์์ค(์ํ=0.05)
#p-value(์ ์ํ๋ฅ ) >= ์ํ : ์ฑํ
#p-value(์ ์ํ๋ฅ ) < ์ํ : ๊ธฐ๊ฐ
ํ์ค์ ๊ท๋ถํฌ(z๋ถํฌ)
๋ชจ๋ ์ ๊ท๋ถํฌ๋ฅผ ํ๊ท =0, ํ์คํธ์ฐจ=1 ๋ก ํ์คํํ ๋ถํฌ
ํ์คํ๋ฅผ ์ํด์ ํ์คํ ๊ณต์(z)๋ฅผ ์ด์ฉ
ํ์คํ๊ณต์(Z) = (X - mu) / sigma : ์ ๊ท๋ถํฌ -> ํ์ค์ ๊ท๋ถํฌ *๋ชจํ๊ท mu
1) ํ์คํ๊ณต์ : ํ์ค์ ๊ท๋ถํฌ ๋ณํ
mu = mean(x) #๋ชจํ๊ท
sigma = sd(x) #๋ชจํ์คํธ์ฐจ
z = (x-mu) / sigma
z #ํ์ค์ ๊ท๋ถํฌ๋ก ํ์คํ ๋ ๋์ 1000๊ฐ
hist(z)
mean(z) #0์ ๊ทผ์ฌ๊ฐ
sd(z) #1
2) ํ์คํํจ์
z2 = scale(x) #scale : ํ์คํ๊ณต์= (X - mu) / sigma
hist(z2)
mean(z2)
sd(z2)
3) ํ์คํธ์ฐจ VS ํ๋ฅ ๋ถํฌ
ํธ์ฐจ -1 ~ +1 : 68.26%
ํธ์ฐจ -1.96 ~ + 1.96 : 95% ์ ๋ขฐ์์ค๊ณผ ์ ๋ขฐ๊ตฌ๊ฐ(=์ฑํ์ญ)
ํธ์ฐจ -2 ~ +2 : 95.44%
ํธ์ฐจ -3 ~ +3 : 99.74%
05. ๋ชจ์ง๋จ๊ณผ ํ๋ณธ
โ ์ ์์กฐ์ฌ
๋ชจ์ง๋จ๋ด์ ์๋ ๋ชจ๋ ๋์ ์กฐ์ฌ ๋ฐฉ๋ฒ(ex.์ธ๊ตฌ์กฐ์ฌ)
๋ชจ์ง๋จ์ ํน์ฑ ์ ํํ ๋ฐ์
์๊ฐ๊ณผ ๋น์ฉ์ด ๋ง์ด ์์๋๋ ๋จ์
โก ํ๋ณธ์กฐ์ฌ
๋ชจ์ง๋จ์ผ๋ก๋ถํฐ ์ถ์ถ๋ ํ๋ณธ์ ๋์์ผ๋ก ๋ถ์ ์ค์ (ex.์ ๊ฑฐ ์ฌ๋ก ์กฐ์ฌ, ๋ง์ผํ ์กฐ์ฌ, ์์ ์ฑ ๊ฒ์ฌ, ์์๋ช ์์์คํ)
๋ชจ์ง๋จ์ ํน์ฑ์ ๋ฐ์ํ์ง ๋ชปํ๋ ํ๋ณธ์ ๋ฌด์ฉ์ง๋ฌผ
* ํ๋ณธ์ ํต๊ณ๋์ผ๋ก ๋ชจ์๋ฅผ ์ถ์ ํ๋ค.
06. ์ถ์ ๊ณผ ๊ฒ์
07. ํ๋ณธ์ ํ๋ฅ ๋ถํฌ