๋ฐ์ดํ„ฐ๋ถ„์„๊ฐ€ ๊ณผ์ •/R

DAY17. R ํ†ต๊ณ„๋ถ„์„์ ˆ์ฐจ, ํ†ต๊ณ„๊ธฐ๋ณธ์ง€์‹

LEE_BOMB 2021. 10. 7. 17:23
ํ†ต๊ณ„๋ถ„์„์ ˆ์ฐจ

00. ์—ฐ๊ตฌ์กฐ์‚ฌ

์—ฐ๊ตฌ๋ฌธ์ œ ์„ ์ • > ์˜ˆ๋น„์กฐ์‚ฌ > ์—ฐ๊ตฌ๋ชจํ˜• (ํ†ต๊ณ„๋ถ„์„ ์ ˆ์ฐจ)

 

 

 

01. ๊ฐ€์„ค ์„ค์ •

๊ฐ€์„ค? ์–ด๋–ค ๋ช…์ œ๋ฅผ ์‚ฌ์‹ค์ด๋ผ๊ณ  ์ถ”๋ก 

 

๋ฌธ์ œ๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ๋ฏธ๋ฆฌ ์„ธ์šด ๊ฒฐ๋ก 

์ฃผ์–ด์ง„ ์—ฐ๊ตฌ ๋ฌธ์ œ์— ๋Œ€ํ•œ ์˜ˆ์ธก์  ํ•ด๋‹ต (=์ž ์ •์  ์ง„์ˆ )

ํ†ต๊ณ„๋ถ„์„์„ ํ†ตํ•ด ์ฑ„ํƒor๊ธฐ๊ฐ (=ํ†ต๊ณ„์  ๊ฐ€์„ค๊ฒ€์ •)

 

* ํ†ต๊ณ„์  ๊ฐ€์„ค๊ฒ€์ • : ๋ณธ์—์„œ ์–ป์€ ์ •๋ณด๋ฅผ ํ†ตํ•ด ๊ท€๋ฌด๊ฐ€์„คor๋Œ€๋ฆฝ๊ฐ€์„ค ์ค‘ ์–ด๋–ค ๊ฐ€์„ค์ด ์˜ณ๊ณ  ๊ทธ๋ฅธ์ง€๋ฅผ ํŒ๋‹จ

ex) ์ฃผ์š” 10๊ฐœ ๋„์‹œ๋ฅผ ๋Œ€์ƒ์œผ๋กœ ๊ฐ๊ฐ n๋ช…์”ฉ ํ‘œ๋ณธ์„ ์„ ์ •ํ•ด ํ‰๊ท  ํ‚ค๋ฅผ ๊ณ„์‚ฐ

 

๊ฐ€์„ค ์œ ํ˜•
๊ท€๋ฌด๊ฐ€์„ค(์˜๊ฐ€์„ค) : H0 ๋Œ€๋ฆฝ๊ฐ€์„ค(์—ฐ๊ตฌ๊ฐ€์„ค) : H1
๋ถ€์ •์  ํ˜•ํƒœ๋กœ ๊ฐ€์ •๋œ ๊ฐ€์„ค
'๋‘ ๋ณ€์ˆ˜ ๊ฐ„ ๊ด€๊ณ„๊ฐ€ ์—†๋‹ค', '์ฐจ์ด๊ฐ€ ์—†๋‹ค', 'ํšจ๊ณผ๊ฐ€ ์—†๋‹ค'
๊ธ์ •์  ํ˜•ํƒœ๋กœ ๊ฐ€์ •๋œ ๊ฐ€์„ค
'๋‘ ๋ณ€์ˆ˜ ๊ฐ„ ๊ด€๊ณ„๊ฐ€ ์žˆ๋‹ค', '์ฐจ์ด๊ฐ€ ์žˆ๋‹ค', 'ํšจ๊ณผ๊ฐ€ ์žˆ๋‹ค'

* ๋ชจ๋“  ๊ฐ€์„ค์€ ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ์ค€์œผ๋กœ ๊ฐ€์„ค ๊ฒ€์ •์„ ์ˆ˜ํ–‰

๊ท€๋ฌด๊ฐ€์„ค์ด ์ฑ„ํƒ๋˜์ง€ ์•Š์œผ๋ฉด ๊ธฐ๊ฐ ํ›„ ๋Œ€๋ฆฝ๊ฐ€์„ค ์ˆ˜ํ–‰

 

 

 

02. ์œ ์˜์ˆ˜์ค€(=์‹ ๋ขฐ์ˆ˜์ค€) ์„ค์ •

์œ ์˜์ˆ˜์ค€? ๊ท€๋ฌด๊ฐ€์„ค ์ฑ„ํƒor๊ธฐ๊ฐ์˜ ๊ธฐ์ค€(์ž„๊ณ„๊ฐ’)

 

์•ŒํŒŒ(α)๊ฐ’ : ๊ฐ€์„ค์„ ์‹ ๋ขฐํ•  ์ˆ˜ ์—†๋Š” ํ™•๋ฅ (=๊ฒฝ๊ณ„๊ฐ’) ex)α=0.05

์‹ ๋ขฐ์ˆ˜์ค€(1-α) : ๊ฐ€์„ค์„ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ํ™•๋ฅ 

* ํ†ต์ƒ์ ์œผ๋กœ ์‹ ๋ขฐ์ˆ˜์ค€์€ 0.95(95%)๋กœ ์„ค์ •

* ์•ŒํŒŒα์™€ ์‹ ๋ขฐ์ˆ˜์ค€์€ ์„œ๋กœ ๋ฐ˜๋น„๋ก€์˜ ํ™•๋ฅ 

 

์œ ์˜์ˆ˜์ค€ ์ด๋‚ด : ๊ท€๋ฌด๊ฐ€์„ค ์ฑ„ํƒ

์œ ์˜์ˆ˜์ค€ ์ด์ƒ : ๊ท€๋ฌด๊ฐ€์„ค ๊ธฐ๊ฐ

 

 

์œ ์˜์ˆ˜์ค€ ๊ฒฐ์ •

<๊ฐ€์„ค1>
"H0 : ์‹ ์•ฝ A๋Š” A์•” ์น˜๋ฃŒ์— ํšจ๊ณผ๊ฐ€ ์—†๋‹ค."

์ผ๋ฐ˜ ์‚ฌํšŒ๊ณผํ•™ ๋ถ„์•ผ : α=0.05 (5%)

ํ‘œ๋ณธ ํ†ต๊ณ„๊ฐ€ ๋ชจ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํ—ˆ์šฉ ์˜ค์ฐจ 5%

ex) 100๋งˆ๋ฆฌ ์ค‘์—์„œ 5๋งˆ๋ฆฌ ๋ฏธ๋งŒ์œผ๋กœ ์น˜๋ฃŒ ํšจ๊ณผ๊ฐ€ ์—†๋Š” ๊ฒฝ์šฐ H0 ๊ธฐ๊ฐ

 

์ƒ๋ช…๋ถ„์•ผ : α=0.01 (1%)

ํ—ˆ์šฉ ์˜ค์ฐจ 1%

ex) 100๋งˆ๋ฆฌ ์ค‘์—์„œ 1๋งˆ๋ฆฌ ๋ฏธ๋งŒ์œผ๋กœ ์น˜๋ฃŒ ํšจ๊ณผ๊ฐ€ ์—†๋Š” ๊ฒฝ์šฐ H0 ๊ธฐ๊ฐ

 

<๊ฐ€์„ค2>
"H1 : ์‹ ์•ฝA๋Š” ์•”A ์น˜๋ฃŒ์— ํšจ๊ณผ๊ฐ€ ์žˆ๋‹ค."
"H0 : ์‹ ์•ฝA๋Š” ์•”A ์น˜๋ฃŒ์— ํšจ๊ณผ๊ฐ€ ์—†๋‹ค."

<๋ฌธ์ œ>

์ƒ์ฅ 100๋งˆ๋ฆฌ๋ฅผ ๋Œ€์ƒ์œผ๋กœ ์‹ ์•ฝA๋ฅผ ํˆฌ์•ฝํ•œ ๊ฒฐ๊ณผ, ํšจ๊ณผ๊ฐ€ ์žˆ๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚œ ํ™•๋ฅ (=์œ ์˜ํ™•๋ฅ )์€ P=0.03์ด ๋‚˜์™”๋‹ค.

์ด๋•Œ α=5%์—์„œ ๊ท€๋ฌด๊ฐ€์„ค์€ ์ฑ„ํƒ๋˜๋Š”๊ฐ€ ๊ธฐ๊ฐ๋˜๋Š”๊ฐ€?

A. 100๋งˆ๋ฆฌ ์ค‘ 3๋งˆ๋ฆฌ์—๊ฒŒ๋Š” ํšจ๊ณผ๊ฐ€ ์—†์—ˆ๋‹ค. ๊ท€๋ฌด๊ฐ€์„ค์€ ๊ธฐ๊ฐ๋˜๊ณ , ๋Œ€๋ฆฝ๊ฐ€์„ค์ด ์ž๋™์œผ๋กœ ์ฑ„ํƒ๋œ๋‹ค.

 

 

์œ ์˜์ˆ˜์ค€(α) VS ์œ ์˜ํ™•๋ฅ (P)

P ≥ α : ๊ท€๋ฌด๊ฐ€์„ค ์ฑ„ํƒ (๋Œ€๋ฆฝ๊ฐ€์„ค ๊ธฐ๊ฐ)
P < α : ๊ท€๋ฌด๊ฐ€์„ค ๊ธฐ๊ฐ (๋Œ€๋ฆฝ๊ฐ€์„ค ์ฑ„ํƒ. ์‹ค์ œ ํ†ต๊ณ„๊ณผ์ •์— ์˜๋ฏธ๊ฐ€ ์žˆ์Œ.)

์œ ์˜ํ™•๋ฅ (P-value) : ๊ฒ€์ •ํ†ต๊ณ„๋Ÿ‰์— ์˜ํ•ด ๊ตฌํ•ด์ง„ ๊ฐ’ (=๊ท€๋ฌด๊ฐ€์„ค์„ ์ง€์ง€ํ•  ์ˆ˜ ์žˆ๋Š” ํ™•๋ฅ )

์œ ์˜์ˆ˜์ค€(α) : P-value๋ฅผ ์–ผ๋งˆ๋‚˜ ์œ ์˜ํ•˜๋‹ค๊ณ  ๊ฒฐ์ •ํ•  ์ˆ˜ ์žˆ๋Š” ์ž„๊ณ„๊ฐ’

* ์œ ์˜ํ™•๋ฅ ์ด ์œ ์˜์ˆ˜์ค€๋ณด๋‹ค ์ ์œผ๋ฉด ‘ํ†ต๊ณ„์ ์œผ๋กœ ์œ ์˜ํ•˜๋‹ค.’

 

H0 : ‘์˜์–‘์†Œ๋ณ„ ํšจ๊ณผ์˜ ์ฐจ์ด๋Š” ์—†๋‹ค’์—์„œ ์œ ์˜์ˆ˜์ค€์ด α=0.05 ์ผ ๋•Œ, ์œ ์˜ํ™•๋ฅ ์ด p-value=0.04๊ฐ€ ๋‚˜์™”๋‹ค๋ฉด, p(0.04) < α(0.05) โžฉ ๊ท€๋ฌด๊ฐ€์„ค(์˜๊ฐ€์„ค) ๊ธฐ๊ฐ

์˜์–‘์†Œ๋ณ„ ํšจ๊ณผ์˜ ์ฐจ์ด๊ฐ€ ์—†์„ ํ™•๋ฅ ์ด ๋‚ฎ๊ธฐ ๋•Œ๋ฌธ์— ๋Œ€๋ฆฝ๊ฐ€์„ค ์ฑ„ํƒ.

์ด๋•Œ ‘ํ†ต๊ณ„์ ์œผ๋กœ ์œ ์˜ํ•˜๋‹ค.’๋ผ๊ณ  ํ•ด์„, p<0.01์ด๋ฉด ๋งค์šฐ ์œ ์˜ํ•˜๋‹ค.

 

p<0.05 ์ˆ˜์ค€์ด๋ฉด ํ†ต๊ณ„์ ์œผ๋กœ ์œ ์˜์ ์ธ ์ฐจ์ด๋ฅผ ๋ณด์ธ๋‹ค.

BUT! ๋‹จ์ •์ ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์—†๋‹ค. (P value๊ฐ’์ด ๋ชจ์ง‘๋‹จ์ด ์•„๋‹Œ ํ‘œ๋ณธ์—์„œ ์ถ”์ถœ๋œ ๊ฐ’์ด๋ฏ€๋กœ)

 

์œ ์˜์ˆ˜์ค€VS์œ ์˜ํ™•๋ฅ 
์œ ์˜์ˆ˜์ค€(α) ์œ ์˜ํ™•๋ฅ (P-value)
๊ฐ€์„ค ๊ฒ€์ • ์‹œ, ํ—ˆ์šฉ ๊ฐ€๋Šฅํ•œ 1์ข… ์˜ค๋ฅ˜์˜ ์ตœ๋Œ€์น˜
ํ†ต์ƒ 0.05%
๊ด€์ธก๋œ ํ‘œ๋ณธ์˜ ๊ฒฐ๊ณผ๊ฐ€ ๊ท€๋ฌด๊ฐ€์„ค์„ ์ง€์ง€ํ•˜๋Š” ์ •๋„์˜ ํ™•๋ฅ 
์—ฐ๊ตฌ์ž๊ฐ€ ์„ธ์šด ๊ท€๋ฌด๊ฐ€์„ค์˜ ์ฑ„ํƒor๊ธฐ๊ฐ ์—ฌ๋ถ€๋ฅผ ํŒ๋‹จํ•˜๋Š” ๊ธฐ์ค€ ์œ ์˜์ˆ˜์ค€๊ณผ ๋น„๊ตํ•ด์„œ
๊ท€๋ฌด๊ฐ€์„ค์˜ ์ฑ„ํƒor๊ธฐ๊ฐ ์—ฌ๋ถ€๋ฅผ ํŒ๋‹จํ•˜๋Š” ํ™•๋ฅ 

 

 

๊ฐ€์„ค๊ฒ€์ • ์˜ค๋ฅ˜

์ œ1์ข… ์˜ค๋ฅ˜ : ๊ท€๋ฌด๊ฐ€์„ค์ด ์ฐธ์ธ๋ฐ, ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ๊ฐํ•˜๋Š” ์˜ค๋ฅ˜

์ œ2์ข… ์˜ค๋ฅ˜ : ๊ท€๋ฌด๊ฐ€์„ค์ด ๊ฑฐ์ง“์ด๋ฐ, ๊ท€๋ฌด๊ฐ€์„ค์„ ์ฑ„ํƒํ•˜๋Š” ์˜ค๋ฅ˜

  ๊ท€๋ฌด๊ฐ€์„ค ์ฐธ ๊ท€๋ฌด๊ฐ€์„ค ๊ฑฐ์ง“
๊ท€๋ฌด๊ฐ€์„ค ์ฑ„ํƒ ์˜ณ์€ ๊ฒฐ์ •(1-α) ์ œ2์ข… ์˜ค๋ฅ˜(β)
๋Œ€๋ฆฝ๊ฐ€์„ค ์ฑ„ํƒ ์ œ1์ข… ์˜ค๋ฅ˜(α) ์˜ณ์€ ๊ฒฐ์ •(1-β)

α : ์ œ1์ข… ์˜ค๋ฅ˜ ๋ฐœ์ƒ ํ™•๋ฅ  = ์œ ์˜์ˆ˜์ค€(α)

β : ์ œ2์ข… ์˜ค๋ฅ˜ ๋ฐœ์ƒ ํ™•๋ฅ 

* ํ•„์ˆ˜์ ์œผ๋กœ ๋ฐœ์ƒํ•˜๋Š” ์˜ค๋ฅ˜์ด์ง€๋งŒ, ๋‘ ๊ฐ€์ง€ ๋ชจ๋‘๊ฐ€ ์ž‘์€ ๊ฒฝ์šฐ๊ฐ€ ๋ฐ”๋žŒ์งํ•จ

* ์ œ1์ข… ์˜ค๋ฅ˜์™€ ์ œ2์ข… ์˜ค๋ฅ˜๋Š” ์„œ๋กœ ์—ญ์˜ ๊ด€๊ณ„

* ์œ ์˜์ˆ˜์ค€(=์ž„๊ณ„๊ฐ’,α)์ด ์ปค์ง€๋ฉด ์ฑ„ํƒ์—ญ์ด ์ข์•„์ ธ ์ œ1์ข… ์˜ค๋ฅ˜๊ฐ€ ์ปค์ง€๊ณ , ๋ฐ˜๋ฉด ๊ธฐ๊ฐ์—ญ์ด ๋Š˜์–ด๋‚˜๋ฏ€๋กœ 2์ข… ์˜ค๋ฅ˜๋Š” ์ž‘์•„์ง„๋‹ค.

 

[๋ฌธ์ œ] ์ œ1์ข… ์˜ค๋ฅ˜ VS ์ œ2์ข… ์˜ค๋ฅ˜ ์ค‘ ๋” ์น˜๋ช…์ ์ธ ๊ฒƒ์€? ex) ์ฝ”๋กœ๋‚˜19 ์ง„๋‹จํ‚คํŠธ ์˜ค๋ฅ˜
1) ๋ฐ”์ด๋Ÿฌ์Šค๊ฐ€ ์žˆ๋Š”๋ฐ, ์—†๋‹ค๊ณ  ํ•œ ๊ฒฝ์šฐ : 2์ข… ์˜ค๋ฅ˜
2) ๋ฐ”์ด๋Ÿฌ์Šค๊ฐ€ ์—†๋Š”๋ฐ, ์žˆ๋‹ค๊ณ  ํ•œ ๊ฒฝ์šฐ : 1์ข… ์˜ค๋ฅ˜ (๊ท€๋ฌด๊ฐ€์„ค(๋ถ€์ •์–ด๋กœ ๊ฐ€์ •)ํ–ˆ๋Š”๋ฐ, ์ฑ„ํƒX)
์ •๋‹ต : 2์ข… ์˜ค๋ฅ˜

[๋ฌธ์ œ] ์–ด๋–ค ๋ชจ์ง‘๋‹จ์˜ ๋ถ„ํฌ๊ฐ€ ์ •๊ทœ๋ถ„ํฌ N(50, 102)์„ ๋”ฐ๋ฅด๊ณ , ์•„๋ž˜์™€ ๊ฐ™์€ ์ •๊ทœ๋ถ„ํฌ์˜ ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜ f(x)์˜ ๊ทธ๋ž˜ํ”„์—์„œ 44~48 ์‚ฌ์ด์ผ ํ™•๋ฅ ์€?

z = (44-50)/10 #z = 0.6 = ๋ถ„ํฌํ‘œ 0.2257
z2 = (48-50)/10 #z2 = -0.2 = ๋ถ„ํฌํ‘œ 0.0793

#P(-0.6 < z < -0.2)
p = 0.2257-0.0793
p #0.1464

 

 

 

03. ์ธก์ •๋„๊ตฌ ์„ ์ •

๊ฐ€์„ค์— ๋‚˜์˜ค๋Š” ๋ณ€์ˆ˜๋ฅผ ๋ฌด์—‡์œผ๋กœ ์ธก์ •ํ•  ๊ฒƒ์ธ๊ฐ€๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๋‹จ๊ณ„

 

๊ฐ€์„ค์— ๋‚˜์˜ค๋Š” ๋ณ€์ˆ˜(๋ณ€์ธ) ์ถ”์ถœ

๋ณ€์ˆ˜์˜ ์ฒ™๋„๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ์ธก์ •๋„๊ตฌ ์„ ์ •

 

 

 

04. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘(์„ค๋ฌธ์ง€ ์ž‘์„ฑ), ์„ ์ •๋œ ์ธก์ •๋„๊ตฌ๋ฅผ ์ด์šฉํ•˜์—ฌ ์„ค๋ฌธ ๋ฌธํ•ญ ์ž‘์„ฑ ๋‹จ๊ณ„

 

์กฐ์‚ฌ์‘๋‹ต์ž ๋Œ€์ƒ ์„ค๋ฌธ ์‹ค์‹œ & ํšŒ์ˆ˜

์ •ํ˜•/๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘(DB, WEB, SNS ๋“ฑ )

๋ณธ ๋‹จ๊ณ„๊นŒ์ง€ ์™„๋ฃŒ๋œ ๊ฒฝ์šฐ

์—ฐ๊ตฌ๋ชฉ์ ๊ณผ ๋ฐฐ๊ฒฝ, ์—ฐ๊ตฌ๋ชจํ˜•, ์—ฐ๊ตฌ๊ฐ€์„ค๊นŒ์ง€ ๋๋‚œ ์ƒํƒœ

 

 

 

05. ๋ฐ์ดํ„ฐ(์„ค๋ฌธ์ง€) ์ฝ”๋”ฉ

ํ†ต๊ณ„๋ถ„์„ ํ”„๋กœ๊ทธ๋žจ(Excel, R, SPSS, SAS, Python) ๋ฐ์ดํ„ฐ ์ž…๋ ฅ

๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ(๋ฏธ ์‘๋‹ต์ž, ์ž˜๋ชป๋œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ

 

 

 

06. ํ†ต๊ณ„๋ถ„์„ ์ˆ˜ํ–‰

ํ†ต๊ณ„๋ถ„์„ ํ”„๋กœ๊ทธ๋žจ(R, SPSS, SAS) ์ด์šฉ ๋ถ„์„ ๋‹จ๊ณ„

* ํ†ต๊ณ„๋ถ„์„ ๋ฐฉ๋ฒ•์„ ๊ณ„ํšํ•˜์ง€ ์•Š๊ณ  ์ž๋ฃŒ๋ฅผ ์ˆ˜์ง‘ํ•  ๊ฒฝ์šฐ ์‹คํŒจ ํ™•๋ฅ  ๋†’์Œ

 

 

 

07. ๊ฒฐ๊ณผ๋ถ„์„ ์ œ์‹œ

์—ฐ๊ตฌ๋ชฉ์ ๊ณผ ์—ฐ๊ตฌ๊ฐ€์„ค์— ๋Œ€ํ•œ ๋ถ„์„ ๋ฐ ๊ฐ€์„ค๊ฒ€์ฆ ๋‹จ๊ณ„

 

์ธ๊ตฌํ†ต๊ณ„ํ•™์  ํŠน์„ฑ ๋ฐ˜์˜

์ฃผ์š” ๋ณ€์ธ์— ๋Œ€ํ•œ ๊ธฐ์ˆ ํ†ต๊ณ„๋Ÿ‰ ์ œ์‹œ

์—ฐ๊ตฌ๊ฐ€์„ค์— ๋Œ€ํ•œ ํ†ต๊ณ„๋Ÿ‰ ๊ฒ€์ • ๋ฐ ํ•ด์„

์—ฐ๊ตฌ์ž ์˜๊ฒฌ ๊ธฐ์ˆ (๋…ผ๋ฌธ/๋ณด๊ณ ์„œ ์ž‘์„ฑ)

 

 

 

 

 

 

ํ†ต๊ณ„๊ธฐ๋ณธ์ง€์‹

01. ํ†ต๊ณ„ํ•™(Statistics)?

๋…ผ๋ฆฌ์  ์‚ฌ๊ณ ์™€ ๊ฐ๊ด€์ ์ธ ์‚ฌ์‹ค์— ์˜๊ฑฐ, ํ™•๋ฅ  ๊ธฐ๋ฐ˜ ์ธ๊ณผ๊ด€๊ณ„ ๊ทœ๋ช…. ํŠนํžˆ ์—ฐ๊ตฌ๋ชฉ์ ์— ์˜ํ•ด ์„ค์ •๋œ ๊ฐ€์„ค๋“ค์— ๋Œ€ํ•˜์—ฌ ๋ถ„์„๊ฒฐ๊ณผ๊ฐ€ ์–ด๋–ค ๊ฒฐ๊ณผ๋ฅผ ๋’ท๋ฐ›์นจํ•˜๊ณ  ์žˆ๋Š”์ง€๋ฅผ ํ†ต๊ณ„์  ๋ฐฉ๋ฒ•์œผ๋กœ ๊ฒ€์ •

  ๊ธฐ์ˆ (Descriptive) ํ†ต๊ณ„ํ•™ ์ถ”๋ก (Inferential) ํ†ต๊ณ„
๊ธฐ๋Šฅ ์ˆ˜์ง‘๋œ ์ž๋ฃŒ์˜ ํŠน์„ฑ์„ ์‰ฝ๊ฒŒ ํŒŒ์•…ํ•˜๊ธฐ ์œ„ํ•ด
์ž๋ฃŒ๋ฅผ ์ •๋ฆฌ ๋ฐ ์š”์•ฝ
๋ชจ์ง‘๋‹จ์—์„œ ์ถ”์ถœํ•œ ํ‘œ๋ณธ์˜ ์ •๋ณด๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ชจ์ง‘๋‹จ์˜ ํŠน์„ฑ์„ ๊ณผํ•™์ ์œผ๋กœ ์ถ”๋ก ํ•˜๊ณ , ๊ฒฐ๊ณผ์— ๋Œ€ํ•œ ์‹ ๋ขฐ์„ฑ ๊ฒ€์ •
๋ฐฉ๋ฒ• ํ‘œ, ๊ทธ๋ž˜ํ”„, ๋Œ€ํ‘ฏ๊ฐ’ ํšŒ๊ท€๋ถ„์„, T-๊ฒ€์ •, ๋ถ„์‚ฐ๋ถ„์„

 

 

 

02. ํ™•๋ฅ ๋ถ„ํฌ

ํ™•๋ฅ ๋ณ€์ˆ˜? ์ผ์ •ํ•œ ํ™•๋ฅ (๊ฐ’)์„ ๊ฐ–๋Š” ๋ณ€์ˆ˜, ํ™•๋ฅ  ์‹คํ—˜์—์„œ ์–ป์–ด์ง„ ๊ฐ’

 

ํ™•๋ฅ ์˜ ๋ฒ”์œ„ : 0 <= P(X) <= 1 (0~1 ์‚ฌ์ด์˜ ์ž„์˜๊ฐ’)

ํ™•๋ฅ ์˜ ์ „์ฒด ํ•ฉ : 1

ํ™•๋ฅ ์˜ ์ „์‚ฌ๊ฑด : ํ™•๋ฅ ๋ณ€์ˆ˜๋Š” ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ์‚ฌ๊ฑด(ํ™•๋ฅ ๊ฐ’)์„ ํฌํ•จํ•œ๋‹ค.

ํ™•๋ฅ ์˜ ๋ฐฐ๋ฐ˜์‚ฌ๊ฑด : ํ™•๋ฅ ๋ณ€์ˆ˜๋Š” ๋™์‹œ์— ์ผ์–ด๋‚˜์ง€ ์•Š๋Š”๋‹ค. ex.๋™์ „์„ ๋˜์กŒ์„ ๋•Œ, ์•ž๋ฉด๊ณผ ๋’ท๋ฉด์ด ๋™์‹œ์— ๋‚˜์˜ฌ ์ˆ˜๋Š” ์—†์Œ

 

 

ํ™•๋ฅ ๋ถ„ํฌ?

ํ™•๋ฅ ๋ณ€์ˆ˜ X๊ฐ€ ํŠน์ •ํ•œ ๊ฐ’์„ ๊ฐ€์งˆ ํ™•๋ฅ  ๋ถ„ํฌ

= ์ดํ•ญ๋ถ„ํฌ(๋ง‰๋Œ€ ๊ทธ๋ž˜ํ”„)

์ •๊ทœ๋ถ„ํฌ, ์นด์ด์ œ๊ณฑ๋ถ„ํฌ = ์—ฐ์†ํ˜• ๋ณ€์ˆ˜ (๊ณก์„  ๊ทธ๋ž˜ํ”„)

 

โ‘  ์ด์‚ฐํ™•๋ฅ ๋ถ„ํฌ(์ด์‚ฐํ™•๋ฅ ๋ณ€์ˆ˜)

ํ™•๋ฅ ๋ณ€์ˆ˜ X๊ฐ€ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š” ๊ฐ’์ด ์…€ ์ˆ˜ ์žˆ๋Š” ์ง‘ํ•ฉ

ex. ์ฃผ์‚ฌ์œ„๋ฅผ ๋˜์กŒ์„ ๋•Œ ๋‚˜์˜ค๋Š” ์ˆ˜, ๋™์ „์˜ ์•ž๋ฉด/๋’ท๋ฉด(์ดํ•ญ๋ถ„ํฌ)

 

โ‘ก ์—ฐ์†ํ™•๋ฅ ๋ถ„ํฌ(์—ฐ์†ํ™•๋ฅ ๋ณ€์ˆ˜)

ํ™•๋ฅ ๋ณ€์ˆ˜ X๊ฐ€ ์–ด๋–ค ๊ตฌ๊ฐ„ ์•ˆ์— ์žˆ๋Š” ๋ชจ๋“  ์‹ค์ˆ˜๊ฐ’์„ ๊ฐ–๋Š” ๋ถ„ํฌ

ex. ์ „์ฒด ๋‚จํ•™์ƒ์˜ ํ‚ค, ๋ชธ๋ฌด๊ฒŒ(๊ท ๋“ฑ๋ถ„ํฌ, ์ •๊ทœ๋ถ„ํฌ)

 

 

ํ™•๋ฅ ๋ถ„ํฌํ•จ์ˆ˜?

ํ™•๋ฅ ๋ณ€์ˆ˜ X์˜ ๋ถ„ํฌ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํ•จ์ˆ˜(ํฌ๊ธฐ/๋ฉด์ , ๋ชจ์–‘)

 

โ‘  ํ™•๋ฅ ์งˆ๋Ÿ‰ํ•จ์ˆ˜(PMF : Probability Mess Function)

ํ™•๋ฅ ์งˆ๋Ÿ‰ํ•จ์ˆ˜ f(๐‘ฅ) : ์ด์‚ฐํ™•๋ฅ ๋ณ€์ˆ˜ X๊ฐ’์˜ ๋ถ„ํฌ๋ฅผ ๋‚˜ํƒ€๋‚ธ ํ•จ์ˆ˜

์ด์‚ฐํ™•๋ฅ ๋ณ€์ˆ˜ X๋ฅผ ์ธ์ˆ˜๋กœ ๊ฐ–๋Š” ํ•จ์ˆ˜

์งˆ๋Ÿ‰์€ ์ด์‚ฐํ™•๋ฅ ๋ณ€์ˆ˜ X๊ฐ€ ๊ฐ–๋Š” ๊ณ ์œ ํ•œ ์–‘

ex. ๋™์ „ 1ํšŒ ๋˜์ ธ์„œ ์•ž๋ฉด์ด ๋‚˜์˜ฌ ํ™•๋ฅ  : ½(0.5), ์งˆ๋Ÿ‰ : ์•ž๋ฉด:1, ๋’ท๋ฉด:0

 

โ‘ก ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜(PDF : Probability Density Function)

ex. ์ „๊ตญ ๋‚จํ•™์ƒ ํ‚ค ํ™•๋ฅ ๋ฐ€๋„๋ถ„ํฌ๊ณก์„ 

ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜ f(x) : ์–ด๋–ค ์—ฐ์†ํ™•๋ฅ ๋ณ€์ˆ˜ X์˜ ๋ถ„ํฌ๋ฅผ ๋‚˜ํƒ€๋‚ธ ํ•จ์ˆ˜

ํ™•๋ฅ ๋ฐ€๋„๋ถ„ํฌ๊ณก์„  : ๊ณ„๊ธ‰์˜ ํฌ๊ธฐ๋ฅผ ๋ฌดํ•œํžˆ ์ž‘๊ฒŒ ์ชผ๊ฐœ์„œ ๋ถ„ํฌ๋‹ค๊ฐํ˜•์„ ๊ทธ๋ฆด ๋•Œ ๊ทธ๋ ค์ง€๋Š” ๊ณก์„ (๊ณก์„ ์˜ ๋ฉด์  = 1)

 

์ ๋ถ„ ๋˜๋Š” z๋ถ„ํฌํ‘œ ์ด์šฉํ•˜์—ฌ ํ™•๋ฅ ์„ ๊ณ„์‚ฐ

๋ฐ€๋„(Density) : ๋‹จ์œ„ ๋ถ€ํ”ผ๋‹น ์งˆ๋Ÿ‰ (์งˆ๋Ÿ‰/๋ถ€ํ”ผ)

f(x)์˜ ํฌ๊ธฐ๋Š” 'ํ™•๋ฅ /๋ถ€ํ”ผ'๋กœ ํ•ด์„ํ•˜์—ฌ '๋ฐ€๋„'๋ผ๋Š” ์šฉ์–ด ์‚ฌ์šฉ

 

 

 

03. ์ •๊ทœ๋ถ„ํฌ (=๊ฐ€์šฐ์Šค ๋ถ„ํฌ)

๊ฐ€์žฅ ํ”ํ•˜๊ฒŒ ๋‚˜์˜ค๋Š” ์—ฐ์†ํ™•๋ฅ ๋ถ„ํฌ์˜ ์ผ์ข…

ํ™•๋ฅ ๋ถ„ํฌ๊ณก์„ (๋„์ˆ˜๋ถ„ํฌ๊ณก์„ )์ด ํ‰๊ท ๊ฐ’์„ ์ค‘์•™์œผ๋กœ ํ•˜์—ฌ ์ขŒ์šฐ๋Œ€์นญ์ธ ์ข… ๋ชจ์–‘

 

๋ณ€์ˆ˜ : ์—ฐ์† ๋ณ€์ˆ˜

๋ถ„ํฌ : ํ‰๊ท ์„ ์ค‘์‹ฌ์œผ๋กœ ์ขŒ์šฐ๋Œ€์นญ์ธ ์ข… ๋ชจ์–‘

๋Œ€ํ‘œ๊ฐ’ : ํ‰๊ท  = ์ค‘์•™๊ฐ’ = ์ตœ๋นˆ๊ฐ’

์™œ๋„/์ฒจ๋„ : ์™œ๋„=0, ์ฒจ๋„=0 (๋˜๋Š” 3)

* ์™œ๋„ : ๋ถ„ํฌ๊ฐ€ ๊ธฐ์šธ์–ด์ง„ ๋ฐฉํ–ฅ๊ณผ ์ •๋„ / ์ฒจ๋„ : ๊ฐ€์žฅ ๋พฐ์กฑํ•œ ๋ถ€๋ถ„

๋ชจ์–‘ : ํ‘œ์ค€ํŽธ์ฐจ์— ์˜ํ•ด ๋ชจ์–‘์ด ๋‹ฌ๋ผ์ง„๋‹ค

์œ„์น˜ : ํ‰๊ท ์— ์˜ํ•ด ์œ„์น˜๊ฐ€ ๋‹ฌ๋ผ์ง„๋‹ค

๋„“์ด : ์ •๊ทœ๋ถ„ํฌ์˜ ์ „์ฒด ๋ฉด์ ์€ 1 (ํ™•๋ฅ  = 100%)

* ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ์— ์˜ํ•ด์„œ ์ •๊ทœ๋ถ„ํฌ ๋ชจ์–‘๊ณผ ์œ„์น˜๊ฐ€ ๊ฒฐ์ •

 

 

์ •๊ทœ๋ถ„ํฌ ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜

ํ‰๊ท ์„ ์ค‘์‹ฌ์œผ๋กœ ์ขŒ์šฐ๋Œ€์นญ์ธ ์ข…๋ชจ์–‘(bell shape)

ํ™•๋ฅ ๋ณ€์ˆ˜ ๋ฒ”์œ„๊ฐ€ -∞, +∞)์ด๋ฏ€๋กœ ๊ณก์„ ์ด ์ˆ˜ํ‰์ถ•์— ๋‹ฟ์ง€ ์•Š๋Š”๋‹ค.

๊ณก์„  ์•„๋ž˜ ์ „์ฒด ๋ฉด์ (ํ™•๋ฅ )=1

 

ํ‰๊ท ์ด 50, ํŽธ์ฐจ๊ฐ€ 5์ธ ๊ทธ๋ž˜ํ”„๋ฅผ ์ •๊ทœ๋ถ„ํฌ์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด N(50, 5^2)

* 55~60 = 32~34 : ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ์— ๊ด€๊ณ„์—†์ด ๋ฉด์  (ํ™•๋ฅ )์€ ๊ฐ™๋‹ค.

 

 

 

04. ํ‘œ์ค€์ •๊ทœ๋ถ„ํฌ (=Z๋ถ„ํฌ)

๋ชจ๋“  ์ •๊ทœ๋ถ„ํฌ๋ฅผ ํ‰๊ท  0๊ณผ ํ‘œ์ค€ํŽธ์ฐจ 1๋กœ ํ‘œ์ค€ํ™”(์ •๊ทœ๋ถ„ํฌ ํ™•๋ฅ  ๊ณ„์‚ฐ ์šฉ์ด)

ํ‘œ์ค€ํ™” ๊ณต์‹ Z = x-์‚ฐ์ˆ ํ‰๊ท /ํ‘œ์ค€ํŽธ์ฐจ

 

 

ํ‘œ์ค€์ •๊ทœ๋ถ„ํฌํ‘œ(=Z๋ถ„ํฌํ‘œ)?

์ ๋ถ„ ์—†์ด Z๊ฐ’์œผ๋กœ ํŠน์ • ๊ตฌ๊ฐ„์˜ ๊ณก์„  ๋„“์ด(ํ™•๋ฅ )๋ฅผ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค

ํ‰๊ท ์ด0, ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ 1์ธ ๊ทธ๋ž˜ํ”„์˜ 0๋ถ€ํ„ฐ 1์‚ฌ์ด์˜ ๊ตฌ๊ฐ„ ๋ฉด์  : 0.3413

* ํ‰๊ท ์„ ์ค‘์‹ฌ์œผ๋กœ ์ขŒ์šฐ๋Œ€์นญ์ด๋ฏ€๋กœ -1๋ถ€ํ„ฐ 0์˜ ๋ฉด์  ๋˜ํ•œ 0.3413

 

ํ‰๊ท  0์„ ๊ธฐ์ค€์œผ๋กœ ์ขŒ์šฐ ๊ท ๋“ฑ(50% + 50%)

ํ‰๊ท  0์—์„œ ±1 ๋ฒ”์œ„ ๋‚ด ์ „์ฒด์˜ 68.26% ๊ฐ€ ์กด์žฌ : P(- 1 < μ < + 1) = 0.6826

ํ‰๊ท  0์—์„œ ±2 ๋ฒ”์œ„ ๋‚ด ์ „์ฒด์˜ 95.44% ๊ฐ€ ์กด์žฌ : P(- 2 < μ < + 2) = 0.9544

ํ‰๊ท  0์—์„œ ±3 ๋ฒ”์œ„ ๋‚ด ์ „์ฒด์˜ 99.74% ๊ฐ€ ์กด์žฌ : P(- 3 < μ < + 3) = 0.9974

 

* Z๋ถ„ํฌํ‘œ ์ฐธ๊ณ 

P( 0 < Z < 1) = 0.3413

P( 0 < Z < 2) = 0.4772

P( 0 < Z < 3) = 0.4987

 

 

์‹ ๋ขฐ์ˆ˜์ค€ VS Z๊ฐ’(์‹ ๋ขฐ๊ตฌ๊ฐ„)

95% ์‹ ๋ขฐ์ˆ˜์ค€์˜ Z๊ฐ’ = P(-1.96 ≤ ๐’› ≤ +๐Ÿ๐Ÿ. ๐Ÿ—๐Ÿ—๐Ÿ—๐Ÿ—)

์‹ ๋ขฐ๊ตฌ๊ฐ„ = ์ฑ„ํƒ์—ญ

 

 

1) ์ •๊ทœ๋ถ„ํฌ ๋‚œ์ˆ˜(ํ™•๋ฅ ๋ณ€์ˆ˜) ์ƒ์„ฑ

n = 1000 #์ž„์˜์˜ ๋‚œ์ˆ˜ 1000๊ฐœ ์ƒ์„ฑ
x = rnorm(n, mean=100, sd=5) #์ •๊ทœ๋ถ„ํฌ์‹ : n(100,5^2)
hist(x) #ํ™•๋ฅ ๋ณ€์ˆ˜ x์— ๋Œ€ํ•œ ํ™•๋ฅ ๋ถ„ํฌ๋ฅผ ์‹œ๊ฐํ™”


2) ์ •๊ทœ์„ฑ ๊ฒ€์ •

#๊ท€๋ฌด๊ฐ€์„ค(H0) : ์ •๊ทœ๋ถ„ํฌ์™€ ์ฐจ์ด๊ฐ€ ์—†๋‹ค (p-value๋ฅผ ๊ทผ๊ฑฐ๋กœ ์ฑ„ํƒ)
#๋Œ€๋ฆฝ๊ฐ€์„ค(H1) : ์ •๊ทœ๋ถ„ํฌ์™€ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค (๊ธฐ๊ฐ)
shapiro.test(x) #W = 0.99905, p-value = 0.8991 : ์œ ์˜ํ™•๋ฅ  >= ์œ ์˜์ˆ˜์ค€(์•ŒํŒŒ=0.05)
#p-value(์œ ์˜ํ™•๋ฅ ) >= ์•ŒํŒŒ : ์ฑ„ํƒ
#p-value(์œ ์˜ํ™•๋ฅ ) < ์•ŒํŒŒ : ๊ธฐ๊ฐ


ํ‘œ์ค€์ •๊ทœ๋ถ„ํฌ(z๋ถ„ํฌ) 
๋ชจ๋“  ์ •๊ทœ๋ถ„ํฌ๋ฅผ ํ‰๊ท =0, ํ‘œ์ค€ํŽธ์ฐจ=1 ๋กœ ํ‘œ์ค€ํ™”ํ•œ ๋ถ„ํฌ
ํ‘œ์ค€ํ™”๋ฅผ ์œ„ํ•ด์„œ ํ‘œ์ค€ํ™” ๊ณต์‹(z)๋ฅผ ์ด์šฉ
ํ‘œ์ค€ํ™”๊ณต์‹(Z) = (X - mu) / sigma : ์ •๊ทœ๋ถ„ํฌ -> ํ‘œ์ค€์ •๊ทœ๋ถ„ํฌ *๋ชจํ‰๊ท mu

1) ํ‘œ์ค€ํ™”๊ณต์‹ : ํ‘œ์ค€์ •๊ทœ๋ถ„ํฌ ๋ณ€ํ™˜

mu = mean(x) #๋ชจํ‰๊ท 
sigma = sd(x) #๋ชจํ‘œ์ค€ํŽธ์ฐจ

z = (x-mu) / sigma
z #ํ‘œ์ค€์ •๊ทœ๋ถ„ํฌ๋กœ ํ‘œ์ค€ํ™” ๋œ ๋‚œ์ˆ˜ 1000๊ฐœ

hist(z)

mean(z) #0์˜ ๊ทผ์‚ฌ๊ฐ’
sd(z) #1


2) ํ‘œ์ค€ํ™”ํ•จ์ˆ˜

z2 = scale(x) #scale : ํ‘œ์ค€ํ™”๊ณต์‹= (X - mu) / sigma

hist(z2)
mean(z2)
sd(z2)



3) ํ‘œ์ค€ํŽธ์ฐจ VS ํ™•๋ฅ ๋ถ„ํฌ
ํŽธ์ฐจ -1 ~ +1 : 68.26%
ํŽธ์ฐจ -1.96 ~ + 1.96 : 95% ์‹ ๋ขฐ์ˆ˜์ค€๊ณผ ์‹ ๋ขฐ๊ตฌ๊ฐ„(=์ฑ„ํƒ์—ญ)
ํŽธ์ฐจ -2 ~ +2 : 95.44%
ํŽธ์ฐจ -3 ~ +3 : 99.74%

 

 

 

05. ๋ชจ์ง‘๋‹จ๊ณผ ํ‘œ๋ณธ

โ‘  ์ „์ˆ˜์กฐ์‚ฌ

๋ชจ์ง‘๋‹จ๋‚ด์— ์žˆ๋Š” ๋ชจ๋“  ๋Œ€์ƒ ์กฐ์‚ฌ ๋ฐฉ๋ฒ•(ex.์ธ๊ตฌ์กฐ์‚ฌ)

๋ชจ์ง‘๋‹จ์˜ ํŠน์„ฑ ์ •ํ™•ํžˆ ๋ฐ˜์˜

์‹œ๊ฐ„๊ณผ ๋น„์šฉ์ด ๋งŽ์ด ์†Œ์š”๋˜๋Š” ๋‹จ์ 

 

โ‘ก ํ‘œ๋ณธ์กฐ์‚ฌ

๋ชจ์ง‘๋‹จ์œผ๋กœ๋ถ€ํ„ฐ ์ถ”์ถœ๋œ ํ‘œ๋ณธ์„ ๋Œ€์ƒ์œผ๋กœ ๋ถ„์„ ์‹ค์‹œ (ex.์„ ๊ฑฐ ์—ฌ๋ก ์กฐ์‚ฌ, ๋งˆ์ผ€ํŒ…์กฐ์‚ฌ, ์•ˆ์ „์„ฑ ๊ฒ€์‚ฌ, ์˜์ƒ๋ช… ์ž„์ƒ์‹คํ—˜)

๋ชจ์ง‘๋‹จ์˜ ํŠน์„ฑ์„ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•˜๋Š” ํ‘œ๋ณธ์€ ๋ฌด์šฉ์ง€๋ฌผ

 

* ํ‘œ๋ณธ์˜ ํ†ต๊ณ„๋Ÿ‰์œผ๋กœ ๋ชจ์ˆ˜๋ฅผ ์ถ”์ •ํ•œ๋‹ค.

 

 

 

06. ์ถ”์ •๊ณผ ๊ฒ€์ •

07. ํ‘œ๋ณธ์˜ ํ™•๋ฅ ๋ถ„ํฌ