๋จธ์‹ ๋Ÿฌ๋‹์ด๋ž€?

๋”ฅ ๋Ÿฌ๋‹์„ ํฌํ•จํ•˜๊ณ  ์žˆ๋Š” ๊ฐœ๋…

๋ฐ์ดํ„ฐ๊ฐ€ ์ฃผ์–ด์ง€๋ฉด, ๊ธฐ๊ณ„๊ฐ€ ์Šค์Šค๋กœ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๊ทœ์น™์„ฑ์„ ์ฐพ์•„๋ƒ„

์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๊ทœ์น™์„ฑ์„ ์ฐพ๋Š” ๊ณผ์ •์„ ํ›ˆ๋ จ(training) ๋˜๋Š” ํ•™์Šต(learning)์ด๋ผ๊ณ  ํ•จ

 

 

๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ํ‰๊ฐ€
๊ธฐ๊ณ„๋ฅผ ํ•™์Šตํ•˜๊ธฐ ์ „ ํ•ด๋‹น ๋ฐ์ดํ„ฐ๋ฅผ ํ›ˆ๋ จ์šฉ, ๊ฒ€์ฆ์šฉ, ํ…Œ์ŠคํŠธ์šฉ ์„ธ ๊ฐ€์ง€๋กœ ๋ถ„๋ฆฌ
1. ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ : ๋จธ์‹  ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š” ์šฉ๋„

2. ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ : ํ•™์Šตํ•œ ๋จธ์‹  ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์šฉ๋„
3. ๊ฒ€์ฆ์šฉ ๋ฐ์ดํ„ฐ : ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์กฐ์ •ํ•˜๊ธฐ ์œ„ํ•œ ์šฉ๋„ (๊ณผ์ ํ•ฉ(overfitting) ์—ฌ๋ถ€ ํŒ๋‹จ, ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์กฐ์ •)


- ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ(์ดˆ๋งค๊ฐœ๋ณ€์ˆ˜) : ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ์ฃผ๋Š” ์‚ฌ๋žŒ์ด ๊ฐ’์„ ์ง€์ •ํ•˜๋Š” ๋ณ€์ˆ˜

ex) ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์—์„œ ํ•™์Šต๋ฅ (learning rate), ๋”ฅ๋Ÿฌ๋‹์—์„œ ๋‰ด๋Ÿฐ์˜ ์ˆ˜ ๋˜๋Š” ์ธต์˜ ์ˆ˜


- ๋งค๊ฐœ๋ณ€์ˆ˜ : ๊ฐ€์ค‘์น˜์™€ ํŽธํ–ฅ. ํ•™์Šต์„ ํ•˜๋Š” ๋™์•ˆ ๊ฐ’์ด ๊ณ„์†ํ•ด์„œ ๋ณ€ํ•˜๋Š” ์ˆ˜
๋ชจ๋ธ์ด ํ•™์Šตํ•˜๋Š” ๊ณผ์ •์—์„œ ์–ป์–ด์ง€๋Š” ๊ฐ’
ํ›ˆ๋ จ์šฉ ๋ฐ์ดํ„ฐ๋กœ ํ›ˆ๋ จ์„ ๋ชจ๋‘ ์‹œํ‚จ ๋ชจ๋ธ์€ ๊ฒ€์ฆ์šฉ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ •ํ™•๋„๋ฅผ ๊ฒ€์ฆํ•˜๊ณ , ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํŠœ๋‹(tuning)ํ•œ๋‹ค.


๊ฐ€์ค‘์น˜(weight) = Learnable Parameters

์ˆ˜์ƒ๋Œ๊ธฐ์— ํ•ด๋‹นํ•˜๋Š” ์™ธ๋ถ€ ์‹ ๊ฒฝ ์ž๊ทน (=๋‰ด๋Ÿฐ ๊ฐ„ ์—ฐ๊ฒฐ ๊ฐ•๋„)

์‹ ๊ฒฝ๋ง์ด ํ›ˆ๋ จํ•˜๋Š”๋™์•ˆ, update๋˜์–ด weight๊ฐ€ ๋ณ€๊ฒฝ๋จ 

 

 

๊ฐ€์ค‘์น˜ (w1, w2) : ์‹œ๋ƒ…์Šค์—์„œ ์‹ ํ˜ธ ์„ธ๊ธฐ ๊ฒฐ์ •

- ์‹ ํ˜ธ ์„ธ๊ธฐ = ๊ฐ€์ค‘์น˜(w1, w2) : ์ค‘์š” ๋ณ€์ˆ˜์— ๋”ฐ๋ผ์„œ ๊ฐ€์ค‘์น˜๊ฐ€ ๋‹ฌ๋ผ์ง

- x๋ณ€์ˆ˜๊ฐ€ y์— ์ฃผ๋Š” ์˜ํ–ฅ๋ ฅ์„ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฐ’

- ๊ฐ’์ด ํด ์ˆ˜๋ก ํ•ด๋‹น ๋ณ€์ˆ˜๊ฐ€ ๋” ์ค‘์š”ํ•˜๋‹ค๋Š” ์˜๋ฏธ(๊ฐ•ํ•œ ์‹ ํ˜ธ๋ฅผ y์— ๋ณด๋‚ธ๋‹ค.)

 

์ถœ๋ ฅ(y) : ๋ง์˜ ์ด ํ•ฉ์„ ์ถ•์ƒ‰๋Œ๊ธฐ๋กœ ํ†ตํ•ด์„œ ๋ฐ›์Œ

- y = (x1.w1) + (x2.w2)

 


ํŽธํ–ฅ(bias)

๋‰ด๋Ÿฐ์˜ ํ™œ์„ฑํ™”๋ฅผ ์กฐ์ ˆํ•˜๋Š” ๋ณ€์ˆ˜

 

* 2๊ฐœ ์กฐ์ ˆ๋ณ€์ˆ˜ 1. ๊ฐ€์ค‘์น˜(w) : x ๋ณ€์ˆ˜์˜ ์ค‘์š”๋„ 2. ํŽธํ–ฅ(b) : ๋‰ด๋Ÿฐ์˜ ํ™œ์„ฑํ™”

- ํ™œ์„ฑ(1)/๋น„ํ™œ์„ฑ(0)์˜ ์ž„๊ณ„์น˜

- ๋ง์˜ ์ดํ•ฉ์„ ๋‹ค์Œ ๊ณ„์ธต์œผ๋กœ ๋„˜๊ธธ ๋•Œ ๊ธฐ์ค€์ด ๋˜๋Š” ๊ฐ’

- y = (x1.w1 + x2.w2) + b

- cf) ์„ ํ˜•ํšŒ๊ท€๋ฐฉ์ •์‹๊ณผ ๋™์ผ : y = (a1.x1 + a2.x2) + b : (b : ์ƒ์ˆ˜)



์ง€๋„ ํ•™์Šต๊ณผ ๋น„์ง€๋„ ํ•™์Šต
1) ์ง€๋„ ํ•™์Šต(Supervised Learning)
๋ ˆ์ด๋ธ”(Label =y, ์‹ค์ œ๊ฐ’)์ด๋ผ๋Š” ์ •๋‹ต๊ณผ ํ•จ๊ป˜ ํ•™์Šตํ•˜๋Š” ๊ฒƒ
์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋Š” ๋Œ€๋ถ€๋ถ„ ์ง€๋„ํ•™์Šต์— ์†ํ•จ

2) ๋น„์ง€๋„ ํ•™์Šต(Unsupervised Learning)
 ๋ฐ์ดํ„ฐ์— ๋ณ„๋„์˜ ๋ ˆ์ด๋ธ”์ด ์—†์ด ํ•™์Šตํ•˜๋Š” ๊ฒƒ ex) LSA, LDA

3) ์ž๊ธฐ์ง€๋„ ํ•™์Šต(Self-Supervised Learning, SSL)
๋ ˆ์ด๋ธ”์ด ์—†๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์ฃผ์–ด์ง€๋ฉด, ๋ชจ๋ธ์ด ํ•™์Šต์„ ์œ„ํ•ด์„œ ์Šค์Šค๋กœ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๋ ˆ์ด๋ธ”์„ ๋งŒ๋“ค์–ด์„œ ํ•™์Šตํ•˜๋Š” ๊ฒฝ์šฐ ex) Word2Vec, BERT


ํ˜ผ๋™ ํ–‰๋ ฌ(Confusion Matrix)
์ •ํ™•๋„(Accuracy) : ๋งž์ถ˜ ๋ฌธ์ œ์ˆ˜๋ฅผ ์ „์ฒด ๋ฌธ์ œ์ˆ˜๋กœ ๋‚˜๋ˆˆ ๊ฐ’
์ •ํ™•๋„๋Š” ๋งž์ถ˜ ๊ฒฐ๊ณผ์™€ ํ‹€๋ฆฐ ๊ฒฐ๊ณผ์— ๋Œ€ํ•œ ์„ธ๋ถ€์ ์ธ ๋‚ด์šฉ์„ ์•Œ๋ ค์ฃผ์ง€๋Š” ์•Š์œผ๋ฏ€๋กœ, ์ด๋ฅผ ์œ„ํ•ด ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ํ˜ผ๋™ ํ–‰๋ ฌ(Confusion Matrix)

True Positive(TP) : ์‹ค์ œ True์ธ ์ •๋‹ต์„ True๋ผ๊ณ  ์˜ˆ์ธก (์ •๋‹ต)
False Positive(FP) : ์‹ค์ œ False์ธ ์ •๋‹ต์„ True๋ผ๊ณ  ์˜ˆ์ธก (์˜ค๋‹ต)
False Negative(FN) : ์‹ค์ œ True์ธ ์ •๋‹ต์„ False๋ผ๊ณ  ์˜ˆ์ธก (์˜ค๋‹ต)
True Negative(TN) : ์‹ค์ œ False์ธ ์ •๋‹ต์„ False๋ผ๊ณ  ์˜ˆ์ธก (์ •๋‹ต)


1) ์ •๋ฐ€๋„(Precision) : ๋ชจ๋ธ์ด True๋ผ๊ณ  ๋ถ„๋ฅ˜ํ•œ ๊ฒƒ ์ค‘์—์„œ ์‹ค์ œ True์ธ ๊ฒƒ์˜ ๋น„์œจ
2) ์žฌํ˜„์œจ(Recall) : ์‹ค์ œ True์ธ ๊ฒƒ ์ค‘์—์„œ ๋ชจ๋ธ์ด True๋ผ๊ณ  ์˜ˆ์ธกํ•œ ๊ฒƒ์˜ ๋น„์œจ
* ๋‘ ์‹ ๋ชจ๋‘ ๋ถ„์ž๊ฐ€ TP
3) ์ •ํ™•๋„(Accuracy) : ์ „์ฒด ์˜ˆ์ธกํ•œ ๋ฐ์ดํ„ฐ ์ค‘์—์„œ ์ •๋‹ต์„ ๋งž์ถ˜ ๊ฒƒ์— ๋Œ€ํ•œ ๋น„์œจ
์‹ค์งˆ์ ์œผ๋กœ ๋” ์ค‘์š”ํ•œ ๊ฒฝ์šฐ์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ์ „์ฒด ๋ฐ์ดํ„ฐ์—์„œ ๋„ˆ๋ฌด ์ ์€ ๋น„์œจ์„ ์ฐจ์ง€ํ•œ๋‹ค๋ฉด ์ •ํ™•๋„๋Š” ์ข‹์€ ์ธก์ • ์ง€ํ‘œ๊ฐ€ ๋  ์ˆ˜ ์—†๋‹ค. ์ด ๊ฒฝ์šฐ์—๋Š” F1-Score1 ์‚ฌ์šฉ.

ex) 200์ผ์ค‘ 6์ผ ๋น„๊ฐ€ ์™”๊ณ , ๋น„ ์˜ค๋Š” ๋‚  ์˜ˆ์ธก ๋ชจ๋ธ์ด 200์ผ ๋‚ด๋‚ด ๋ง‘์•˜๋‹ค๊ณ  ์˜ˆ์ธกํ•˜๋ฉด ์ •ํ™•๋„๋Š” 97. ๊ทธ๋Ÿฌ๋‚˜ ๋น„ ๋‚ด๋ฆฌ๋Š” ๋‚ ์€ ํ•˜๋‚˜๋„ ๋ชป ๋งž์ถ”์—ˆ๋‹ค.


๊ณผ์ ํ•ฉ(Overfitting)
ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณผํ•˜๊ฒŒ ํ•™์Šตํ•œ ๊ฒฝ์šฐ
ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ๋งŒ ๊ณผํ•˜๊ฒŒ ํ•™์Šตํ•˜๋ฉด ์„ฑ๋Šฅ ์ธก์ •์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ์ธ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ๋‚˜ ์‹ค์ œ ์„œ๋น„์Šค์—์„œ๋Š” ์ •ํ™•๋„๊ฐ€ ์ข‹์ง€ ์•Š์€ ํ˜„์ƒ์ด ๋ฐœ์ƒ
ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ •ํ™•๋„๋Š” ๋†’์ง€๋งŒ, ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ๋Š” ์ •ํ™•๋„๊ฐ€ ๋‚ฎ์€ ์ƒํ™ฉ
ํ•ด๊ฒฐ๋ฒ• : ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์˜ ์˜ค์ฐจ๊ฐ€ ์ฆ๊ฐ€ํ•˜๊ธฐ ์ „์ด๋‚˜, ์ •ํ™•๋„๊ฐ€ ๊ฐ์†Œํ•˜๊ธฐ ์ „์— ํ›ˆ๋ จ์„ ๋ฉˆ์ถ”๋Š” ๊ฒƒ

๊ณผ์†Œ ์ ํ•ฉ(Underfitting)
ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์˜ ์„ฑ๋Šฅ์ด ์˜ฌ๋ผ๊ฐˆ ์—ฌ์ง€๊ฐ€ ์žˆ์Œ์—๋„ ํ›ˆ๋ จ์„ ๋œ ํ•œ ์ƒํƒœ
ํ›ˆ๋ จ ์ž์ฒด๊ฐ€ ๋ถ€์กฑํ•œ ์ƒํƒœ์ด๋ฏ€๋กœ ํ›ˆ๋ จ ํšŸ์ˆ˜์ธ ์—ํฌํฌ๊ฐ€ ์ง€๋‚˜์น˜๊ฒŒ ์ ์œผ๋ฉด ๋ฐœ์ƒ
ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ๋„ ์ •ํ™•๋„๊ฐ€ ๋‚ฎ๋‹ค

๊ณผ์ ํ•ฉ ๋ฐฉ์ง€๋ฅผ ๊ณ ๋ คํ•œ ์ผ๋ฐ˜์ ์ธ ๋”ฅ ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ํ•™์Šต ๊ณผ์ •
Step 1. ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ, ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ, ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ๋‚˜๋ˆˆ๋‹ค. ๊ฐ€๋ น, 6:2:2 ๋น„์œจ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋‹ค.
Step 2. ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋กœ ๋ชจ๋ธ์„ ํ•™์Šตํ•œ๋‹ค. (์—ํฌํฌ +1)
Step 3. ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ๋กœ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜์—ฌ ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ •ํ™•๋„์™€ ์˜ค์ฐจ(loss)๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค.
Step 4. ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์˜ ์˜ค์ฐจ๊ฐ€ ์ฆ๊ฐ€ํ•˜์˜€๋‹ค๋ฉด ๊ณผ์ ํ•ฉ ์ง•ํ›„์ด๋ฏ€๋กœ ํ•™์Šต ์ข…๋ฃŒ ํ›„ Step 5๋กœ ์ด๋™, ์•„๋‹ˆ๋ผ๋ฉด Step 2.๋กœ ์žฌ์ด๋™ํ•œ๋‹ค.
Step 5. ๋ชจ๋ธ์˜ ํ•™์Šต์ด ์ข…๋ฃŒ๋˜์—ˆ์œผ๋‹ˆ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•œ๋‹ค.

+ Recent posts