๋จธ์ ๋ฌ๋์ด๋?
๋ฅ ๋ฌ๋์ ํฌํจํ๊ณ ์๋ ๊ฐ๋
๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง๋ฉด, ๊ธฐ๊ณ๊ฐ ์ค์ค๋ก ๋ฐ์ดํฐ๋ก๋ถํฐ ๊ท์น์ฑ์ ์ฐพ์๋
์ฃผ์ด์ง ๋ฐ์ดํฐ๋ก๋ถํฐ ๊ท์น์ฑ์ ์ฐพ๋ ๊ณผ์ ์ ํ๋ จ(training) ๋๋ ํ์ต(learning)์ด๋ผ๊ณ ํจ
๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ํ๊ฐ
๊ธฐ๊ณ๋ฅผ ํ์ตํ๊ธฐ ์ ํด๋น ๋ฐ์ดํฐ๋ฅผ ํ๋ จ์ฉ, ๊ฒ์ฆ์ฉ, ํ
์คํธ์ฉ ์ธ ๊ฐ์ง๋ก ๋ถ๋ฆฌ
1. ํ๋ จ ๋ฐ์ดํฐ : ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ํ์ตํ๋ ์ฉ๋
2. ํ
์คํธ ๋ฐ์ดํฐ : ํ์ตํ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์ฉ๋
3. ๊ฒ์ฆ์ฉ ๋ฐ์ดํฐ : ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์กฐ์ ํ๊ธฐ ์ํ ์ฉ๋ (๊ณผ์ ํฉ(overfitting) ์ฌ๋ถ ํ๋จ, ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ )
- ํ์ดํผํ๋ผ๋ฏธํฐ(์ด๋งค๊ฐ๋ณ์) : ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ํฅ์ ์ฃผ๋ ์ฌ๋์ด ๊ฐ์ ์ง์ ํ๋ ๋ณ์
ex) ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์์ ํ์ต๋ฅ (learning rate), ๋ฅ๋ฌ๋์์ ๋ด๋ฐ์ ์ ๋๋ ์ธต์ ์
- ๋งค๊ฐ๋ณ์ : ๊ฐ์ค์น์ ํธํฅ. ํ์ต์ ํ๋ ๋์ ๊ฐ์ด ๊ณ์ํด์ ๋ณํ๋ ์
๋ชจ๋ธ์ด ํ์ตํ๋ ๊ณผ์ ์์ ์ป์ด์ง๋ ๊ฐ
ํ๋ จ์ฉ ๋ฐ์ดํฐ๋ก ํ๋ จ์ ๋ชจ๋ ์ํจ ๋ชจ๋ธ์ ๊ฒ์ฆ์ฉ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ ํ๋๋ฅผ ๊ฒ์ฆํ๊ณ , ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ํ๋(tuning)ํ๋ค.
๊ฐ์ค์น(weight) = Learnable Parameters
์์๋๊ธฐ์ ํด๋นํ๋ ์ธ๋ถ ์ ๊ฒฝ ์๊ทน (=๋ด๋ฐ ๊ฐ ์ฐ๊ฒฐ ๊ฐ๋)
์ ๊ฒฝ๋ง์ด ํ๋ จํ๋๋์, update๋์ด weight๊ฐ ๋ณ๊ฒฝ๋จ
๊ฐ์ค์น (w1, w2) : ์๋ ์ค์์ ์ ํธ ์ธ๊ธฐ ๊ฒฐ์
- ์ ํธ ์ธ๊ธฐ = ๊ฐ์ค์น(w1, w2) : ์ค์ ๋ณ์์ ๋ฐ๋ผ์ ๊ฐ์ค์น๊ฐ ๋ฌ๋ผ์ง
- x๋ณ์๊ฐ y์ ์ฃผ๋ ์ํฅ๋ ฅ์ ๋ํ๋ด๋ ๊ฐ
- ๊ฐ์ด ํด ์๋ก ํด๋น ๋ณ์๊ฐ ๋ ์ค์ํ๋ค๋ ์๋ฏธ(๊ฐํ ์ ํธ๋ฅผ y์ ๋ณด๋ธ๋ค.)
์ถ๋ ฅ(y) : ๋ง์ ์ด ํฉ์ ์ถ์๋๊ธฐ๋ก ํตํด์ ๋ฐ์
- y = (x1.w1) + (x2.w2)
ํธํฅ(bias)
๋ด๋ฐ์ ํ์ฑํ๋ฅผ ์กฐ์ ํ๋ ๋ณ์
* 2๊ฐ ์กฐ์ ๋ณ์ 1. ๊ฐ์ค์น(w) : x ๋ณ์์ ์ค์๋ 2. ํธํฅ(b) : ๋ด๋ฐ์ ํ์ฑํ
- ํ์ฑ(1)/๋นํ์ฑ(0)์ ์๊ณ์น
- ๋ง์ ์ดํฉ์ ๋ค์ ๊ณ์ธต์ผ๋ก ๋๊ธธ ๋ ๊ธฐ์ค์ด ๋๋ ๊ฐ
- y = (x1.w1 + x2.w2) + b
- cf) ์ ํํ๊ท๋ฐฉ์ ์๊ณผ ๋์ผ : y = (a1.x1 + a2.x2) + b : (b : ์์)
์ง๋ ํ์ต๊ณผ ๋น์ง๋ ํ์ต
1) ์ง๋ ํ์ต(Supervised Learning)
๋ ์ด๋ธ(Label =y, ์ค์ ๊ฐ)์ด๋ผ๋ ์ ๋ต๊ณผ ํจ๊ป ํ์ตํ๋ ๊ฒ
์์ฐ์ด ์ฒ๋ฆฌ๋ ๋๋ถ๋ถ ์ง๋ํ์ต์ ์ํจ
2) ๋น์ง๋ ํ์ต(Unsupervised Learning)
๋ฐ์ดํฐ์ ๋ณ๋์ ๋ ์ด๋ธ์ด ์์ด ํ์ตํ๋ ๊ฒ ex) LSA, LDA
3) ์๊ธฐ์ง๋ ํ์ต(Self-Supervised Learning, SSL)
๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง๋ฉด, ๋ชจ๋ธ์ด ํ์ต์ ์ํด์ ์ค์ค๋ก ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ ์ด๋ธ์ ๋ง๋ค์ด์ ํ์ตํ๋ ๊ฒฝ์ฐ ex) Word2Vec, BERT
ํผ๋ ํ๋ ฌ(Confusion Matrix)
์ ํ๋(Accuracy) : ๋ง์ถ ๋ฌธ์ ์๋ฅผ ์ ์ฒด ๋ฌธ์ ์๋ก ๋๋ ๊ฐ
์ ํ๋๋ ๋ง์ถ ๊ฒฐ๊ณผ์ ํ๋ฆฐ ๊ฒฐ๊ณผ์ ๋ํ ์ธ๋ถ์ ์ธ ๋ด์ฉ์ ์๋ ค์ฃผ์ง๋ ์์ผ๋ฏ๋ก, ์ด๋ฅผ ์ํด ์ฌ์ฉํ๋ ๊ฒ์ด ํผ๋ ํ๋ ฌ(Confusion Matrix)
True Positive(TP) : ์ค์ True์ธ ์ ๋ต์ True๋ผ๊ณ ์์ธก (์ ๋ต)
False Positive(FP) : ์ค์ False์ธ ์ ๋ต์ True๋ผ๊ณ ์์ธก (์ค๋ต)
False Negative(FN) : ์ค์ True์ธ ์ ๋ต์ False๋ผ๊ณ ์์ธก (์ค๋ต)
True Negative(TN) : ์ค์ False์ธ ์ ๋ต์ False๋ผ๊ณ ์์ธก (์ ๋ต)
1) ์ ๋ฐ๋(Precision) : ๋ชจ๋ธ์ด True๋ผ๊ณ ๋ถ๋ฅํ ๊ฒ ์ค์์ ์ค์ True์ธ ๊ฒ์ ๋น์จ
2) ์ฌํ์จ(Recall) : ์ค์ True์ธ ๊ฒ ์ค์์ ๋ชจ๋ธ์ด True๋ผ๊ณ ์์ธกํ ๊ฒ์ ๋น์จ
* ๋ ์ ๋ชจ๋ ๋ถ์๊ฐ TP
3) ์ ํ๋(Accuracy) : ์ ์ฒด ์์ธกํ ๋ฐ์ดํฐ ์ค์์ ์ ๋ต์ ๋ง์ถ ๊ฒ์ ๋ํ ๋น์จ
์ค์ง์ ์ผ๋ก ๋ ์ค์ํ ๊ฒฝ์ฐ์ ๋ํ ๋ฐ์ดํฐ๊ฐ ์ ์ฒด ๋ฐ์ดํฐ์์ ๋๋ฌด ์ ์ ๋น์จ์ ์ฐจ์งํ๋ค๋ฉด ์ ํ๋๋ ์ข์ ์ธก์ ์งํ๊ฐ ๋ ์ ์๋ค. ์ด ๊ฒฝ์ฐ์๋ F1-Score1 ์ฌ์ฉ.
ex) 200์ผ์ค 6์ผ ๋น๊ฐ ์๊ณ , ๋น ์ค๋ ๋ ์์ธก ๋ชจ๋ธ์ด 200์ผ ๋ด๋ด ๋ง์๋ค๊ณ ์์ธกํ๋ฉด ์ ํ๋๋ 97. ๊ทธ๋ฌ๋ ๋น ๋ด๋ฆฌ๋ ๋ ์ ํ๋๋ ๋ชป ๋ง์ถ์๋ค.
๊ณผ์ ํฉ(Overfitting)
ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๊ณผํ๊ฒ ํ์ตํ ๊ฒฝ์ฐ
ํ๋ จ ๋ฐ์ดํฐ์ ๋ํด์๋ง ๊ณผํ๊ฒ ํ์ตํ๋ฉด ์ฑ๋ฅ ์ธก์ ์ ์ํ ๋ฐ์ดํฐ์ธ ํ
์คํธ ๋ฐ์ดํฐ๋ ์ค์ ์๋น์ค์์๋ ์ ํ๋๊ฐ ์ข์ง ์์ ํ์์ด ๋ฐ์
ํ๋ จ ๋ฐ์ดํฐ์ ๋ํ ์ ํ๋๋ ๋์ง๋ง, ํ
์คํธ ๋ฐ์ดํฐ๋ ์ ํ๋๊ฐ ๋ฎ์ ์ํฉ
ํด๊ฒฐ๋ฒ : ํ
์คํธ ๋ฐ์ดํฐ์ ์ค์ฐจ๊ฐ ์ฆ๊ฐํ๊ธฐ ์ ์ด๋, ์ ํ๋๊ฐ ๊ฐ์ํ๊ธฐ ์ ์ ํ๋ จ์ ๋ฉ์ถ๋ ๊ฒ
๊ณผ์ ์ ํฉ(Underfitting)
ํ
์คํธ ๋ฐ์ดํฐ์ ์ฑ๋ฅ์ด ์ฌ๋ผ๊ฐ ์ฌ์ง๊ฐ ์์์๋ ํ๋ จ์ ๋ ํ ์ํ
ํ๋ จ ์์ฒด๊ฐ ๋ถ์กฑํ ์ํ์ด๋ฏ๋ก ํ๋ จ ํ์์ธ ์ํฌํฌ๊ฐ ์ง๋์น๊ฒ ์ ์ผ๋ฉด ๋ฐ์
ํ๋ จ ๋ฐ์ดํฐ์ ๋ํด์๋ ์ ํ๋๊ฐ ๋ฎ๋ค
๊ณผ์ ํฉ ๋ฐฉ์ง๋ฅผ ๊ณ ๋ คํ ์ผ๋ฐ์ ์ธ ๋ฅ ๋ฌ๋ ๋ชจ๋ธ์ ํ์ต ๊ณผ์
Step 1. ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ํ๋ จ ๋ฐ์ดํฐ, ๊ฒ์ฆ ๋ฐ์ดํฐ, ํ
์คํธ ๋ฐ์ดํฐ๋ก ๋๋๋ค. ๊ฐ๋ น, 6:2:2 ๋น์จ๋ก ๋๋ ์ ์๋ค.
Step 2. ํ๋ จ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ํ์ตํ๋ค. (์ํฌํฌ +1)
Step 3. ๊ฒ์ฆ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ํ๊ฐํ์ฌ ๊ฒ์ฆ ๋ฐ์ดํฐ์ ๋ํ ์ ํ๋์ ์ค์ฐจ(loss)๋ฅผ ๊ณ์ฐํ๋ค.
Step 4. ๊ฒ์ฆ ๋ฐ์ดํฐ์ ์ค์ฐจ๊ฐ ์ฆ๊ฐํ์๋ค๋ฉด ๊ณผ์ ํฉ ์งํ์ด๋ฏ๋ก ํ์ต ์ข
๋ฃ ํ Step 5๋ก ์ด๋, ์๋๋ผ๋ฉด Step 2.๋ก ์ฌ์ด๋ํ๋ค.
Step 5. ๋ชจ๋ธ์ ํ์ต์ด ์ข
๋ฃ๋์์ผ๋ ํ
์คํธ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ํ๊ฐํ๋ค.
'๊ฐ์ธ๊ณต๋ถ > Tensorflow' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
89. ๋ฅ๋ฌ๋ ๊ธฐ์ด ์ด๋ก (2)ํ๊ท์ ๋ถ๋ฅ (0) | 2021.12.24 |
---|---|
88. Tensorflow Keras model ์ฐ์ต๋ฌธ์ (0) | 2021.12.23 |
86. Tensorflow Classification ์ฐ์ต๋ฌธ์ (0) | 2021.12.21 |
85. Tensorflow LinearRegression ์ฐ์ต๋ฌธ์ (0) | 2021.12.20 |
81. Tensorflow Basic ์ฐ์ต๋ฌธ์ (0) | 2021.12.15 |