[๐ namdarineโs AI Review] Attention is All You Need
๐ Transformer ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ Transformer๋ ๋ฅ๋ฌ๋ ์ญ์ฌ์ ๊ฐ์ฅ ์ํฅ๋ ฅ ์๋ ๊ตฌ์กฐ ์ค ํ๋๋ก ChatGPT๋ฅผ ํฌํจํ ์ค๋๋ ์ ์์ฑํ AI ๋๋ถ๋ถ์ ๊ธฐ๋ฐ์ด ๋๋ค. ์ด ๋ฆฌ๋ทฐ์์๋ ๊ทธ ์์์ ์ด ๋ ๋ ผ๋ฌธ โAttention is All You Needโ๋ฅผ ํ์ด๋ณด๋ ค ํ๋ค.
๋ ผ๋ฌธ ์์ฝ
Transformer ๊ตฌ์กฐ ์ ์ ๋ฐ ๋ณ๋ ฌ ์ฒ๋ฆฌ์ long-range dependency ์ฒ๋ฆฌ์ ํ์
ํต์ฌ๋ง ์ ๋ฆฌํ๋ฉด
- Transformer๋ ์ํ ๊ตฌ์กฐ๋ฅผ attention์ผ๋ก ๋์ฒดํ์ฌ ์์ฐจ์ ๊ณ์ฐ ์์ด ๋ณ๋ ฌ ํ์ต๊ณผ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ ๊ตฌ์กฐ์ด๋ค.
- ํต์ฌ ๊ตฌ์ฑ ์์๋ scaled dot-product attention, multi-head attention, position-wise feed-forward network, ์ฌ์ธยท์ฝ์ฌ์ธ ๊ธฐ๋ฐ positional encoding์ด๋ค.
- Encoder์์๋ self-attention์ ํตํด ๋ชจ๋ ํ ํฐ์ด ์๋ก๋ฅผ ์ฐธ์กฐํ๊ณ , Decoder์์๋ ๋ฏธ๋ ํ ํฐ์ ๋ง์คํนํ self-attention์ผ๋ก auto-regressive ์์ฑ์ ์ ์งํ๋ฉฐ encoder-decoder attention์ผ๋ก ์ ๋ ฅ ์ ์ฒด์ ์ฐ๊ฒฐ๋๋ค.
- ์ ์ฒด ๊ตฌ์กฐ๋ residual connection๊ณผ layer normalization์ ๊ฒฐํฉํ encoder/decoder ์คํ์ ํตํด ์์ ์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- WMT 2014 ์์ด-๋ ์ผ์ด ๋ฐ ์์ด-ํ๋์ค์ด ๋ฒ์ญ ์คํ์์ Base์ Big ๋ชจ๋ธ ๋ชจ๋ ๋น์ ์ต์ฒจ๋จ BLEU ์ฑ๋ฅ์ ๊ธฐ๋กํ๋ฉฐ, ํจ์จ์ ์ธ ํ์ต ๋๋น ๋์ ํ์ง์ ์ ์ฆํ๋ค.
๊ธฐ์กด ๋ชจ๋ธ์ ํ๊ณ ๋ฐ ๋ฌธ์ ์ ์
RNN, LSTM, GRN ์ฌ์ ํ ์ข์ ๋ชจ๋ธ๋ค์ด์ง๋ง ๋ณ๋ ฌํํ๋ฉด ์ฌ๋ฌ ์ ์ฝ์ด ์๊ธด๋ค. ๊ทธ ์ค ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฝ์ผ๋ก ๋ฐฐ์น ์ฒ๋ฆฌ์ ํ๊ณ๊ฐ ์กด์ฌํ๋ค. ์ด์ ๋ฐ๋ผ factorization tricks, conditional computation์ด ์ ์๋์์ง๋ง ์ฌ์ ํ ์์ฐจ์ ์ฐ์ฐ์ด๋ผ๋ ๊ธฐ๋ณธ์ ์ด ์ ์ฝ์ด ๋จ์์๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ์ํด ์ ์๋ Transformer๋ผ๋ ์๋ก์ด ๊ตฌ์กฐ๋ฅผ ํตํด ๋ฐ๋ณต์ ํผํ๊ณ Attention mechanism์ ํตํด ์
๋ ฅ๊ณผ ์ถ๋ ฅ๊ฐ์ ๊ธ๋ก๋ฒ ์์กด์ฑ์ ๋์ถํ๋ค.
์ํ ๋ชจ๋ธ
RNN์ ํฌํจํ ์ํ ๋ชจ๋ธ์ ์์ฐจ์ ์ธ ๊ณ์ฐ ๋ฐฉ์์๋ ์๋์ ๊ฐ์ด ์งํ๋๋ค.
- ์ ๋ ฅ ๋ฐ ์ถ๋ ฅ ์ํ์ค์ ๊ธฐํธ ์์น (symbol positions)๋ฅผ ๋ฐ๋ผ ๊ณ์ฐ์ ๋ถํด
- ๊ณ์ฐ ์๊ฐ์ ๋จ๊ณ์ ์์น๋ฅผ ์ผ์น์ํค๋ฉด์ ์ด๋ฐ hidden state ()์ ํ์ฌ ์์น ()์ ์
๋ ฅ์ ํจ์๋ก ์ฌ์ฉํ๋ฉด์ ํ์ฌ์ hidden state ()๋ฅผ ์์ฑํ๋ค.
-> hidden state ()๋ ์ด์ ๋จ์ด์์ ํ์ตํ ์ ๋ณด๋ฅผ ์ ์ ์ ์ฅํ๋ ๊ธฐ์ต ์ฅ์น ๊ฐ์ ๊ฐ๋ ์ด๋ค.
์ด ๋ฐฉ์์ ์ ์ฝ ์ฌํญ์ ํฌ๊ฒ ๋๊ฐ์ง๊ฐ ์กด์ฌํ๋ค.
์ฒซ ๋ฒ์งธ๋ training examples ๋ด์์ ๋ณ๋ ฌํ ๋ถ๊ฐ๋ฅํ๋ค๋ ์ ์ด๋ค. ์ํ์ค์ ๊ธธ์ด๊ฐ ๊ธธ์ด์ง ์๋ก ๋ ์ค์ํด์ง๋๋ฐ ์ํ์ค๊ฐ ๊ธธ์ด์ง ์๋ก ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ (long-range dependencies)์ ํ์ตํ๋๋ฐ ์ด๋ ค์์ด ์๋ค.
๋ ๋ฒ์งธ๋ ๋ฉ๋จธ๋ฆฌ ์ ์ฝ์ผ๋ก ์ธํด ์ฌ๋ฌ examples์ ๊ฑธ์ฒ batching์ ํ๊ณ๊ฐ ๋ฐ์ํ๋ค.
ํต์ฌ ์ ์
์ด ๋ ผ๋ฌธ์์๋ ํฌ๊ฒ ์ธ ๊ฐ์ง ๊ธฐ๋ฒ์ ์๊ฐํ๋ค. ์ฒซ ๋ฒ์งธ๋ Attention, ๋ ๋ฒ์งธ๋ position-wise Feed-Forward networks, ๋ง์ง๋ง์ผ๋ก positional encoding์ด๋ค.
Attention
Transformer์ ์ด๋ป๊ฒ, ์ด๋ค attention์ด ์ ์ฉ๋์๋์ง ์ดํด๋ณด๊ธฐ์ ์ attention์ด ์ด๋ป๊ฒ ์๋ํ๋์ง์ ๋ ๊ฐ์ง attention์ ๊ฐ๋ตํ๊ฒ ์์๋ณด์.
๋ณดํต attention์ query์ ํ ์์ key-value ์์ ์
๋ ฅ์ผ๋ก ๋ฐ์์ ์ถ๋ ฅ์ ๋งคํํ๋ค. ์ฌ๊ธฐ์ query, key-value, ์ถ๋ ฅ์ ๋ฒกํฐ์ด๋ค.
์ถ๋ ฅ์ values์ ๊ฐ์ค ํฉ์ผ๋ก ๊ณ์ฐ๋๊ณ , ๊ฐ value์ ํ ๋น๋๋ ๊ฐ์ค์น๋ query์ ํด๋น key ์ฌ์ด์ compatibility function์ ํตํด ๊ณ์ฐ๋๋ค.
Attention์ ๊ฐ ๋จ์ด๊ฐ ๋ชจ๋ ๋จ์ด๋ฅผ ๋ฐ๋ผ๋ณผ ์ ์๋ค๋ ๊ฒ์ ํ์์์ ๋ชจ๋๊ฐ ๋์์ ์๋ก์ ๋ฐ์ธ์ ์ฐธ๊ณ ํ๋ฉฐ ์๊ฒฌ์ ์ ๋ฆฌํ๋ ๊ฒ๊ณผ ๋น์ทํ๋ค.
Scaled dot-product Attention
Transformer์์ ์ฌ์ฉ๋๋ ํน์ attention์ด๋ค. ์ ๋ ฅ์ Query (q), key (k), value(v)๋ก ๊ตฌ์ฑ๋์ด์๋ค. ๊ฐ๊ฐ ์ฐจ์์ query์ key, ์ฐจ์์ value์ด๋ค. ์ฌ๋ฌ query, key, value๊ฐ ํ๋ ฌ ํํ๋ก ๋ฌถ์ฌ์ ์ฒ๋ฆฌ๊ฐ ๋๋ค.
๊ณ์ฐ ๋จ๊ณ:
| ๋จ๊ณ | ์ค๋ช |
|---|---|
| 1. dot product | q์ ๋ชจ๋ k ๊ฐ์ dot product๋ก ๊ณ์ฐ๋๊ณ ๋ก ํํ๋๋ค. |
| 2. Scaling | ๊ณ์ฐ๋ ๊ฐ dot product ๊ฐ์ ๋ก ๋๋๋ค. ์ด scaling์ ๊ฐ์ด ํด ๋ dot product์ ํฌ๊ธฐ๊ฐ ๋๋ฌด ์ปค์ ธ์ softmax ํจ์๊ฐ ๋งค์ฐ ์์ gradient ์์ญ์ผ๋ก ๊ฐ๋ ๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํด ์ํ๋๋ค. |
| 3. Softmax | Scaling ๋ ๊ฒฐ๊ณผ์ softmax ํจ์๋ฅผ ์ ์ฉํ์ฌ ๊ฐ ๊ฐ์ ๋ํ ๊ฐ์ค์น๋ฅผ ์ป๋๋ค. |
| 4. Weighted sum | ์ป์ด์ง ๊ฐ์ค์น๋ฅผ v์ ๊ณฑํ ํ ํฉ์ฐํ์ฌ ์ต์ข ์ถ๋ ฅ์ ๊ณ์ฐ ํ๋ค. |
์ด attention์ ์ฅ์ ์ dot product attention์ ํ๋์ hidden layer๋ฅผ ๊ฐ์ง Feed-Forward Network๋ฅผ ์ฌ์ฉํ๋ additive attention๊ณผ ์ด๋ก ์ ๋ณต์ก๋๋ ์ ์ฌํ์ง๋ง ๊ณ ๋๋ก ์ต์ ํ๋ ํ๋ ฌ ๊ณฑ์ ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ๊ตฌํ๋ ์ ์๊ธฐ์ ์ค์ ๋ก ํจ์ฌ ๋น ๋ฅด๊ณ ๊ณต๊ฐ ํจ์จ์ ์ด๋ค.
Multi-head Attention
๋จ์ผ attention ํจ์๋ฅผ ์ฐจ์์ k, v, Q๋ก ์ํํ๋ ๋์ Q, k, v๋ฅผ h๋ฒ ๊ฐ๊ฐ ๋ค๋ฅธ ํ์ต๋ linear projection์ ํตํด , , ์ฐจ์์ผ๋ก ์ ํ์ ์ผ๋ก ํฌ์๋๋ค. ๊ฐ ํฌ์๋ Q, k, v ๋ฒ์ ์ ๋ํด attention ํจ์๋ฅผ ๋ณ๋ ฌ๋ก ์ํํ์ฌ ์ฐจ์์ ์ถ๋ ฅ ๊ฐ์ ์ป๋๋ค. ์ด๋ ๊ฒ ์ป์ h๊ฐ์ ์ถ๋ ฅ ๊ฐ๋ค์ concatenated ํ ๋ค์ ๋ค์ ํ๋ฒ ์ ํ ํฌ์ํ์ฌ ์ต์ข
๊ฐ์ ์ป๋๋ค.
์ด attention์ ๋ชฉ์ ์ ๋ชจ๋ธ์ด ์๋ก ๋ค๋ฅธ ํํ ๋ถ๋ถ ๊ณต๊ฐ (different representation subspaces)์์ ๋ค๋ฅธ ์์น์ ์ ๋ณด์ ๋์์ ์ง์คํ ์ ์๋๋ก ํ๋ค. ๋จ์ผ attention head์ ๊ฒฝ์ฐ ํ๊ท ํ๋ก ์ธํด ์ด๋ฌํ ๋ฅ๋ ฅ์ด ์ ํ ๋ ์ ์๊ธฐ๋๋ฌธ์ด๋ค.
- ์ด ๋ ผ๋ฌธ์์๋ ๊ฐ์ ๋ณ๋ ฌ attention layer๋ฅผ ์ฌ์ฉํ๊ณ ๊ฐ head์ ๋ํด ๋ฅผ ์ฌ์ฉํ๋ค. ๊ฐ head์ ์ฐจ์์ด ์ค์ด๋ค๊ธฐ ๋๋ฌธ์ ์ ์ฒด ๊ณ์ฐ ๋น์ฉ์ ์ ์ฒด ์ฐจ์์ ๊ฐ์ง ๋จ์ผ head attention๊ณผ ์ ์ฌํ๋ค.
Multi-head attention์ ๋ง์น ํ ์ฌ๋์ด ์ฌ๋ฌ ๋ช ์ ์ญํ (๋์์ด๋, ๊ฐ๋ฐ์, ์ธ๋ฌด์ฌ)์ ๋์์ ๋งก์์ ๋ค์ํ ๊ด์ ์ผ๋ก ๋ฌธ์ ๋ฅผ ๋ฐ๋ผ๋ณด๋ ๊ฒ๊ณผ ๊ฐ๋ค.
๊ทธ๋ผ Transformer ๋ด attention์ ์ด๋ป๊ฒ ์ ์ฉํ์๊น?
- Encoder-Decoder attention
Decoder๋ ์ด์ decoder layer์ Q๋ฅผ ์ฌ์ฉํ๊ณ , encoder ์ถ๋ ฅ์์ ๋ฉ๋ชจ๋ฆฌ k์ v๋ฅผ ๊ฐ์ ธ์ decoder์ ๋ชจ๋ ์์น๊ฐ ์ ๋ ฅ ์ํ์ค์ ๋ชจ๋ ์์น์ ์ง์คํ ์ ์๋๋ก ํ๋ค. - Encoder self-attention
Encoder ๋ด์ self-attention layer์์๋ k, v, Q ๋ชจ๋ ์ด์ encoder layer์ ์ถ๋ ฅ์์ ๋์จ๋ค. ์ด๋ฅผ ํตํด์ encoder์ ๊ฐ ์์น๊ฐ ์ด์ layer์ ๋ชจ๋ ์์น์ ์ง์ค ํ ์ ์๋ค. - Decoder self-attention Decoder์ self-attention layer์์๋ decoder์ ๊ฐ ์์น๊ฐ ํด๋น ์์น๋ฅผ ํฌํจํ์ฌ decoder๋ด์ ๋ชจ๋ ์ด์ ์์น์ ์ง์คํ ์ ์๋ค. ์ด๋ auto-regression ์์ฑ์ ๋ณด์กดํ๊ธฐ ์ํด ๋ฏธ๋ ์์น๋ก์ ์ ๋ณด ํ๋ฆ์ ๋ง์คํนํ์ฌ ๋ฐฉ์งํ๋ค.
์ด๋ฌํ attention mechanism์ ์๋ ๋ฐฉ์์ Transformer๊ฐ ์ํ์ด๋ convolution ์์ด ์ ๋ ฅ ๋ฐ ์ถ๋ ฅ ์ํ์ค ๋ด์์ ๊ธฐํธ๋ค ๊ฐ์ ๊ฑฐ๋ฆฌ์ ๊ด๊ณ์์ด ์์กด์ฑ์ ๋ชจ๋ธ๋งํ ์ ์๊ฒ ํ๋ฉฐ ์ด๋ ๊ธฐ์กด ์ํ ๋ชจ๋ธ์ ํ๊ณ์ธ ์์ฐจ์ ๊ณ์ฐ ๋ฐ ๋ณ๋ ฌํ ๋ถ๊ฐ ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ๊ณ ํ๋ จ ์๊ฐ ๋จ์ถ ๋ฐ ๋ฒ์ญ ํ์ง ํฅ์์ผ๋ก ์ด์ด์ง๋ ํต์ฌ์ ์ธ ์์๊ฐ ๋๋ค.
Transformer ๋ด์์์ Encoder-Decoder
Encoder stack of Transformer
๊ฐ์ ๋์ผํ layer๋ก ์ด๋ฃจ์ด์ง ์คํ์ผ๋ก ๊ตฌ์ฑ๋์ด์๋ค. ๊ฐ layer๋ ๋ ๊ฐ์ sub-layer๋ก ์ด๋ฃจ์ด์ ธ์๋ค. ์ฒซ sub-layer๋ multi-head self-attnetion mechanism์ด๊ณ ๋ ๋ฒ์งธ sub-layer๋ ๊ฐ๋จํ ์์น๋ณ ์์ ํ ์ฐ๊ฒฐ๋ Feed-Forward ๋คํธ์ํฌ์ด๋ค. ๊ฐ ๋ ๊ฐ์ sub-layer๋ residual connection์ ์ ์ฉํ ํ์ layer normalization์ ์งํํ๋ค. ์ฆ ๊ฐ sub-layer์ ์ถ๋ ฅ์ ๋ก ํํ๋๋ค. ์ฌ๊ธฐ์ ๋ sub-layer ์์ฒด์ ์ํด์ ๊ตฌํ๋ ํจ์์ด๋ค. ์ถ๋ ฅ ์ฐจ์์ ์ด๋ฌํ residual connection์ ์ฉ์ดํ๊ฒ ํ๊ธฐ ์ํด ๋ชจ๋ธ์ ๋ชจ๋ sub-layer์ embedding layer๋ ์ฐจ์์ ์ถ๋ ฅ์ ์์ฑํ๋ค.
- Residual connection์ ํํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฌธ์ ๋ฅผ ํธ๋ ๊ฒ๊ณผ ๋น์ทํ๋ค. ํ์์ด ์ํ ๋ฌธ์ ๋ฅผ ํ๋ค๊ฐ ๋งํ์๋ ์ ์๋์ด ์ ๋ต์ ์๋ ค์ฃผ๋๊ฒ ์๋๋ผ ํ์์ด ์ง๊ธ๊น์ง ํผ ๊ณผ์ (๊ธฐ์กด ์
๋ ฅ)์ ์ ์งํ ์ฑ ๋ถ์กฑํ ๋ถ๋ถ๋ง ํํธ (์ถ๊ฐ ๊ณ์ฐ)๋ฅผ ์ค๋ค. ์ด์ฒ๋ผ Transformer์ ๊ฐ ๋ ์ด์ด๋ ์ด์ ์ ๊ณ์ฐ ๊ฒฐ๊ณผ๋ฅผ ๊ทธ๋๋ก ์ด์ด๋ฐ์ ์ฌ๊ธฐ์ ์ฝ๊ฐ์ ๋ณด์ ๋ง ์ถ๊ฐํ๊ณ ๋์๊ฐ๋ ๋ฐฉ์์ผ๋ก ํ์ต์ ํจ์จ์ฑ๊ณผ ์์ ์ฑ์ ๋์ธ๋ค.
์ด๊ฒ์ด ๋ฐ๋ก residual connection: ๊ธฐ์กด ์ ๋ณด + ์๋กญ๊ฒ ํ์ต๋ ๋ณํ๋
Decoder stack of Transformer
Encoder stack๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ๊ฐ์ ๋์ผํ layer๋ก ์ด๋ฃจ์ด์ง ์คํ์ผ๋ก ๊ตฌ์ฑ๋์ด์๋ค. Decoder๋ ๊ฐ encoder layer์ ์๋ ๋ ๊ฐ์ sub-layer ์ธ์๋ ์ธ ๋ฒ์งธ sub-layer๋ฅผ ์ฝ์
ํ๋ค. ์ด ์ธ ๋ฒ์งธ sub-layer๋ encoder stack์ ์ถ๋ ฅ์ ๋ํด multi-head attention์ ์ํํ๋ค. Encoder stack๊ณผ ๋น์ทํ๊ฒ ๊ฐ sub-layer ์ฃผ๋ณ์ residual connection์ ์ฌ์ฉํ ๋ค์ layer normalization์ ์งํํ๋ค.
Decoder stack ๋ด์ self-attention sub-layer๋ ๋ฏธ๋ ์์น์ ๋ํ ์ ๋ณด ํ๋ฆ์ ๋ฐฉ์งํ๋๋ก ์์ ๋๋ค. ์ด๋ฅผ ๋ง์คํน (masking)์ด๋ผ ํ๋ค. ์ด๋ auto-regressive property๋ฅผ ๋ณด์กดํ๊ธฐ ์ํด์์ด๋ค. ์ฆ ์์น ์ ์์ธก์ ๋ณด๋ค ์์ ์์น์ ์๋ ค์ง ์ถ๋ ฅ์๋ง ์์กด ํ ์ ์๋ค. ์ด๋ scaled dot-product attention๋ด์์ ๋ถ๋ฒ์ ์ธ ์ฐ๊ฒฐ์ ํด๋นํ๋ softmax ์
๋ ฅ์ ๋ชจ๋ ๊ฐ๋ค์ ๋ง์คํน (์์ ๋ฌดํ๋๋ก ์ค์ )์ ๊ตฌํํ๋ค.
์ด๋ฌํ ๊ตฌ์กฐ๊ฐ ์์ฐจ์ ๊ณ์ฐ์ ๊ทผ๋ณธ์ ์ธ ์ ์ฝ, ๋ณ๋ ฌํ ๋ถ๊ฐ๋ฅผ ์ ๊ฑฐํ๊ณ ํจ์ฌ ๋ ๋ง์ ๋ณ๋ ฌํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ์ฌ ํ๋ จ ์๊ฐ์ ๋จ์ถํ๋ฉด์๋ ๋ฐ์ด๋ ๋ฒ์ญ ํ์ง์ ๋ฌ์ฑํ๋ ํต์ฌ์ ์ธ ์ญํ ์ ํ๋ค.
Encoder๋ ์ ์ฒด ๋ฌธ์ฅ์ ์์
ํ๋ ์ญํ , Decoder๋ ์ด ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋จ์ด๋ฅผ ์์ฑํ๋ ์ญํ ์ ํ๋ค. ๊ฐ๊ฐ 6๊ฐ์ ๋ ์ด์ด๊ฐ ์์ฌ ์์ผ๋ฉฐ ์ ๋ณด ํ๋ฆ์ ์กฐ์ ํ๋ ํํฐ์ ์ ์ ์ฅ์น๊ฐ ์๋ค.
์ self-attention ์ผ๊น? (Table 1 ์ฐธ๊ณ )
-
๋ ์ด์ด๋น ์ด ๊ณ์ฐ ๋ณต์ก์ฑ
Layer ์ค๋ช Self-attention ์ํ์ค์ ๊ธธ์ด ()์ด representation ์ฐจ์ ()๋ณด๋ค ์์๋ recurrent layer๋ณด๋ค ๋น ๋ฅด๋ค. ํน์ ์ํฉ ()์์ ์ ๋ณต์ก๋๋ฅผ ๊ฐ์ง Recurrent layer ๋ณต์ก๋ Convolutional layer kernel ํฌ๊ธฐ ()์ ๋ฐ๋ผ ๋ณต์ก๋ ์ด ๋ ผ๋ฌธ์์๋ ๋งค์ฐ ๊ธด ์ํ์ค์ ๊ฒฝ์ฐ self-attention์ ์ธ์ ํ ํฌ๊ธฐ์ ์์ญ์ผ๋ก ์ ํํ์ฌ ๋ก ๋ณต์ก๋๋ฅผ ์ค์ผ ์ ์๋ค๊ณ ํ๋ค. ๋ํ, ๊ฒฝ์ฐ separable convolution์ ๋ณต์ก๋ ๋ self-attention layer์ positional Feed-Forward layer์ ์กฐํฉ๊ณผ ์ ์ฌํ๋ค๊ณ ์ค๋ช ํ๋ค.
-
๋ณ๋ ฌํ ๊ฐ๋ฅํ ๊ณ์ฐ๋
Layer ์ค๋ช Self-attention ์ ์ต๋ ๊ฒฝ๋ก ๊ธธ์ด. ์ด๋ ๋ชจ๋ ์์น๊ฐ ์์์ ์ธ ์์ ์์ฐจ ์ฐ์ฐ์ผ๋ก ์ฐ๊ฒฐ๋๋ค๋ ๊ฒ์ ์๋ฏธ. ๋์ ๋ณ๋ ฌํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํจ Recurrent layer ์ ์์ฐจ ์ฐ์ฐ ์๊ตฌ. ๋ณธ์ง์ ์ผ๋ก ์์ฐจ์ ์ธ ํน์ฑ์ ๊ฐ์ง. ์ด๋ ํ์ต ์์ ๋ด์์ ๋ณ๋ ฌํ๋ฅผ ์ด๋ ต๊ฒ ํ๊ณ ๊ธด ์ํ์ค ๊ธธ์ด์์ ํนํ ๋ฌธ์ Convolutional layer ์ ์์ฐจ ์ฐ์ฐ์ผ๋ก ๊ณ์ฐ๋์ง๋ง ๋ชจ๋ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ ์์น๋ฅผ ์ฐ๊ฒฐํ๋ ค๋ฉด ์ฌ๋ฌ layer๋ฅผ ์์์ผ ํจ -
์ฅ๊ฑฐ๋ฆฌ ์ข ์์ฑ ๊ฐ์ ๊ฒฝ๋ก ๊ธธ์ด
Layer ์ค๋ช Self-attention ์ ์ต๋ ๊ฒฝ๋ก ๊ธธ์ด. ์ด๋ ์ํ์ค ๋ด์ ๋ชจ๋ ์์น๊ฐ ์์์ ์ธ ์์ ์ฐ์ฐ์ ํตํด ์ง์ ์ ์ผ๋ก ์ฐ๊ฒฐ๋ ์ ์์์ ์๋ฏธ. ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ํ์ต์ ๋ ์ฝ๊ฒ ํจ Recurrent layer ์ ์ต๋ ๊ฒฝ๋ก ๊ธธ์ด Convolutional layer ์ฐ์ kernel์ ๊ฒฝ์ฐ , dilated convolutions์ ๊ฒฝ์ฐ ์ ๊ฒฝ๋ก ๊ธธ์ด๋ฅผ ๊ฐ์ง. ๋ชจ๋ ์์น๋ฅผ ์ฐ๊ฒฐํ๊ธฐ ์ํด ์ฌ๋ฌ layer๋ฅผ ์์์ผ ํ๋ฏ๋ก ๊ฒฝ๋ก ๊ธธ์ด๊ฐ ๊ธธ์ด์ง
ํ ํ๋ก ์์ฝํ๋ฉด
| ํญ๋ชฉ | Self-Attention | RNN | CNN |
|---|---|---|---|
| ๊ณ์ฐ ๋ณต์ก๋ | |||
| ๋ณ๋ ฌํ ๊ฐ๋ฅ์ฑ | ๋งค์ฐ ๋์ () | ๋ฎ์ () | ๋ณดํต () |
| ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ๊ฒฝ๋ก | - |
- Side Benefit: Self-attention์ ๋ interpretable ๋ชจ๋ธ์ ๋ง๋ค ์ ์๋ค. ๊ฐ๋ณ attention heads๊ฐ ๋ค๋ฅธ ์์ ์ ์ํํ๋๋ก ํ์ต๋๊ณ ๋ง์ head๊ฐ ๋ฌธ์ฅ์ ๊ตฌ๋ฌธ์ ๋ฐ ์๋ฏธ์ ๊ตฌ์กฐ์ ๊ด๋ จ๋ ํ๋์ ๋ณด์ธ๋ค.
์ด๋ฌํ self-attention์ ์ด์ ์ ํ์ฉํ์ฌ Transformer๋ ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ ํ๋ จ๋ ์ ์๊ณ ๋ ๋์ ๋ฒ์ญ ํ์ง์ ๋ฌ์ฑํ ์ ์๋ค.
Position-wise Feed-Forward Networks
Encoder์ decoder์ sub-layer๋ง๋ค ์์ ํ ์ฐ๊ฒฐ๋ Feed-Forward ๋คํธ์ํฌ๋ฅผ ํฌํจํ๋ค. ์ด๋ ๊ฐ ์์น์ ๋
๋ฆฝ์ ์ด๊ณ ๋์ผํ๊ฒ ์ ์ฉ๋๋ค. ์ด ๋คํธ์ํฌ๋ ๋ ๊ฐ์ linear transformation๊ณผ ๊ทธ ์ฌ์ด์ ReLU activation function์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
Linear transformation์ ์๋ก ๋ค๋ฅธ ์์น์์ ๋์ผํ์ง๋ง layer๋ง๋ค ๋ค๋ฅธ parameter๋ฅผ ์ฌ์ฉํ๋ค. ์ด๋ฅผ kernel ํฌ๊ฐ๊ธฐ 1์ธ ๋ ๊ฐ์ convolution์ผ๋ก ์ค๋ช
ํ ์๋ ์๋ค. ์
๋ ฅ๊ณผ ์ถ๋ ฅ์ ์ฐจ์์ ๋ชจ๋ธ์ ์ฐจ์๊ณผ ๊ฐ์ ์ด๊ณ inner-layer์ ์ฐจ์์ ์ด๋ค. ์ฌ๊ธฐ์ inner-layer์ ์ฐจ์์ด 2048์ธ ์ด์ ๊ฐ ์ธ๊ธ๋์ง๋ ์์์ง๋ง ๋ ํฐ ์ฐจ์์ผ ์๋ก ๋ ๋์ ๋ชจ๋ธ ํผํฌ๋จผ์ค๊ฐ ๋์๋ค. ์ผ๋ BLEU ๊ฐ์ 25.8, ์ผ๋ BLEU ๊ฐ์ 25.4, ์ผ๋ BLEU ๊ฐ์ 26.2์ผ๋ก ๋์๋ค. (Table 3 ์ฐธ๊ณ )
- Feed-Forward ๋คํธ์ํฌ๋ ๊ฐ ๋จ์ด๊ฐ ๋ฌธ๋งฅ์ ๋ง๊ฒ ์๋ฏธ๋ฅผ ์กฐ์ ํ๋ โํํฐ๋ง ์ฅ์นโ ์ญํ ์ ํ๋ค๊ณ ๋ณผ ์ ์๋ค.
Positional Encoding
์ด ๋ ผ๋ฌธ์ Transformer๊ฐ ์ํ (recurrence)๊ณผ ์ปจ๋ณผ๋ฃจ์ (convolution)์ด ์์ผ๋ฏ๋ก ์ํ์ค ๋ด ํ ํฐ์ ์๋์ ๋๋ ์ ๋์ ์์น์ ๋ํ ์ ๋ณด๋ฅผ ์ฃผ์ ํ๋ โpositional embeddingsโ๋ฅผ ์๊ฐํฉ๋๋ค. ์ ์๋ positional encoding์ ์ธ์ฝ๋์ ๋์ฝ๋ ์คํ์ ๊ฐ์ฅ ์๋์ธต์ ์๋ ์ ๋ ฅ ์๋ฒ ๋ฉ์ ์ถ๊ฐํฉ๋๋ค. Positional encoding์ ์ฐจ์์ ๋ค๋ฅธ embedding๊ณผ ๋ํ ์ ์๊ฒ ๊ฐ์ ์ฐจ์์ด๋ค.
๊ตฌํ ๋ฐฉ์
- ์ฌ์ธ, ์ฝ์ฌ์ธ ํจ์๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- -> ์ง์ ์ฐจ์์์ ์ฌ์ฉ
- -> ํ์ ์ฐจ์์์ ์ฌ์ฉ
- ๋ฌธ์ฅ ๋ด์์ ์ ๋์ ์์น (pos)๋ฅผ ํ์
ํ๊ณ ์ด ์์น๋ฅผ ์ ์ฌ์ธ, ์ฝ์ฌ์ธ ํจ์์ ๋์
ํ๋ค.
-> ์์์ด ๋ณต์กํด ๋ณด์ด์ง๋ง ๋จ์ด์ ์์น์ ๋ฐ๋ผ ๊ณ ์ ํ ํจํด์ ์ ํ๋ ๋ฐฉ์์ด๋ค. ์ผ์ข ์ ๋จ์ด โ์ขํโ๋ฅผ ์ํ์ ์ผ๋ก ๋ง๋ค์ด์ฃผ๋ ์ ์ด๋ค.
=> ์ด์ : ์ด๋ค ๊ณ ์ ๋ ์คํ์ (offset) k์ ๋ํด์๋ ๊ฐ ์ ์ ํ ํจ์๋ก ํํ๋ ์ ์์ด ๋ชจ๋ธ์ด ์๋์ ์์น์ ์ํด attentionํ๋ ๊ฒ์ ์ฝ๊ฒ ํ์ตํ ์ ์์ ๊ฒ์ด๋ผ๋ ๊ฐ์ค ๋๋ฌธ์ด๋ค. ๋ํ ํ๋ จ์ ์ ํ๋ ์ํ์ค๋ณด๋ค ๋ ๊ธด ์ํ์ค ๊ธธ์ด์๋ ๋ชจ๋ธ์ด extrapolateํ ์ ์๋๋ก ํ์ฉํ๋ค.
Positional encoding์ Transformer๊ฐ ๋จ์ด์ ์์๋ฅผ ์ธ์งํ๊ฒ ํ๋ ๋ด๋น๊ฒ์ดํฐ์ ๊ฐ๋ค. ๊ฐ ๋จ์ด ์๋ฒ ๋ฉ์ ๊ณ ์ ํ ์ขํ๋ฅผ ๋ถ์ฌํ์ฌ ๋ชจ๋ธ์ด ๋จ์ด์ ์๋ฏธ๋ฟ๋ง ์๋๋ผ ์ํ์ค ๋ด์์์ ์์น ๊ด๊ณ๊น์ง ์ดํดํ๋๋ก ๋๋๋ค. ๋ง์น ์ฑ
์ ์ฝ์ ๋ ๋ด์ฉ (์๋ฒ ๋ฉ)๋ฟ๋ง ์๋๋ผ ๋ช ๋ฒ์งธ ํ์ด์ง (positional encoding)์ ์๋์ง ์์์ผ ์ ์ฒด ํ๋ฆ์ ํ์
ํ ์ ์๋ ๊ฒ๊ณผ ์ ์ฌํ๋ค.
์๋ฅผ ๋ค์ด โ๊ทธ๋ ๋์์๋คโ๋ ๋ฌธ์ฅ์ด ์์ค์ ์ด๋ฐ๊ณผ ๋ง์ง๋ง์ ๋ฑ์ฅํ ๋ ๊ทธ ๋ฌธ์ฅ์ ํด์์ ์์ ํ ๋ฌ๋ผ์ง๋ค.
Transformer๋ ๋ฐ๋ณต ๊ตฌ์กฐ๊ฐ ์๊ธฐ ๋๋ฌธ์ ๋จ์ด ์์๋ฅผ ์ง์ ์์ง ๋ชปํ๋ค. ๊ทธ๋์ ๊ฐ ๋จ์ด์ โํ์ด์ง ๋ฒํธโ๊ฐ์ ์์น ์ ๋ณด (์ขํ) ๋ฅผ ์ฌ์ธ/์ฝ์ฌ์ธ ํจํด์ผ๋ก ๋ถ์ฌํ๋ค. ์ด ์์น ์ ๋ณด ๋๋ถ์ ๋ชจ๋ธ์ โ๋๊ฐ ๋๊ตฌ๋ฅผ ์์ํ๋์งโ, โ๋ฌธ์ฅ ํ๋ฆ์ด ์ด๋ป๊ฒ ์ด์ด์ง๋์งโ ๊ฐ์ ์์ ๊ธฐ๋ฐ ์๋ฏธ๋ฅผ ์ดํดํ ์ ์๋ค. ๋ง์น ๋จ์ด์ ์ง๋ ์์ GPS ์ขํ๋ฅผ ์ฐ์ด์ฃผ๋ ๊ฒ๊ณผ ๊ฐ๋ค.
ํ๋ จ
๋ฐ์ดํฐ
์ด ๋
ผ๋ฌธ์์๋ ๋ ๊ฐ์ง์ ๋ฐ์ดํฐ์
์ผ๋ก ๋ชจ๋ธ์ ํ๋ จํ๋ค. ํ๋๋ ์ฝ 450๋ง ๊ฐ์ ๋ฌธ์ฅ ์์ผ๋ก ๊ตฌ์ฑ๋ ํ์ค WMT 2014 ์์ด-๋
์ผ์ด์ด๊ณ ๋ค๋ฅธ ํ๋๋ 3,600๋ง ๋ฌธ์ฅ์ผ๋ก ๊ตฌ์ฑ๋ ํจ์ฌ ๋ ํฐ WMT 2014 ์์ด-ํ๋์ค์ด ๋ฐ์ดํฐ์
์ด๋ค.
WMT 2014 ์์ด-๋
์ผ์ด์๋ ์ฝ 37,000๊ฐ์ ํ ํฐ์ผ๋ก ๊ตฌ์ฑ๋ ์์ค-ํ์ผ ๊ณต์ ์ดํ๋ฅผ ์ฌ์ฉํ๊ณ ๋ฐ์ดํธ ์ ์ธ์ฝ๋ฉ (byte-pair encoding, BPE)๋ฅผ ์ฌ์ฉํ์ฌ ๋ฌธ์ฅ์ ์ธ์ฝ๋ฉํ๋ค.
WMT 2014 ์์ด-ํ๋์ค์ด๋ 32,000๊ฐ์ ์๋ ํผ์ค (word-piece) ์ดํ๋ก ํ ํฐ์ ๋ถํ ํ๋ค.
๋ฐฐ์น ์ฒ๋ฆฌ ๋ฐ ์ผ์
๋ฌธ์ฅ ์์ ๋๋ต์ ์ธ ์ํ์ค ๊ธธ์ด๋ณ๋ก ํจ๊ป ๋ฐฐ์น๋์๋ค. ๊ฐ ํ๋ จ ๋ฐฐ์น๋ ๋๋ต 25,000๊ฐ์ ์์ค ํ ํฐ๊ณผ 25,000๊ฐ์ ํ๊ฒ ํ ํฐ์ ํฌํจํ๋ค. ๋ชจ๋ธ์ 8๊ฐ์ NVIDIA P100 GPU๋ฅผ ์ฌ์ฉํด์ ํ๋ จ๋์๋ค. Base ๋ชจ๋ธ์ ์ด 1000,000 ์คํ (์ฝ 12์๊ฐ)๋์ ํ๋ จ๋์๊ณ ๊ฐ ํ๋ จ ์คํ ์ ์ฝ 0.4์ด๊ฐ ์์๋์๋ค. Big ๋ชจ๋ธ์ 300,000 ์คํ (3.5์ผ) ๋์ ํ๋ จ๋์๊ณ ์คํ ๋น ์๊ฐ์ 1.0์ด์๋ค.
์ต์ ํ ๋ฐ ์ ๊ทํ
- ์ตํฐ๋ง์ด์ : , , ๋ฅผ ์ฌ์ฉํ๋ Adam ์ตํฐ๋ง์ด์ ๋ฅผ ์ฌ์ฉํ๋ค.
- ํ์ต๋ฅ : ํ๋ จ ๊ณผ์ ๋์ ํ์ต๋ฅ ์ ๋ณํ์์ผฐ์ผ๋ฉฐ warmup_steps = 4000 ๋์ ์ ํ์ ์ผ๋ก ์ฆ๊ฐํ ๋ค์ ์คํ ์์ ์ญ์ ๊ณฑ๊ทผ์ ๋น๋กํ์ฌ ๊ฐ์์์ผฐ๋ค.
- ์ ๊ทํ: ์์ฐจ ๋๋กญ์์ (Residual Dropout, Base ๋ชจ๋ธ์ ๊ฒฝ์ฐ )๊ณผ ๋ผ๋ฒจ ์ค๋ฌด๋ฉ (Label Smoothing, )์ด ์ฌ์ฉ๋์๋ค.
๊ฒฐ๊ณผ
Transformer ๋ชจ๋ธ์ ๊ธฐ๊ณ ๋ฒ์ญ ๋ฐ ์์ด ๊ตฌ์ฑ ๊ตฌ๋ฌธ ๋ถ์ task์์ ์ฐ์ํ ์ฑ๋ฅ์ ์ ์ฆํ๋ค.
- ๊ธฐ๊ณ ๋ฒ์ญ ๊ฒฐ๊ณผ
| ๋ชจ๋ธ | EN-DE BLEU | EN-FR BLEU | ํ๋ จ ๋น์ฉ (FLOPs) | ๋น๊ณ |
|---|---|---|---|---|
| Transformer (Base model) | 27.3 | 38.1 | (EN-DE) | ์ด์ ์ ๊ฒฝ์ ๋ชจ๋ธ๋ค๋ณด๋ค ์ ์ ํ๋ จ ๋น์ฉ์ผ๋ก ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํจ |
| Transformer (Big model) | 28.4 | 41.8 | (EN-DE) | ๋ task ๋ชจ๋์์ ์๋ก์ด ์ต์ฒจ๋จ (state-of-the-art) ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑ |
- WMT 2014 ์์ด-๋
์ผ์ด:
- Big Transformer ๋ชจ๋ธ์ 28.4 BLEU๋ฅผ ๋ฌ์ฑํ์ฌ ์ด์ ์ ์ต์ ์ฑ๋ฅ ๋ชจ๋ธ (์์๋ธ ํฌํจ)๋ณด๋ค 2.0 BLEU ์ด์ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ ์๋ก์ด ์ต์ฒจ๋จ BLEU ์ ์๋ฅผ ํ๋ฆฝํ๋ค.
- Base ๋ชจ๋ธ๋ ๊ฒฝ์ ๋ชจ๋ธ๋ค์ ํ๋ จ ๋น์ฉ์ ์ผ๋ถ๋ง์ผ๋ก๋ ์ด์ ์ ๋ฐํ๋ ๋ชจ๋ ๋ชจ๋ธ๊ณผ ์์๋ธ์ ๋ฅ๊ฐํ๋ค.
- WMT 2014 ์์ด-ํ๋์ค์ด:
- Big Transformer ๋ชจ๋ธ์ 41.8 BLEU ์ ์๋ฅผ ๋ฌ์ฑํ์ฌ ์๋ก์ด ๋จ์ผ ๋ชจ๋ธ ์ต์ฒจ๋จ ๊ธฐ๋ก์ ์ธ์ ๋ค. ์ด๋ ๊ธฐ์กด ๋ฌธํ์์ ๋ณด๊ณ ๋ ์ต๊ณ ์ ๋ชจ๋ธ๋ค์ ํ๋ จ ๋น์ฉ์ ์์ ์ผ๋ถ๋ง์ผ๋ก ๋ฌ์ฑ๋์๋ค.
- ๋ชจ๋ธ ๊ตฌ์ฑ ์์ ์ค์๋ ํ๊ฐ (Model Variations)
๊ฐ๋ฐ ๋ฐ์ดํฐ์ (newstest2013)์์ Transformer ๊ตฌ์กฐ์ ๋ค์ํ ๊ตฌ์ฑ ์์์ ์ค์๋๋ฅผ ํ๊ฐํ๋ค.
- Multi-head attention: ๋จ์ผ head attention์ ์ต์ ์ค์ ๋ณด๋ค 0.9 BLEU๋งํผ ์ฑ๋ฅ์ด ๋ฎ์์ผ๋ฉฐ ํค๋๊ฐ ๋๋ฌด ๋ง์๋ ํ์ง์ด ์ ํ๋์๋ค.
- ํค ํฌ๊ธฐ (): Attention ํค ํฌ๊ธฐ๋ฅผ ์ค์ด๋ฉด ๋ชจ๋ธ ํ์ง์ด ์ ํ๋์๋ค.
- ๊ท๋ชจ: ์์๋๋ก ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ํด์๋ก ์ฑ๋ฅ์ด ์ข์๊ณ ๋๋กญ์์์ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๋๋ฐ ๋งค์ฐ ๋์์ด ๋์๋ค.
- Positional encoding: ์ฌ์ธ ํจ์ ๊ธฐ๋ฐ์ positional encoding์ ํ์ต๋ positional embedding์ผ๋ก ๋์ฒดํ์ ๋ ๊ฑฐ์ ๋์ผํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ค. ์ ํํ (sinusoidal) ๋ฒ์ ์ ์ ํํ ์ด์ ๋ ๋ชจ๋ธ์ด ํ๋ จ ์ ์ ํ ๊ฒ๋ณด๋ค ๋ ๊ธด ์ํ์ค ๊ธธ์ด๋ก extrapolateํ ์ ์๋๋ก ํ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
- ์์ด ๊ตฌ์ฑ ๊ตฌ๋ฌธ ๋ถ์ (English Constituency Parsing)
Transformer๋ ์์ด ๊ตฌ์ฑ ๊ตฌ๋ฌธ ๋ถ์์๋ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉ๋์ด ๋ค๋ฅธ ์์ ์๋ ์ ์ผ๋ฐํ๋จ์ ๋ณด์๋ค.
- WSJ (Wall Street Journal) ํ๋ จ ์ (์ฝ 4๋ง ๋ฌธ์ฅ)๋ง ์ฌ์ฉํ์ ๋ 91.3 F1์ ๋ฌ์ฑํ๋ค.
- ๋๊ท๋ชจ ๋ฐ์ดํฐ (์ฝ 1,700๋ง ๋ฌธ์ฅ)๋ฅผ ์ฌ์ฉํ ์ค์ง๋ ํ์ต ์ค์ ์์๋ 92.7 F1์ ๋ฌ์ฑํ๋ค. ์ด๋ Recurrent Neural Network Grammar๋ฅผ ์ ์ธํ๊ณ ์ด์ ์ ๋ณด๊ณ ๋ ๋ชจ๋ ๋ชจ๋ธ๋ณด๋ค ๋ ๋์ ๊ฒฐ๊ณผ ์ด๋ค.
- RNN sequence-to-sequence ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ Transformer๋ WSJ ํ๋ จ ์ ๋ง์ผ๋ก ํ๋ จํ์ ๋๋ Berkeley-Parser๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๋ค.
๊ฒฐ๋ก
์ด ๋ ผ๋ฌธ์์ ์ ์๋ Transformer๋ ์ฌ๊ท ๊ณ์ธต (recurrent layers)์ multi-headed self-attention์ผ๋ก ์์ ํ ๋์ฒดํ ์ต์ด์ ์ํ์ค ๋ณํ ๋ชจ๋ธ์ด๋ค.
ํต์ฌ ๊ฒฐ๋ก :
- ์ฑ๋ฅ ์ฐ์: Transformer๋ WMT 2014 ์์ด-๋ ์ผ์ด ๋ฐ ์์ด-ํ๋์ค์ด ๋ฒ์ญ task ๋ชจ๋์์ ์๋ก์ด ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค. ํนํ ์์ด-๋ ์ผ์ด task์์ ์ต๊ณ ์ ๋ชจ๋ธ์ ์ด์ ์ ๋ณด๊ณ ๋ ๋ชจ๋ ์์๋ธ ๋ชจ๋ธ๊น์ง ๋ฅ๊ฐํ๋ค.
- ํจ์จ์ฑ: Transformer๋ ์ฌ๊ท์ ๋๋ ํฉ์ฑ๊ณฑ ๊ณ์ธต ๊ธฐ๋ฐ ์ํคํ ์ฒ๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ ํ๋ จ๋ ์ ์๋ค.
- ๋ณ๋ ฌํ: ์ํ (recurrence) ๋ฐ ํฉ์ฑ๊ณฑ (convolution)์ ์์ ํ ์ ๊ฑฐํ๊ณ ์ค์ง attention mechanism์ ์์กดํจ์ผ๋ก์จ Transformer๋ ํจ์ฌ ๋ ๋ง์ ๋ณ๋ ฌํ๋ฅผ ํ์ฉํ๋ค.
๋ง๋ฌด๋ฆฌ
Transformer๋ RNN์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ๋ณ๋ ฌ์ฒ๋ฆฌ์ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ํ์ต ๋ชจ๋๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ ํ์ ์ ์ธ ๊ตฌ์กฐ์๋ค. ์ดํ ๋ฑ์ฅํ GPT, BERT, T5, Gemini ๋ฑ ํ๋ ์์ฑํ AI ๋ชจ๋ธ์ ๋ชจ๋ ์ด ๋
ผ๋ฌธ์ ์์ด๋์ด์์ ์ถ๋ฐํ๋ค. ๋
ผ๋ฌธ์ ์ ๋ชฉ์ฒ๋ผ ์ด ๊ตฌ์กฐ์ ๋ณธ์ง์ โAttention is All You Needโ์๋ค.
namdarine์ ์ด์ฒ๋ผ ์ค์ํ ๊ธฐ์ ์ ๋ณด๋ค ์ฝ๊ฒ ์ดํดํ๊ณ ํ์ฉํ ์ ์๋ ์ฝํ
์ธ ๋ฅผ ๊ณ์ํด์ ๋ง๋ค์ด๊ฐ๋๋ค.
๐ namdarineโs AI Review๋ ๋๊ตฌ๋ AI์ ํต์ฌ ๊ธฐ์ ์ ์ดํดํ ์ ์๋๋ก ๋ ผ๋ฌธ, ์๊ณ ๋ฆฌ์ฆ, ๊ตฌ์กฐ๋ฅผ ์ฝ๊ฒ ํ์ด์ฃผ๋ ์๋ฆฌ์ฆ์ ๋๋ค.
Letโs build it like itโs already happened.
โ ๋ค์ ๋ฆฌ๋ทฐ์์ ๋ง๋์!