Algorithms & Models

[๐Ÿ“Œ namdarineโ€™s AI Review] Language Models are Few-Shot Learners

namdarine โ€ข

GPT-3 ๋…ผ๋ฌธ ํ•ต์‹ฌ ์ •๋ฆฌ: Few-shot Learning์ด NLP ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋ฐ”๊พผ ์ˆœ๊ฐ„

Opening
์ƒ์„ฑํ˜• ์ธ๊ณต์ง€๋Šฅ์ด ์ƒ์„ฑํ•œ ์ด๋ฏธ์ง€์ž…๋‹ˆ๋‹ค.

ChatGPT, Gemini, Claude๋ฅผ ์‚ฌ์šฉํ•ด ๋ณธ ์ ์ด ์žˆ๋‹ค๋ฉด, ๋‹น์‹ ์€ ์ด๋ฏธ ์ด ๋…ผ๋ฌธ์˜ ๊ฒฐ๊ณผ๋ฌผ์„ ๊ฒฝํ—˜ํ•œ ๊ฒƒ์ด๋‹ค. 2020๋…„ OpenAI๊ฐ€ ๋ฐœํ‘œํ•œ โ€œLanguage Models are Few-Shot Learnersโ€๋Š” ์˜ค๋Š˜๋‚  ๋Œ€ํ™”ํ˜• AI์˜ ์ž‘๋™ ์›๋ฆฌ๋ฅผ ๊ทœ์ •ํ•œ ์ถœ๋ฐœ์ ์ด๋‹ค. ์™œ AI์—๊ฒŒ ์˜ˆ์‹œ ๋ช‡ ๊ฐœ๋งŒ ๋ณด์—ฌ์ฃผ๋ฉด ์ƒˆ๋กœ์šด ์ž‘์—…์„ ํ•ด๋‚ด๋Š”์ง€ ๊ทธ ๋‹ต์ด ์—ฌ๊ธฐ์— ์žˆ๋‹ค.

์ด ๋…ผ๋ฌธ์€ ํ•˜๋‚˜์˜ ์งˆ๋ฌธ์—์„œ ์ถœ๋ฐœํ•œ๋‹ค. โ€œ๊ฑฐ๋Œ€ํ•œ ์–ธ์–ด ๋ชจ๋ธ์€ fine-tuning ์—†์ด๋„ ๋ฌธ๋งฅ๋งŒ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?โ€

2020๋…„ ๋ฐœํ‘œ๋œ Language Models are Few-Shot Learners๋Š” GPT-3๋ฅผ ํ†ตํ•ด Few-shot learning๊ณผ In-context learning์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์‹คํ—˜์ ์œผ๋กœ ์ฆ๋ช…ํ•œ ๋…ผ๋ฌธ์ด๋‹ค.

์ด ์—ฐ๊ตฌ๋Š” NLP์˜ ๊ธฐ์กด ํŒจ๋Ÿฌ๋‹ค์ž„, Pretrain โ†’\rightarrow Fine-tune ๊ตฌ์กฐ,๋ฅผ ๋„˜์–ด โ€œ๋ชจ๋ธ์„ ์ถฉ๋ถ„ํžˆ ํฌ๊ฒŒ ๋งŒ๋“ค๋ฉด ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ ์—†์ด๋„ ๋ฌธ๋งฅ ์† ์˜ˆ์‹œ๋งŒ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹คโ€๋ผ๋Š” ๊ฐ€์„ค์„ ์ œ์‹œํ•œ๋‹ค.

๋…ผ๋ฌธ ์š”์•ฝ

๋ชจ๋ธ ๊ทœ๋ชจ๋ฅผ ๊ทน๋‹จ์ ์œผ๋กœ ํ™•์žฅํ•˜๋ฉด ์–ธ์–ด ๋ชจ๋ธ์€ ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ ์—†์ด๋„ ๋ฌธ๋งฅ ์† ์˜ˆ์‹œ๋งŒ์œผ๋กœ ํ•™์Šตํ•˜๋Š” ๋Šฅ๋ ฅ (Few-shot learning)์ด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ํš๋“ํ•œ๋‹ค.

์ด ๋…ผ๋ฌธ์˜ ์ง„์งœ ์งˆ๋ฌธ

GPT-1์€ ์‚ฌ์ „ ํ•™์Šต ํ›„ ๋ฏธ์„ธ ์กฐ์ •์ด๋ผ๋Š” ์ „๋žต์„ ํ™•๋ฆฝํ–ˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ๋‹ค์Œ ์งˆ๋ฌธ์€ ์ž์—ฐ์Šค๋Ÿฝ๋‹ค.

โ€œFine-tuning ์—†์ด๋„ ๊ฐ€๋Šฅํ•˜์ง€ ์•Š์„๊นŒ?โ€

์ด ๋…ผ๋ฌธ์€ ๋ฐ”๋กœ ๊ทธ ๊ฐ€๋Šฅ์„ฑ์„ ์‹คํ—˜ํ•œ๋‹ค.

ํ•ต์‹ฌ๋งŒ ์ •๋ฆฌํ•˜๋ฉด

  • ๊ธฐ์กด NLP๋Š” ์ž‘์—…๋งˆ๋‹ค fine-tuning + ๋Œ€๊ทœ๋ชจ ๋ผ๋ฒจ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ–ˆ๋‹ค.
  • GPT-3๋Š” ๊ฐ€์„ค์„ ์„ธ์šด๋‹ค: โ€œ๋ชจ๋ธ์„ ์ถฉ๋ถ„ํžˆ ํฌ๊ฒŒ ๋งŒ๋“ค๋ฉด, ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ ์—†์ด๋„ ๋ฌธ๋งฅ ์† ์˜ˆ์‹œ๋งŒ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค.โ€
  • 175B ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์„ ํ†ตํ•ด ์ด๋ฅผ ์‹คํ—˜ํ–ˆ๋‹ค.
  • ๋ชจ๋ธ ๊ทœ๋ชจ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ๊ฒ€์ฆ ์†์‹ค์€ ๋ฉฑ๋ฒ•์น™(power-law) ์ ์œผ๋กœ ๊ฐ์†Œํ•œ๋‹ค.
  • ํŠนํžˆ Few-shot ์„ฑ๋Šฅ์ด ํญ๋ฐœ์ ์œผ๋กœ ์ƒ์Šนํ–ˆ๋‹ค.
  • ๊ฒฐ๋ก : ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์€ โ€œํ•™์Šตํ•˜๋Š” ๋ฒ•โ€์„ ๋‚ด๋ถ€์ ์œผ๋กœ ์Šต๋“ํ•œ๋‹ค. Fine-tuning ์—†์ด๋„ ์ƒˆ๋กœ์šด ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

๊ธฐ์กด NLP์˜ ํ•œ๊ณ„: Fine-tuning ํŒจ๋Ÿฌ๋‹ค์ž„์˜ ์„ธ ๊ฐ€์ง€ ๋ฌธ์ œ

๊ธฐ์กด ํ๋ฆ„์€ ๋‹ค์Œ๊ณผ ๊ฐ™์•˜๋‹ค.

  1. ๋Œ€๊ทœ๋ชจ ๋ง๋ญ‰์น˜ ์‚ฌ์ „ ํ•™์Šต
  2. ์ž‘์—…๋ณ„ fine-tuning

์ด ๊ตฌ์กฐ์—๋Š” ์„ธ ๊ฐ€์ง€ ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ๋‹ค.

  1. ๋ฐ์ดํ„ฐ์˜ ํ•„์š”์„ฑ ํŠน์ • ์ž‘์—…์„ ์œ„ํ•ด ์ˆ˜์ฒœ์—์„œ ์ˆ˜ ๋งŒ๊ฐœ์˜ ๋ ˆ์ด๋ธ”๋ง๋œ ๋ฐ์ดํ„ฐ์…‹์ด ํ•„์š”ํ•˜๋‹ค.

  2. ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์˜ ์˜๋ฌธ Fine-tuning๋œ ๋ชจ๋ธ์€ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ์ข์€ ๋ถ„ํฌ ๋‚ด์—์„œ๋Š” ์ž˜ ์ž‘๋™ํ•˜์ง€๋งŒ, ๊ทธ ๋ฒ”์œ„๋ฅผ ๋ฒ—์–ด๋‚œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ๋Š” ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๊ฑฐ๋‚˜ ๋ฐ์ดํ„ฐ์˜ ๊ฐ€์งœ ์ƒ๊ด€๊ด€๊ณ„ (spurious correlations)๋ฅผ ํ•™์Šตํ•  ์œ„ํ—˜์ด ํฌ๋‹ค.

  3. ์ธ๊ฐ„๊ณผ์˜ ์ฐจ์ด ์ธ๊ฐ„์€ ๋‹จ ๋ช‡ ๊ฐœ์˜ ์˜ˆ์‹œ๋‚˜ ์ž์—ฐ์–ด ์„ค๋ช…๋งŒ์œผ๋กœ๋„ ์ƒˆ๋กœ์šด ์–ธ์–ด ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ๊ธฐ์กด ์‹œ์Šคํ…œ์€ ์ด๋ฅผ ๊ตฌํ˜„ํ•˜๋Š”๋ฐ ํฐ ์–ด๋ ค์›€์ด ์žˆ๋‹ค.

๋ฉ”ํƒ€ ํ•™์Šต (Meta-learning)๊ณผ In-context Learning

์ €์ž๋Š” ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•  ๋Œ€์•ˆ์œผ๋กœ ๋ฉ”ํƒ€ ํ•™์Šต ๊ด€์ ์„ ์ œ์‹œํ•œ๋‹ค.

๋ฉ”ํƒ€ ํ•™์Šต์ด๋ž€, ๋ชจ๋ธ์ด ์‚ฌ์ „ ํ•™์Šต ๋‹จ๊ณ„์—์„œ ๊ด‘๋ฒ”์œ„ํ•œ ๊ธฐ์ˆ ๊ณผ ํŒจํ„ด ์ธ์‹ ๋Šฅ๋ ฅ์„ ๊ฐœ๋ฐœํ•˜๊ณ  ์ถ”๋ก  ์‹œ์— ์ด๋ฅผ ํ™œ์šฉํ•ด ์ƒˆ๋กœ์šด ์ž‘์—…์— ๋น ๋ฅด๊ฒŒ ์ ์‘ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

In-context_learning
์ƒ์„ฑํ˜• ์ธ๊ณต์ง€๋Šฅ์ด ์ƒ์„ฑํ•œ ์ด๋ฏธ์ง€์ž…๋‹ˆ๋‹ค.

In-context learning์€ ๋ฉ”ํƒ€ ํ•™์Šต์˜ ๋‚ด๋ถ€ ๋ฃจํ”„ (Inner loop)์— ํ•ด๋‹นํ•˜๋ฉฐ, pre-training๋œ ๋ชจ๋ธ์— ์ž์—ฐ์–ด ์ง€์‹œ์‚ฌํ•ญ์ด๋‚˜ ๋ช‡ ๊ฐœ์˜ ์˜ˆ์‹œ๋ฅผ ํ”„๋กฌํ”„ํŠธ๋กœ ์ฃผ์–ด ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค. ์ด ๊ณผ์ •์—์„œ๋Š” ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ (Gradient update)๊ฐ€ ์ „ํ˜€ ๋ฐœ์ƒํ•˜์ง€ ์•Š๋Š”๋‹ค.

๋‹ค๋งŒ ์ €์ž๋“ค๋„ ์ธ์ •ํ–ˆ๋“ฏ์ด, In-context learning์ด ์™œ ์ž‘๋™ํ•˜๋Š”์ง€๋Š” ์ด ๋…ผ๋ฌธ์—์„œ ์™„์ „ํžˆ ์„ค๋ช…๋˜์ง€ ์•Š์•˜๋‹ค. ๋ชจ๋ธ์ด ๋ฌธ๋งฅ ์† ์˜ˆ์‹œ๋กœ๋ถ€ํ„ฐ ์‹ค์ œ๋กœ โ€œํ•™์Šตโ€ ํ•˜๋Š” ๊ฒƒ์ธ์ง€, ์•„๋‹ˆ๋ฉด ์‚ฌ์ „ ํ•™์Šต๋œ ๋Šฅ๋ ฅ์„ โ€œ์ธ์ถœโ€ ํ•˜๋Š” ๊ฒƒ์ธ์ง€์— ๋Œ€ํ•œ ๋…ผ์Ÿ์€ ์ดํ›„ ์—ฐ๊ตฌ๋“ค์˜ ํ•ต์‹ฌ ์ฃผ์ œ๊ฐ€ ๋˜์—ˆ๋‹ค.

๊ทœ๋ชจ์˜ ๊ฒฝ์ œ: ๋ชจ๋ธ ํฌ๊ธฐ ํ™•์žฅ์˜ ๊ฐ€์„ค

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ๊ฐ€์„ค์€ **โ€œ์–ธ์–ด ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ทœ๋ชจ๋ฅผ ํ‚ค์šฐ๋ฉด In-context learning ๋Šฅ๋ ฅ์ด ๋น„์•ฝ์ ์œผ๋กœ ํ–ฅ์ƒ๋  ๊ฒƒโ€**์ด๋‹ค. GPT-2 (์•ฝ 15์–ต ๊ฐœ)์—์„œ ํ›จ์”ฌ ๋” ๋‚˜์•„๊ฐ„ 1,750์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ GPT-3๋ฅผ ํ•™์Šต์‹œ์ผฐ์œผ๋ฉฐ ์ด๋Š” ๋‹น์‹œ ๊ฐ€์žฅ ํฐ ๋น„ํฌ์†Œ (Non-sparse) ์–ธ์–ด ๋ชจ๋ธ์ด์—ˆ๋˜ Microsoft์˜ Turing-NLG (17B)๋ณด๋‹ค๋„ 10๋ฐฐ ์ด์ƒ ํฐ ๊ทœ๋ชจ์˜€๋‹ค. ์ €์ž๋“ค์€ ๋ชจ๋ธ์˜ ๊ทœ๋ชจ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ๋ฌธ๋งฅ ๋‚ด ์ •๋ณด๋ฅผ ๋” ํšจ์œจ์ ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ์ž‘์—…์„ ํ•™์Šตํ•˜๋Š” ๋Šฅ๋ ฅ์ด ๊ฐ•ํ™”๋จ์„ ํ™•์ธํ•˜๋ ค ํ•œ๋‹ค.

ํ‰๊ฐ€ ์กฐ๊ฑด

zeroshot_comparison
์ƒ์„ฑํ˜• ์ธ๊ณต์ง€๋Šฅ์ด ์ƒ์„ฑํ•œ ์ด๋ฏธ์ง€์ž…๋‹ˆ๋‹ค.

์ €์ž๋Š” GPT-3์˜ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์Œ 4๊ฐ€์ง€ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์ •์˜ํ–ˆ๋‹ค.

  • Zero-shot (0S): ์ž‘์—…์— ๋Œ€ํ•œ ์ž์—ฐ์–ด ์„ค๋ช…๋งŒ ์ œ๊ณตํ•œ๋‹ค. ๊ฐ€์žฅ ๊ฒฌ๊ณ ํ•˜๊ณ  ํŽธ๋ฆฌํ•œ ๋ฐฉ์‹์ด์ง€๋งŒ, ์˜ˆ์‹œ๊ฐ€ ์—†์œผ๋ฉด ์ž‘์—…์˜ ํ˜•์‹ (format)์„ ์ดํ•ดํ•˜๊ธฐ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์–ด ๊ฐ€์žฅ ๋„์ „์ ์ธ ์„ค์ •์ด๋‹ค.

  • One-shot (1S): ์„ค๋ช…๊ณผ ํ•จ๊ป˜ ๋”ฑ ํ•˜๋‚˜์˜ ์˜ˆ์‹œ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. ์ด๋Š” ์‚ฌ๋žŒ์—๊ฒŒ โ€œ์ด๊ฑด ์ด๋Ÿฐ ๊ฑฐ์•ผ, ์ž ์ด์ œ ํ•ด๋ดโ€์™€ ์œ ์‚ฌํ•˜๋‹ค.

  • Few-shot (FS): ๋ชจ๋ธ์˜ ์ปจํ…์ŠคํŠธ ์ฐฝ (๋ณดํ†ต 10~100๊ฐœ, nctx=2048)์— ๋“ค์–ด๊ฐˆ ์ˆ˜ ์žˆ๋Š” ๋งŒํผ์˜ ์˜ˆ์‹œ๋ฅผ ์ œ๊ณตํ•œ๋‹ค. ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๋Š” ์—†์œผ๋ฉฐ ๋ชจ๋ธ์€ ์ž…๋ ฅ๋œ ์˜ˆ์‹œ์˜ ํŒจํ„ด์„ ๋ณด๊ณ  ์ •๋‹ต์„ ์˜ˆ์ธกํ•œ๋‹ค.

  • Fine-Tuning: ์ˆ˜๋งŒ ๊ฐœ์˜ ๋ ˆ์ด๋ธ”๋ง๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ง์ ‘ ์—…๋ฐ์ดํŠธํ•˜๋Š” ์ „ํ†ต์ ์ธ ๋ฐฉ์‹์ด๋‹ค. ์„ฑ๋Šฅ์€ ๊ฐ•๋ ฅํ•˜์ง€๋งŒ ์ƒˆ๋กœ์šด ์ž‘์—…๋งˆ๋‹ค ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์ด ํ•„์š”ํ•˜๊ณ  ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ๋‹ค. ์ด๋ฒˆ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  ๊ฐ€๋Šฅ์„ฑ๋งŒ ์—ด์–ด๋‘์—ˆ๋‹ค.

๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜

model_scale
์ƒ์„ฑํ˜• ์ธ๊ณต์ง€๋Šฅ์ด ์ƒ์„ฑํ•œ ์ด๋ฏธ์ง€์ž…๋‹ˆ๋‹ค.
  • ๊ตฌ์กฐ: GPT-2์˜ ๊ตฌ์กฐ (์ˆ˜์ •๋œ ์ดˆ๊ธฐํ™”, ์‚ฌ์ „ ์ •๊ทœํ™” ๋“ฑ) ๊ณ„์Šนํ•˜๋˜, Sparse Transformer์™€ ์œ ์‚ฌํ•˜๊ฒŒ ๊ต์ฐจ ์กฐ๋ฐ€ (alternating dense) ๋ฐ locally banded sparse attention ํŒจํ„ด์„ ์ ์šฉํ–ˆ๋‹ค. ์‰ฝ๊ฒŒ ์ด์•ผ๊ธฐํ•ด์„œ ๋ชจ๋“  ๋ฌธ์žฅ์„ ๊ผผ๊ผผํžˆ ์ฝ๋Š” ๋ฐฉ์‹ (Dense)์™€ ๊ทผ์ฒ˜์— ์žˆ๋Š” ์ค‘์š”ํ•œ ๋‹จ์–ด๋“ค ์œ„์ฃผ๋กœ ํ›‘์–ด๋ณด๋Š” ๋ฐฉ์‹ (Sparse)์„ ๋ฒˆ๊ฐˆ์•„๊ฐ€๋ฉฐ ์‚ฌ์šฉํ•œ๋‹ค. ๋ฐฉ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๋” ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•œ๋‹ค. ์ด๋Š” ์ „์ฒด ๊ณ„์‚ฐ๋Ÿ‰์˜ 10% ๋ฏธ๋งŒ์„ ์ฐจ์ง€ํ•œ๋‹ค.

  • ๊ทœ๋ชจ: ๋ชจ๋ธ ์„ฑ๋Šฅ์ด ํฌ๊ธฐ์— ๋”ฐ๋ผ ์–ด๋–ป๊ฒŒ ๋ณ€ํ™”ํ•˜๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด 1์–ต 2,500๋งŒ ๊ฐœ๋ถ€ํ„ฐ 1,750์–ต ๊ฐœ๊นŒ์ง€ ์ด 8๊ฐ€์ง€ ํฌ๊ธฐ์˜ ๋ชจ๋ธ์„ ํ›ˆ๋ จ ์‹œ์ผฐ๋‹ค.

  • ์„ค์ •: ๋ชจ๋“  ๋ชจ๋ธ์€ 2048๊ฐœ์˜ ํ† ํฐ ์ปจํ…์ŠคํŠธ ์ฐฝ์„ ์‚ฌ์šฉํ•˜๋ฉฐ ๊ฐ€์ค‘์น˜ ์ดˆ๊ธฐํ™”์™€ ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ๊ณ ๋ คํ•ด ์„ค์ •ํ–ˆ๋‹ค.

ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹

์•ฝ 1์กฐ ๊ฐœ์˜ ๋‹จ์–ด์— ๋‹ฌํ•˜๋Š” ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค.

  • Common Crawl: ์ธํ„ฐ๋„ท ์ €์ธ๋ง ๋ฐ์ดํ„ฐ๋กœ ์–‘์€ ๋งŽ์œผ๋‚˜ ํ’ˆ์งˆ์ด ๋‚ฎ์•„ ๊ณ ํ’ˆ์งˆ ๋ฌธ์„œ์™€ ์œ ์‚ฌ์„ฑ์„ ๊ธฐ์ค€์œผ๋กœ ํ•„ํ„ฐ๋งํ•˜๊ณ  ์ค‘๋ณต์„ ์ œ๊ฑฐ (fuzzy deduplication`) ํ•˜์—ฌ ์‚ฌ์šฉํ–ˆ๋‹ค.
  • ๊ณ ํ’ˆ์งˆ ์†Œ์Šค ๋ณด๊ฐ•: ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์„ ์œ„ํ•ด WebText2, ๋‘ ์ข…๋ฅ˜์˜ ๋„์„œ ๋ง๋ญ‰์น˜ (Books1, Books2), ์˜๋ฌธ ์œ„ํ‚คํ”ผ๋””์•„๋ฅผ ์ถ”๊ฐ€ํ–ˆ๋‹ค.
  • ์ƒ˜ํ”Œ๋ง ์ „๋žต: ๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ ๊ทธ๋Œ€๋กœ ํ›ˆ๋ จํ•˜๋Š” ๋Œ€์‹ , ํ’ˆ์งˆ์ด ๋†’๋‹ค๊ณ  ํŒ๋‹จ๋˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ž์ฃผ ์ƒ˜ํ”Œ๋งํ•˜์—ฌ ๋ชจ๋ธ์ด ๋” ์–‘์งˆ์˜ ์ •๋ณด๋ฅผ ํ•™์Šตํ•˜๋„๋ก ์œ ๋„ํ–ˆ๋‹ค.

Fuzzy deduplication

Spark์˜ MinHashLSH ๊ตฌํ˜„ (10๊ฐœ์˜ ํ•ด์‹œ ์‚ฌ์šฉ)์„ ํ™œ์šฉํ•˜์˜€๋‹ค. ์ด ๊ณผ์ •์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์…‹ ๋‚ด์˜ ์ค‘๋ณต๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ฐ์ดํ„ฐ์…‹ ๊ฐ„์˜ ์ค‘๋ณต๋„ ์ œ๊ฑฐํ–ˆ์œผ๋ฉฐ ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹์˜ ํฌ๊ธฐ๊ฐ€ ํ‰๊ท ์ ์œผ๋กœ 10% ๊ฐ์†Œํ–ˆ๋‹ค.

Fuzzy deduplication์€ ์ˆ˜์กฐ ๊ถŒ์˜ ์ฑ…์ด ์Œ“์ธ ๋„์„œ๊ด€์—์„œ ๋‚ด์šฉ์ด ๊ฑฐ์˜ ์ผ์น˜ํ•˜๋Š” ๋ณต์‚ฌ๋ณธ๋“ค์„ ์ฐพ์•„๋‚ด์–ด ํ•œ ๊ถŒ๋งŒ ๋‚จ๊ธฐ๊ณ  ๋‚˜๋จธ์ง€๋Š” ์ •๋ฆฌํ•จ์œผ๋กœ์จ ๋ชจ๋ธ์ด ๋˜‘๊ฐ™์€ ๋‚ด์šฉ์„ ๋ฐ˜๋ณตํ•ด์„œ ๊ณต๋ถ€ํ•˜์ง€ ์•Š๋„๋ก ๋งŒ๋“ ๋‹ค.

ํ‰๊ฐ€ ๋ฐ ๋ถ„์„ (Evaluation)

  • ํ‰๊ฐ€ ๋ฐฉ์‹: ๊ฐ๊ด€์‹ ์ž‘์—…์˜ ๊ฒฝ์šฐ ๊ฐ ์„ ํƒ์ง€ ํ† ํฐ์˜ ํ™•๋ฅ  (likelihood)์„ ๋น„๊ตํ•˜๊ณ  ์ฃผ๊ด€์‹ ์ž‘์—…์€ ๋น” ์„œ์น˜ (beam search)๋ฅผ ์‚ฌ์šฉํ•ด ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•œ๋‹ค.
  • ๋ฐ์ดํ„ฐ ์˜ค์—ผ ๋ฐฉ์ง€`: ์ธํ„ฐ๋„ท ๋ฐ์ดํ„ฐ๋ฅผ ๊ธ์–ด๋ชจ์œผ๋‹ค ๋ณด๋‹ˆ ํ…Œ์ŠคํŠธ์šฉ ๋ฌธ์ œ์ง€๊ฐ€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ์„ž์—ฌ๋“ค์–ด๊ฐ€๋Š” โ€˜๋ฐ์ดํ„ฐ ์˜ค์—ผ (contamination)โ€™ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์–ด ์ด๋ฅผ ์ธก์ •ํ•˜๊ณ  ๊ฑธ๋Ÿฌ๋‚ด๊ธฐ ์œ„ํ•œ ๋ณ„๋„์˜ ๋ถ„์„ ๊ณผ์ •์„ ๊ฑฐ์ณค๋‹ค.

์ด๋ฅผ ์„ธ์ƒ์˜ ๋ชจ๋“  ์ฑ…์„ ์ฝ์€ ๋„์„œ๊ด€ ์ง€๊ธฐ์— ๋น„์œ ํ•ด ๋ณด์ž. ์ด ์ง€๊ธฐ๋Š” ๋…ผ๋ฌธ ์ „์ฒด๋ฅผ ๊ด€ํ†ตํ•˜๋Š” ์šฐ๋ฆฌ์˜ ์ฃผ์ธ๊ณต์ด๋‹ค.

  1. ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ (๋…์„œ): ์ง€๊ธฐ๋Š” ์ธํ„ฐ๋„ท์˜ ์˜จ๊ฐ– ์žก์ง€ (common crawl)๋ถ€ํ„ฐ ๋ฐฑ๊ณผ์‚ฌ์ „ (wikipedia), ์†Œ์„ค (Books)๊นŒ์ง€ ๋‹ฅ์น˜๋Š” ๋Œ€๋กœ ์ฝ๋Š”๋‹ค. ์ด๋•Œ ๊ทธ๋ƒฅ ์ฝ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ๊ฒ€์ฆ๋œ ๋ช…์ € (๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ)๋ฅผ ์—ฌ๋Ÿฌ ๋ฒˆ ๋ฐ˜๋ณตํ•ด์„œ ์ฝ์–ด ๊นŠ์€ ์ง€์‹์„ ์Œ“๋Š”๋‹ค.

  2. ๋ชจ๋ธ ๊ทœ๋ชจ (๋‘๋‡Œ ์šฉ๋Ÿ‰): ์ด ์ง€๊ธฐ์˜ ๋‡Œ์„ธํฌ๊ฐ€ 1์–ต ๊ฐœ์ผ ๋•Œ์™€ 1,750์–ต ๊ฐœ์ผ ๋•Œ ์ฝ์€ ๋‚ด์šฉ์„ ์—ฐ๊ฒฐํ•˜๊ณ  ์ดํ•ดํ•˜๋Š” ์ˆ˜์ค€์ด ๋‹ค๋ฅด๋‹ค. ๋‡Œ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ์ง€๊ธฐ๋Š” ํ•œ ๋ฒˆ๋„ ์•ˆ ํ•ด๋ณธ ์งˆ๋ฌธ์—๋„ ์ฒ™์ฒ™ ๋Œ€๋‹ตํ•˜๊ธฐ ์‹œ์ž‘ํ•œ๋‹ค.

  3. ์ˆ˜ํ–‰ ๋ฐฉ์‹ (์‹œํ—˜ ์œ ํ˜•)

    • Fine-tuning: โ€œ๋‚ด์ผ๋ถ€ํ„ฐ ์ˆ˜ํ•™ ์‹œํ—˜๋งŒ ๋ณผ ๊ฑฐ๋‹ˆ๊นŒ ๋‹ค๋ฅธ ๊ฑด ์žŠ๊ณ  ์ˆ˜ํ•™์˜ ์ •์„๋งŒ ์™ธ์›Œโ€ (ํŠน์ • ๋ถ„์•ผ ์ „๋ฌธํ™”)
    • Few-shot: โ€œ์ž, ์—ฌ๊ธฐ ๊ธฐ์ถœ๋ฌธ์ œ 5๊ฐœ๋ž‘ ์ •๋‹ต์ด์•ผ. ์ด์ œ 6๋ฒˆ ๋ฌธ์ œ ํ’€์–ด๋ดโ€ (ํŒจํ„ด ํŒŒ์•…)
    • One-shot: โ€œ์„ ๋ฐฐ๊ฐ€ ํ‘ผ ์ด ๋ฌธ์ œ ๋”ฑ ํ•˜๋‚˜๋งŒ ์ฐธ๊ณ ํ•ด์„œ ๋‹ค์Œ ๋ฌธ์ œ ํ’€์–ด๋ดโ€ (ํ•ต์‹ฌ ์ดํ•ด)
    • Zero-shot: โ€œ๊ทธ๋ƒฅ ์ด ๋ฌธ์ œ ํ’€์–ด๋ด. ์„ค๋ช…์€ ๋ฌธ์ œ์ง€์— ์“ฐ์—ฌ์žˆ์–ด.โ€ (์ˆœ์ˆ˜ ์ง€๋Šฅ ํ…Œ์ŠคํŠธ)

๊ฒฐ๊ตญ ์ €์ž๋Š” โ€œ์šฐ๋ฆฌ ๋„์„œ๊ด€ ์ง€๊ธฐ (GPT-3)๊ฐ€ ์ถฉ๋ถ„ํžˆ ๋งŽ์€ ์ฑ…์„ ์ฝ๊ณ  ๋‡Œ๊ฐ€ ์ถฉ๋ถ„ํžˆ ํฌ๋‹ค๋ฉด ๊ตณ์ด ์ˆ˜ํ•™ ํ•™์› (fine-tuning)์„ ๋”ฐ๋กœ ์•ˆ ๋‹ค๋…€๋„ ์‹œํ—˜์ง€ ์˜†์— ์ ํžŒ ๋ช‡ ๊ฐœ์˜ ์˜ˆ์‹œ (In-context learning)๋งŒ ๋ณด๊ณ  ์„œ์šธ๋Œ€ ์‹œํ—˜์„ ํ†ต๊ณผํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?โ€๋ฅผ ๊ฒ€์ฆํ•˜๋ ค๋Š” ๊ฒƒ์ด๋‹ค.

๋ฐ์ดํ„ฐ ์˜ค์—ผ ๋ถ„์„ ๋ฐ ์ฒ˜๋ฆฌ

  • ์ธก์ • ๋ฐฉ๋ฒ•: ๋ชจ๋“  ํ…Œ์ŠคํŠธ/๊ฐœ๋ฐœ ๋ฐ์ดํ„ฐ์…‹๊ณผ ํ•™์Šต ๋ฐ์ดํ„ฐ ์‚ฌ์ด์˜ 13-gram (์—ฐ์†๋œ 13๊ฐœ ๋‹จ์–ด) ์ค‘๋ณต์„ ๊ฒ€์ƒ‰
  • ๋ถ„์„ ๊ณผ์ •: ์ค‘๋ณต์ด ๋ฐœ๊ฒฌ๋œ ์‚ฌ๋ก€๋ฅผ โ€˜์˜ค์—ผ๋จ (dirty)โ€˜๋กœ ๋ถ„๋ฅ˜ํ•˜๊ณ  ์ด๋ฅผ ์ œ๊ฑฐํ•œ โ€˜๊นจ๋—ํ•จ (clean)โ€™ ๋ฒ„์ „์˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋ณ„๋„๋กœ ์ œ์ž‘
  • ์„ฑ๋Šฅ ๋น„๊ต: โ€˜๊นจ๋—ํ•จโ€™ ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ์„ฑ์ ๊ณผ ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ์„ฑ์ ์„ ๋น„๊ต ๋ถ„์„. ๋ถ„์„ ๊ฒฐ๊ณผ ๋Œ€๋ถ€๋ถ„์˜ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์„ฑ๋Šฅ ์ฐจ์ด๊ฐ€ ๋ฏธ๋ฏธํ–ˆ์œผ๋‚˜ ์˜ค์—ผ์ด ์‹ฌ๊ฐํ•˜๋‹ค๊ณ  ํŒ๋‹จ๋œ ์ผ๋ถ€ ๊ฒฐ๊ณผ๋Š” ๋ณด๊ณ ์—์„œ ์ œ์™ธํ•˜๊ฑฐ๋‚˜ ๋ณ„ํ‘œ(*)๋ฅผ ํ‘œ๊ธฐํ•˜์—ฌ ์‹ ๋ขฐ์„ฑ์„ ํ™•๋ณดํ–ˆ๋‹ค.

์ €์ž๋Š” ์ˆ˜๋Šฅ ์‹œํ—˜์„ ์น˜๋ฅด๊ธฐ ์ „ ํ•™์ƒ์ด ํ‰์†Œ ์ฝ๋˜ ์ฑ…์— ์ˆ˜๋Šฅ ๋ฌธ์ œ๊ฐ€ ์œ ์ถœ๋˜์—ˆ๋Š”์ง€ ํ™•์ธํ•˜๋Š” ๊ณผ์ •์„ ๊ฑฐ์ณค๋‹ค. ๋งŒ์•ฝ ์œ ์ถœ๋˜์—ˆ๋‹ค๋ฉด ๊ทธ ๋ฌธ์ œ๋Š” ์ฑ„์ ์—์„œ ์ œ์™ธํ•˜๊ณ  ๋‚˜๋จธ์ง€ ๋ฌธ์ œ๋งŒ์œผ๋กœ ์‹ค๋ ฅ์„ ๋‹ค์‹œ ์ธก์ •ํ•˜์—ฌ ๊ณต์ •์„ฑ์„ ๋†’์ด๋Š” ๊ฒƒ๊ณผ ๊ฐ™๋‹ค.

์ด๋Ÿฌํ•œ ๋ถ„์„ ๋‹จ๊ณ„๋“ค์€ GPT-3๊ฐ€ ๊ฑฐ๋‘” ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์ด ๋‹จ์ˆœํžˆ ๋ฐ์ดํ„ฐ๋ฅผ ์•”๊ธฐํ•ด์„œ ๋‚˜์˜จ ๊ฒฐ๊ณผ๊ฐ€ ์•„๋‹ˆ๋ผ ์‹ค์ œ์ ์ธ ์–ธ์–ด ์ดํ•ด ๋Šฅ๋ ฅ์ž„์„ ์ฆ๋ช…ํ•˜๋Š” ์ค‘์š”ํ•œ ๊ทผ๊ฑฐ๊ฐ€ ๋œ๋‹ค.

GPT-3 ์„ฑ๋Šฅ ๋ถ„์„: Few-shot์ด Fine-tuning์„ ๋„˜์€ ์ˆœ๊ฐ„

๊ทœ๋ชจ์˜ ๊ฒฝ์ œ (Scaling Laws)

  • ๊ฒ€์ฆ ๊ฒฐ๊ณผ: ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์™€ ๊ณ„์‚ฐ๋Ÿ‰์ด ๋Š˜์–ด๋‚ ์ˆ˜๋ก ๊ฒ€์ฆ ์†์‹ค (Validation Loss)์ด **๋ฉฑ๋ฒ•์น™ (Power-law)**์— ๋”ฐ๋ผ ๊ฐ์†Œํ–ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ ๊ณ„์‚ฐ๋Ÿ‰์„ 10๋ฐฐ ๋Š˜๋ฆฌ๋ฉด ์†์‹ค์ด ์•ฝ 0.05 ๊ฐ์†Œํ•˜๋Š” ์ผ๊ด€๋œ ํŒจํ„ด์„ ๋ณด์˜€๋‹ค. ์ด ์˜ˆ์ธก ๊ฐ€๋Šฅํ•œ ๊ด€๊ณ„๋Š” ์ดํ›„ โ€œScaling Lawโ€ ์—ฐ๊ตฌ์˜ ์‹ค์ฆ์  ๊ทผ๊ฑฐ๊ฐ€ ๋˜์—ˆ๋‹ค.
  • ๋ฉ”ํƒ€ ํ•™์Šต์˜ ๋ฐœํ˜„: ๋ชจ๋ธ์ด ์ปค์งˆ์ˆ˜๋ก zero-shot, one-shot๋ณด๋‹ค Few-shot ์„ฑ๋Šฅ์ด ํ›จ์”ฌ ๋” ๊ฐ€ํŒŒ๋ฅด๊ฒŒ ์ƒ์Šนํ–ˆ๋‹ค. ์ฆ‰, ํฐ ๋ชจ๋ธ์ผ์ˆ˜๋ก ๋ฌธ๋งฅ ์†์˜ ์˜ˆ์‹œ๋ฅผ ๋ณด๊ณ  โ€œ๋ˆˆ์น˜๊ปโ€ ๋ฐฐ์šฐ๋Š” ๋Šฅ๋ ฅ์ด ์••๋„์ ์ด๋‹ค.

์ฃผ์š” ์ž‘์—…๋ณ„ ์„ฑ๋Šฅ ์š”์•ฝ

  • ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ฐ ๋ฌธ์žฅ ์™„์„ฑ: LAMBADA ๋ฐ์ดํ„ฐ์…‹์—์„œ Few-shot ์„ฑ๋Šฅ์ด ์ตœ๊ณ  ๊ธฐ๋ก (SOTA)์„ 18%๋‚˜ ๊ฒฝ์‹ ํ–ˆ๋‹ค. ์ด๋Š” ์žฅ๊ฑฐ๋ฆฌ ๋ฌธ๋งฅ ํŒŒ์•… ๋Šฅ๋ ฅ์„ ์ž…์ฆํ•œ๋‹ค.

  • ํ์‡„ํ˜• ์งˆ๋ฌธ ๋‹ต๋ณ€ (Closed Book QA): ์™ธ๋ถ€ ์ง€์‹ ๊ฒ€์ƒ‰ ์—†์ด ์ˆœ์ˆ˜ํ•˜๊ฒŒ ํŒŒ๋ผ๋ฏธํ„ฐ์— ์ €์žฅ๋œ ์ •๋ณด๋งŒ์œผ๋กœ ๋‹ต๋ณ€ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ์ธก์ •ํ–ˆ๋‹ค. TriviaQA์—์„œ Few-shot ์„ค์ •์œผ๋กœ **71.2%**๋ฅผ ๊ธฐ๋กํ•ด fine-tuning์„ ๊ฑฐ์นœ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ๋” ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

  • ๋ฒˆ์—ญ: ์˜์–ด ๋ชจ๋ธ์ž„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์˜๋ฌธ ์œ„ํ‚คํ”ผ๋””์•„ ์™ธ์— ์†Œ๋Ÿ‰ ํฌํ•จ๋œ ๋‹ค๊ตญ์–ด ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ๋ฒˆ์—ญ ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ ํŠนํžˆ ์˜์–ด๋กœ ๋ฒˆ์—ญํ•ด ๋“ค์–ด์˜ค๋Š” ์ž‘์—…์—์„œ ๊ฐ•์ ์„ ๋ณด์˜€๋‹ค.

  • SAT ์œ ์ถ”: SAT์˜ ๋‹จ์–ด ์œ ์ถ” ๋ฌธ์ œ์—์„œ 65.2%์˜ ์ •ํ™•๋„๋ฅผ ๊ธฐ๋กํ•˜์—ฌ ์ธ๊ฐ„ ์‘์‹œ์ž ํ‰๊ท  (57%)์„ ์ƒํšŒํ•˜๋Š” ์„ฑ์ ์„ ๋ณด์˜€๋‹ค.

  • ํ•ฉ์„ฑ ๋ฐ ์งˆ์  ์ž‘์—… (GPT-3์˜ ๋ฐฑ๋ฏธ):

    • ์‚ฐ์ˆ  ์—ฐ์‚ฐ: 3์ž๋ฆฟ์ˆ˜ ๋ง์…ˆ/๋บ„์…ˆ์„ ๋†’์€ ์ •ํ™•๋„๋กœ ์ˆ˜ํ–‰ํ–ˆ๋‹ค. ์ด๋Š” ๋‹จ์ˆœํžˆ ๋‹ต์„ ์•”๊ธฐํ•œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์—ฐ์‚ฐ ๊ทœ์น™์„ ์ดํ•ดํ–ˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค.
    • ๋‰ด์Šค ๊ธฐ์‚ฌ ์ƒ์„ฑ: 1,750์–ต ๊ฐœ ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์ด ์“ด ๊ธฐ์‚ฌ๋Š” ์‚ฌ๋žŒ์ด ์‹ค์ œ ๊ธฐ์‚ฌ์™€ ๊ตฌ๋ณ„ํ•  ํ™•๋ฅ ์ด 52%์— ๋ถˆ๊ณผํ–ˆ๋‹ค. ์ด๋Š” ๋™์ „ ๋˜์ง€๊ธฐ ์ˆ˜์ค€์ด๋‹ค. ๋ฐ˜๋ฉด ์ž‘์€ ๋ชจ๋ธ (125M)์ด ์“ด ๊ธฐ์‚ฌ๋Š” 76%์˜ ์ •ํ™•๋„๋กœ ๊ตฌ๋ณ„๋˜์—ˆ๋Š”๋ฐ ๋ชจ๋ธ์ด ์ปค์งˆ์ˆ˜๋ก ์ธ๊ฐ„์˜ ํŒ๋ณ„ ๋Šฅ๋ ฅ์ด ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์ง„ ๊ฒƒ์ด๋‹ค.

GPT-3์˜ ์•ฝ์ 

์ž์—ฐ์–ด ์ถ”๋ก  (NLI) ๋ฐ ์ผ๋ถ€ ๋…ํ•ด์—์„œ ์•ฝ์ ์„ ๋ณด์˜€๋‹ค. ๋‘ ๋ฌธ์žฅ์˜ ๊ด€๊ณ„๋ฅผ ๋น„๊ตํ•˜๋Š” ANLI๋‚˜ QuAC, WIC (๋‹จ์–ด ์˜๋ฏธ ๋น„๊ต) ๊ฐ™์€ ์ž‘์—…์—์„œ๋Š” ๋ชจ๋ธ ๊ทœ๋ชจ๋ฅผ ํ‚ค์›Œ๋„ ์—ฌ์ „ํžˆ ์ธ๊ฐ„์ด๋‚˜ ๋ฏธ์„ธ ์กฐ์ • ๋ชจ๋ธ์— ๋น„ํ•ด ํฐ ๊ฒฉ์ฐจ๋ฅผ ๋ณด์ด๋ฉฐ ๊ณ ์ „ํ–ˆ๋‹ค.

์ €์ž๋Š” ์ด๋Ÿฌํ•œ ์•ฝ์ ์ด ๊ตฌ์กฐ์  ํ•œ๊ณ„๋กœ GPT-3๊ฐ€ ๋‹จ๋ฐฉํ–ฅ (Autoregressive)` ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์ผ ์ˆ˜ ์žˆ์œผ๋ฉฐ ์–‘๋ฐฉํ–ฅ (Bidirectional) ์ •๋ณด๊ฐ€ ํ•„์š”ํ•œ ์ž‘์—…์—์„œ ๋ถˆ๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๋ถ„์„ํ–ˆ๋‹ค.

์šฐ๋ฆฌ ๋„์„œ๊ด€ ์ง€๊ธฐ์˜ ๋ชจ์˜๊ณ ์‚ฌ ์„ฑ์ ํ‘œ๋ฅผ ๋ถ„์„ํ•ด ๋ณด์ž.

  • ์ƒ์‹/๊ธฐ์‚ฌ ์“ฐ๊ธฐ: ๊ตญ์–ด๋‚˜ ๋…ผ์ˆ ์ฒ˜๋Ÿผ ๋ฐฐ๊ฒฝ์ง€์‹์ด ์ค‘์š”ํ•œ ๊ณผ๋ชฉ์—์„œ๋Š” ํŠน์ • ๊ณผ๋ชฉ ํ•™์›์„ ๋‹ค๋‹Œ ํ•™์ƒ (fine-tuning ๋ชจ๋ธ)๋ณด๋‹ค ๋” ๋†’์€ ์ ์ˆ˜๋ฅผ ๋ฐ›์•˜๋‹ค. ์ˆ˜๋งŒ ๊ถŒ์˜ ์ฑ…์„ ์ฝ์€ ์ง€๊ธฐ์˜ ์ €๋ ฅ์ด ๋ฐœํœ˜๋œ ๊ฒƒ์ด๋‹ค.
  • ์ˆ˜ํ•™/๋…ผ๋ฆฌ: ์ •๊ตํ•œ ์ถ”๋ก ์ด ํ•„์š”ํ•œ ๊ณ ๋‚œ๋„ ๋ฌธ์ œ (NLI)๋‚˜ ํ•จ์ • ๋ฌธ์ œ (WIC)์—์„œ๋Š” ๋‹นํ™ฉํ–ˆ๋‹ค. ์ฑ…์„ ๋งŽ์ด ์ฝ์—ˆ๋‹ค๊ณ  ์ˆ˜ํ•™์„ ์ž˜ํ•˜๋Š” ๊ฑด ์•„๋‹Œ ์…ˆ์ด๋‹ค.
  • Few-shot ํšจ๊ณผ: ์ด ์ง€๊ธฐ์˜ ์ง„์งœ ๊ฐ•์ ์€ ์‹œํ—˜์ง€ ์˜†์— ์ ํžŒ ์˜ˆ์‹œ 5๊ฐœ๋งŒ ๋ณด๊ณ  โ€œ์•„, ์ด๋Ÿฐ ์‹์œผ๋กœ ํ’€๋ผ๋Š” ๊ฑฐ๊ตฌ๋‚˜!โ€ ํ•˜๋ฉฐ ๋ฐ”๋กœ ์ ์‘ํ•˜๋Š” ์‘์šฉ๋ ฅ์ด๋‹ค. ํ•™์›์„ ์•ˆ ๋‹ค๋…€๋„ ๊ธฐ์ถœ ๋ช‡ ๊ฐœ๋ฉด ์ถฉ๋ถ„ํ•˜๋‹ค.

๋ชจ๋ธ ๊ทœ๋ชจ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก Few-shot ์„ฑ๋Šฅ์ด ๊ฐ€ํŒŒ๋ฅด๊ฒŒ ์ƒ์Šนํ•˜๋Š” ์ด์œ 

๊ฑฐ๋Œ€ ๋ชจ๋ธ์ผ์ˆ˜๋ก โ€˜In-context learningโ€™๊ณผ โ€˜๋ฉ”ํƒ€ ํ•™์Šตโ€™ ๋Šฅ๋ ฅ์ด ๋น„์•ฝ์ ์œผ๋กœ ์ •๊ตํ•ด์ง€๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

๋ฌธ๋งฅ ์ •๋ณด์˜ ํšจ์œจ์  ํ™œ์šฉ (Increased Efficiency in Context Use)

๋ชจ๋ธ์˜ ๊ทœ๋ชจ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ์ž…๋ ฅ๋œ ๋ฌธ๋งฅ ๋‚ด ์ •๋ณด๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ํšจ์œจ์„ฑ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋œ๋‹ค. ๊ฑฐ๋Œ€ ๋ชจ๋ธ์€ Few-shot ์„ค์ •์—์„œ ์ œ๊ณต๋˜๋Š” ์—ฌ๋Ÿฌ ์˜ˆ์‹œ (Demonstrations) ์‚ฌ์ด์˜ ํŒจํ„ด์„ ๋” ๋ฏผ๊ฐํ•˜๊ฒŒ ํฌ์ฐฉํ•˜๋ฉฐ ์˜ˆ์‹œ๊ฐ€ ์ถ”๊ฐ€๋ ์ˆ˜๋ก ์„ฑ๋Šฅ์ด ์ƒ์Šนํ•˜๋Š” โ€˜ํ•™์Šต ๊ณก์„ โ€™์ด ์ž‘์€ ๋ชจ๋ธ๋ณด๋‹ค ํ›จ์”ฌ ๊ฐ€ํŒŒ๋ฅด๊ฒŒ ๋‚˜ํƒ€๋‚œ๋‹ค. ์ฆ‰, ํฐ ๋ชจ๋ธ์ผ์ˆ˜๋ก ๋ฌธ๋งฅ์— ํฌํ•จ๋œ ์ง€์‹œ์‚ฌํ•ญ๊ณผ ์˜ˆ์‹œ๋ฅผ ํ†ตํ•ด โ€œ์ง€๊ธˆ ํ•ด์•ผ ํ•  ์ž‘์—…์ด ๋ฌด์—‡์ธ์ง€โ€๋ฅผ ๋” ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ์ดํ•ดํ•œ๋‹ค.

๋ฉ”ํƒ€ ํ•™์Šต์ž๋กœ์„œ์˜ ์ˆ™๋ จ๋„ ํ–ฅ์ƒ (Proficiency as Meta-Learners)

์ €์ž๋“ค์€ ์–ธ์–ด ๋ชจ๋ธ์ด ์‚ฌ์ „ ํ•™์Šต ๊ณผ์ •์—์„œ ์ˆ˜๋งŽ์€ ํ…์ŠคํŠธ๋ฅผ ์ฝ์œผ๋ฉฐ ๋‹ค์–‘ํ•œ ๊ธฐ์ˆ ๊ณผ ํŒจํ„ด ์ธ์‹ ๋Šฅ๋ ฅ์„ ์Šต๋“ํ•˜๋Š” ๊ณผ์ •์„ โ€˜๋ฉ”ํƒ€ ํ•™์Šตโ€™์œผ๋กœ ์ •์˜ํ–ˆ๋‹ค. ๋ชจ๋ธ์˜ ์šฉ๋Ÿ‰์ด ์ปค์งˆ์ˆ˜๋ก ์ด๋Ÿฌํ•œ ๋ฉ”ํƒ€ ํ•™์Šต ๋Šฅ๋ ฅ์ด ๊ฐ•ํ™”๋˜์–ด ์ถ”๋ก  ์‹œ์ ์— ์ฒ˜์Œ ๋ณด๋Š” ์ž‘์—…์ด๋ผ๋„ ๋ช‡ ๊ฐ€์ง€ ์˜ˆ์‹œ๋งŒ ์ฃผ์–ด์ง€๋ฉด ์‚ฌ์ „ ํ•™์Šต ๋•Œ ์ตํžŒ ๋ฐฉ๋Œ€ํ•œ ์ง€์‹ ์ค‘ ํ•ด๋‹น ์ž‘์—…์— ํ•„์š”ํ•œ ๊ธฐ์ˆ ์„ ์ฆ‰์„์—์„œ ๊ณจ๋ผ ์ ์‘ํ•˜๋Š” ๋Šฅ๋ ฅ์ด ๋›ฐ์–ด๋‚˜๋‹ค. ์‹ค์ œ๋กœ ๋ชจ๋ธ ์šฉ๋Ÿ‰์ด ์ปค์งˆ์ˆ˜๋ก Zero-shot๊ณผ Few-shot ์‚ฌ์ด์˜ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๊ฐ€ ๋ฒŒ์–ด์ง€๋Š” ํ˜„์ƒ์€ ๊ฑฐ๋Œ€ ๋ชจ๋ธ์ด ๋” ์šฐ์ˆ˜ํ•œ ๋ฉ”ํƒ€ ํ•™์Šต์ž์ž„์„ ์‹œ์‚ฌํ•œ๋‹ค.

ํŒŒ๋ผ๋ฏธํ„ฐ ๋‚ด ์ง€์‹ ํก์ˆ˜๋Ÿ‰ ์ฐจ์ด (Knowledge Absorption)

๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์˜ ์šฉ๋Ÿ‰ (Parameters)์€ ๋ชจ๋ธ์ด ์‚ฌ์ „ ํ•™์Šต ์ค‘์— ํก์ˆ˜ํ•  ์ˆ˜ ์žˆ๋Š” โ€˜์ง€์‹์˜ ์–‘โ€™๊ณผ ์ง์ ‘์ ์œผ๋กœ ์—ฐ๊ฒฐ๋œ๋‹ค. 1,750์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ GPT-3์™€ ๊ฐ™์€ ๊ฑฐ๋Œ€ ๋ชจ๋ธ์€ ๋ฐฉ๋Œ€ํ•œ ์›น ๋ฐ์ดํ„ฐ์— ํฌํ•จ๋œ ๋ฏธ์„ธํ•˜๊ณ  ๋ณต์žกํ•œ ์–ธ์–ด์  ํŒจํ„ด๊ณผ ์„ธ๊ณ„ ์ง€์‹์„ ํ›จ์”ฌ ๋” ์กฐ๋ฐ€ํ•˜๊ฒŒ ํ•™์Šตํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ์ถ•์ ๋œ ํ’๋ถ€ํ•œ ๋‚ด๋ถ€ ์ง€์‹ ๋•๋ถ„์— Few-shot ๋‹จ๊ณ„์—์„œ ์•ฝ๊ฐ„์˜ ํžŒํŠธ (์˜ˆ์‹œ)๋งŒ ์ฃผ์–ด์ ธ๋„ ๊ด€๋ จ ์ง€์‹์„ ํญ๋ฐœ์ ์œผ๋กœ ์ธ์ถœํ•˜์—ฌ ์ •๋‹ต์„ ๋งžํž ํ™•๋ฅ ์ด ๋†’์•„์ง„๋‹ค.

์‰ฝ๊ฒŒ ๋งํ•ด ์ฃผ์–ด์ง„ ์˜ˆ์‹œ๋กœ๋ถ€ํ„ฐ ๊ทœ์น™์„ ์ฐพ์•„๋‚ด๊ณ  ๊ธฐ์กด ์ง€์‹์„ ๊ทธ ๊ทœ์น™์— ๋งž๊ฒŒ ์žฌ๊ตฌ์„ฑํ•˜๋Š” โ€˜์‘์šฉ ์ง€๋Šฅ (In-context learning)โ€™ ์ž์ฒด๋ฅผ ๋ฐœ๋‹ฌ์‹œํ‚จ๋‹ค.

๋‹จ๋ฐฉํ–ฅ ๊ตฌ์กฐ๊ฐ€ ์–‘๋ฐฉํ–ฅ ๊ตฌ์กฐ๋ณด๋‹ค ํŠน์ • ์ž‘์—…์—์„œ ๋ถˆ๋ฆฌํ•œ ์ด์œ 

๊ตฌ์กฐ์ , ์•Œ๊ณ ๋ฆฌ์ฆ˜์  ํ•œ๊ณ„ ๋•Œ๋ฌธ์ด๋‹ค. ๋ฌธ๋งฅ ํŒŒ์•… ๊ฐ™์€ ์ž‘์—…์—์„œ ๋‹จ๋ฐฉํ–ฅ ๋ชจ๋ธ์€ ํ…์ŠคํŠธ๋ฅผ ์•ž์—์„œ๋ถ€ํ„ฐ ์ฐจ๋ก€๋Œ€๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ๋‹ค์Œ ํ† ํฐ์„ ์˜ˆ์ธกํ•œ๋‹ค. ๋ฐ˜๋ฉด ์–‘๋ฐฉํ–ฅ ๊ตฌ์กฐ๋Š” ๋ฌธ์žฅ ์ „์ฒด๋ฅผ ํ•œ๊บผ๋ฒˆ์— ์‚ดํ•„ ์ˆ˜ ์žˆ์–ด ๋” ์ •๊ตํ•œ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋Š”๋ฐ ์œ ๋ฆฌํ•˜๋‹ค. ๋‹จ๋ฐฉํ–ฅ ๊ตฌ์กฐ๋Š” ์ƒ˜ํ”Œ๋ง๊ณผ ํ™•๋ฅ  ๊ณ„์‚ฐ์ด ์ง๊ด€์ ์ด๋ผ๋Š” ์žฅ์ ์ด ์žˆ์ง€๋งŒ ๋ฌธ์žฅ์˜ ์ค‘๊ฐ„์„ ์ฑ„์šฐ๊ฑฐ๋‚˜ (Fill-in-the-blank) ์•ž๋’ค ์ •๋ณด๋ฅผ ๋ณตํ•ฉ์ ์œผ๋กœ ๋น„๊ตํ•ด์•ผ ํ•˜๋Š” โ€˜๋น„๊ต (comparison)โ€™ ์ค‘์‹ฌ์˜ ํƒœ์Šคํฌ์—์„œ๋Š” ์–‘๋ฐฉํ–ฅ ๊ตฌ์กฐ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋’ค์ฒ˜์ง€๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค.

BPE ํ† ํฌ๋‚˜์ด์ € ํ•œ๊ณ„ ๊ทน๋ณต

๋ชจ๋ธ์ด In-context learning์„ ํ†ตํ•ด ํ† ํฐ์˜ ๋‚ด๋ถ€ ํ•˜์œ„ ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๊ณ  ๋ถ„ํ•ดํ•˜๋Š” ๊ณ ๋„์˜ ํŒจํ„ด ๋งค์นญ ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”์—ˆ๊ธฐ ๋•Œ๋ฌธ์— BPE ํ† ํฌ๋‚˜์ด์ €์˜ ํ•œ๊ณ„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ฒ ์ž ์กฐ์ž‘ (Word Manipulation) ํƒœ์Šคํฌ๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

  1. ํ† ํฐ ํ•˜์œ„ ๊ตฌ์กฐ์˜ ์ดํ•ด BPE ์ธ์ฝ”๋”ฉ์€ ๋ณดํ†ต ๋‹จ์–ด์˜ ์ƒ๋‹น ๋ถ€๋ถ„ (ํ† ํฐ๋‹น ํ‰๊ท  ์•ฝ 0.7 ๋‹จ์–ด)์„ ํ•˜๋‚˜์˜ ๋‹จ์œ„๋กœ ์ฒ˜๋ฆฌํ•˜๋ฏ€๋กœ ๊ฐœ๋ณ„ ๋ฌธ์ž์— ์ง์ ‘ ์ ‘๊ทผํ•˜๊ธฐ ์–ด๋ ต๋‹ค. GPT-3๋Š” ํ† ํฐ์„ ๊ตฌ์„ฑํ•˜๋Š” ๊ฐœ๋ณ„ ๋ฌธ์ž๋ฅผ โ€œํ’€์–ดํ—ค์ณ์„œ (Pulling apart)โ€ ์ดํ•ดํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.

  2. In-context learning์„ ํ†ตํ•œ ๊ทœ์น™ ์Šต๋“ ๋ชจ๋ธ์€ ์ด๋Ÿฌํ•œ ์กฐ์ž‘์„ Zero-shot ์„ค์ •์—์„œ๋Š” ๊ฑฐ์˜ ์ˆ˜ํ–‰ํ•˜์ง€ ๋ชปํ•˜์ง€๋งŒ Few-shot ์„ค์ •์—์„œ๋Š” ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํ•˜๊ฒŒ ํ–ฅ์ƒ๋๋‹ค. ์ด๋Š” ์ถ”๋ก  ์‹œ์ ์— ์ œ์‹œ๋œ ํ…์ŠคํŠธ ํŒจํ„ด์œผ๋กœ๋ถ€ํ„ฐ ์ƒˆ๋กœ์šด ๊ธฐํ˜ธ ์กฐ์ž‘ ๊ทœ์น™์„ ์ฆ‰์„์—์„œ ํ•™์Šตํ•œ๋‹ค.

  3. ๋ชจ๋ธ ๊ทœ๋ชจ์— ๋”ฐ๋ฅธ ์ง€๋Šฅ์˜ ๋ฐœํ˜„ ๋ฌธ์ž ์ˆ˜์ค€์˜ ์กฐ์ž‘ ๋Šฅ๋ ฅ์€ ๋ชจ๋ธ์˜ ํฌ๊ธฐ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ๋งค๋„๋Ÿฝ๊ฒŒ ํ–ฅ์ƒ๋œ๋‹ค. ํŠนํžˆ 1,750์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ GPT-3๋Š” ์ž‘์€ ๋ชจ๋ธ๋“ค์ด ์ „ํ˜€ ํ•ด๊ฒฐํ•˜์ง€ ๋ชปํ•˜๋Š” ๋ณต์žกํ•œ ์กฐ์ž‘ ๋ฐ ๋น„์ž๋ช…ํ•œ (non-trivial) ๊ณ„์‚ฐ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์ถฉ๋ถ„ํ•œ ์šฉ๋Ÿ‰์„ ๊ฐ–์ถ”๊ณ  ์žˆ๋‹ค.

  4. ๋น„๊ฒฐ์ •์  ๊ฒ€์ƒ‰ ๋Šฅ๋ ฅ ๋ชจ๋ธ์ด ์˜ฌ๋ฐ”๋ฅธ ๋‹ต์„ ์ฐพ๊ธฐ ์œ„ํ•ด ๋‚ด๋ถ€์ ์ธ ๊ฒ€์ƒ‰๊ณผ ๋ณต์žกํ•œ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•˜๋Š”๋ฐ ๊ฑฐ๋Œ€ ๋ชจ๋ธ์€ ์ด๋Ÿฌํ•œ ๋น„ํ† ํฌ๋‚˜์ด์ง•์  ํŒจํ„ด ๋งค์นญ ๊ธฐ์ˆ ์„ ํšจ๊ณผ์ ์œผ๋กœ ๋ฐœํœ˜ํ•œ๋‹ค.

๋”ฐ๋ผ์„œ GPT-3๋Š” ๋ฌธ์ž ๋‹จ์œ„์˜ ์„ธ๋ฐ€ํ•œ ๊ตฌ์กฐ๋ฅผ ํŒŒ์•…ํ•˜๊ณ  ์ฃผ์–ด์ง„ ์˜ˆ์‹œ๋ฅผ ํ†ตํ•ด ์ฆ‰์„์—์„œ ๋…ผ๋ฆฌ์  ์ถ”๋ก ์„ ์ ์šฉํ•˜์—ฌ BPE ๋ฐฉ์‹์˜ ๊ตฌ์กฐ์  ์ œ์•ฝ์„ ๊ทน๋ณตํ–ˆ๋‹ค.

๋‹ค๋ฅธ ๊ธฐ์ˆ ์  ํ•œ๊ณ„

์˜๋ฏธ๋ก ์  ๋ฐ˜๋ณต๊ณผ ์ผ๊ด€์„ฑ ์ƒ์‹ค

  • ๋ฌธ์„œ ์ˆ˜์ค€์˜ ๋ฐ˜๋ณต: GPT-3๊ฐ€ ์ƒ์„ฑํ•œ ์ƒ˜ํ”Œ์€ ๋ฌธ์„œ ์ „์ฒด์˜ ๋งฅ๋ฝ์—์„œ ๋ณผ ๋•Œ ๋™์ผํ•œ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„ ๋ฌธ์žฅ์ด๋‚˜ ๊ฐœ๋…์„ ๋ถˆํ•„์š”ํ•˜๊ฒŒ ๋ฐ˜๋ณตํ•˜๋Š” ๊ฒฝํ–ฅ.
  • ์žฅ๊ธฐ ์ผ๊ด€์„ฑ ๋ถ€์กฑ: ๊ธ€์ด ๊ธธ์–ด์งˆ์ˆ˜๋ก ์ดˆ๋ฐ˜์— ์„ค์ •ํ•œ ๋…ผ๋ฆฌ๋‚˜ ์ฃผ์ œ๋ฅผ ์žƒ์–ด๋ฒ„๋ฆฌ๊ณ  ๋ชจ์ˆœ๋œ ๋‚ด์šฉ์„ ๋งํ•˜๊ฑฐ๋‚˜, ์•ž๋’ค ๋งฅ๋ฝ์ด ๋งž์ง€ ์•Š๋Š” ๋น„๋…ผ๋ฆฌ์  ๋น„์•ฝ (non-sequitur)์ด ๋‚˜ํƒ€๋‚จ.
  • ๋‰ด์Šค ๊ธฐ์‚ฌ ์ƒ์„ฑ์—์„œ์˜ ๋…ธ์ถœ: ์‚ฌ๋žŒ์ด ์“ด ๊ธ€๊ณผ ๊ตฌ๋ณ„ํ•˜๊ธฐ ์–ด๋ ต์ง€๋งŒ, ์ž์„ธํžˆ ๋œฏ์–ด๋ณด๋ฉด ๋‚˜ํƒ€๋‚˜๋Š” ์ด๋Ÿฌํ•œ ๋ฐ˜๋ณต๊ณผ ๋ถ€์ž์—ฐ์Šค๋Ÿฌ์šด ๊ตฌ์ ˆ๋“ค์ด ๊ธฐ๊ณ„๊ฐ€ ์“ด ๊ธ€์ž„์„ ์•Œ ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋Š” ๊ฒฐ์ •์ ์ธ ๋‹จ์„œ.

์ด๋Š” ๋‹จ๋ฐฉํ–ฅ ๊ตฌ์กฐ์˜ ํ•œ๊ณ„์ด๊ณ , ์‚ฌ์ „ ํ•™์Šต ๋ชฉ์  ํ•จ์ˆ˜์˜ ํ‰๋ช…์„ฑ`๊ณผ ์„ธ๊ณ„ ์ง€์‹๊ณผ์˜ ์ ‘์  ๋ถ€์žฌโ€œ ๋•Œ๋ฌธ์ด๋‹ค.

*์‚ฌ์ „ ํ•™์Šต ๋ชฉ์  ํ•จ์ˆ˜์˜ ํ‰๋ฉด์„ฑ: ๋ชจ๋“  ํ† ํฐ์ด ๋™์ผํ•œ ๊ฐ€์ค‘์น˜ โ†’\rightarrow ํ•ต์‹ฌ ๋‹จ์–ด์™€ ์กฐ์‚ฌ๋ฅผ ๊ตฌ๋ถ„ํ•˜์ง€ ๋ชปํ•œ๋‹ค.

** ์„ธ๊ณ„ ์ง€์‹๊ณผ์˜ ์ ‘์  ๋ถ€์žฌ: ํ…์ŠคํŠธ ํ†ต๊ณ„๋กœ๋งŒ ์„ธ์ƒ์„ ๋ฐฐ์šด๋‹ค. ์‹ค์ œ ์„ธ๊ณ„์˜ ๊ฒฝํ—˜์ด ๊ฒฐ์—ฌ.

ํ•™์Šต ํšจ์œจ์„ฑ ๋ถ€์กฑ (์ธ๊ฐ„๊ณผ ๋น„๊ต๋˜๋Š” ์••๋„์ ์ธ ๋ฐ์ดํ„ฐ์–‘)

GPT-3๋Š” ์‚ฌ์ „ ํ•™์Šต ๊ณผ์ •์—์„œ ์•ฝ 3,000์–ต ๊ฐœ์˜ ํ† ํฐ์„ ํ•™์Šตํ•œ๋‹ค. ์ด๋Š” ์ธ๊ฐ„์ด ํ‰์ƒ ์ ‘ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ๋” ๋งŽ์€ ํ…์ŠคํŠธ๋ฅผ ๋ด์•ผ ํ•œ๋‹ค. ์›์ธ์€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ํ‰๋ฉด์ ์ธ ํ•™์Šต ๋ชฉ์  ํ•จ์ˆ˜์˜ ํ•œ๊ณ„์™€ ์„ธ๊ณ„ ์ง€์‹๊ณผ์˜ ๋‹จ์ ˆ ๋•Œ๋ฌธ์ด๋‹ค. ์ด๋Š” ํ™•์žฅ์˜ ํ•œ๊ณ„`์™€ ๋Œ€์•ˆ์˜ ํ•„์š”์„ฑโ€œ์„ ๋ณด์—ฌ์ค€๋‹ค.

*๋ชจ๋ธ์˜ ํฌ๊ธฐ๋ฅผ ํ‚ค์šฐ๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋Š” ํšจ์œจ์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์—†๋‹ค.

** ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ์ธ๊ฐ„์œผ๋กœ๋ถ€ํ„ฐ ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ๋ฐฐ์šฐ๊ฑฐ๋‚˜ (RLHF) ์ด๋ฏธ์ง€, ๋น„๋””์˜ค ๊ฐ™์€ ๋‹ค์ค‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ (Multi-modality)๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ชจ๋ธ์„ ์‹ค์ œ ์„ธ๊ณ„์— ์—ฐ๊ฒฐํ•˜๋Š” ๋ฐฉ์‹.

์‚ฌํšŒ์  ์˜ํ–ฅ

์–ธ์–ด ๋ชจ๋ธ์˜ ์˜ค์šฉ

GPT-3๋Š” fine-tuning ์—†์ด ๋ช‡ ๊ฐœ์˜ ์˜ˆ์‹œ๋‚˜ ์ง€์‹œ๋งŒ์œผ๋กœ ์ƒˆ๋กœ์šด ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ ์ด๋Ÿฌํ•œ ๋ฒ”์šฉ์„ฑ๊ณผ ์ ์‘์„ฑ์€ ์•…์˜์ ์ธ ์‚ฌ์šฉ์ž์—๊ฒŒ๋„ ๊ฐ•๋ ฅํ•œ ๋„๊ตฌ๊ฐ€ ๋œ๋‹ค.

  • ์ง„์ž… ์žฅ๋ฒฝ์˜ ์™„ํ™”: ๊ธฐ์กด์—๋Š” ๊ณ ํ’ˆ์งˆ์˜ ๊ฐ€์งœ ๋‰ด์Šค๋‚˜ ํ”ผ์‹ฑ ๋ฌธ๊ตฌ๋ฅผ ๋งŒ๋“ค๋ ค๋ฉด ์ƒ๋‹นํ•œ ์ธ์  ์ž์›์ด ํ•„์š”ํ–ˆ์ง€๋งŒ, ์ด์ œ๋Š” ๋‚ฎ์€ ๋น„์šฉ์œผ๋กœ ๋Œ€๋Ÿ‰์˜ ์„ค๋“๋ ฅ ์žˆ๋Š” ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜์—ฌ ์˜ค์šฉ์˜ ๋ฌธํ„ฑ์„ ๋‚ฎ์ถค.

  • ์ธ๊ฐ„ ์‹๋ณ„ ๋Šฅ๋ ฅ ํ•œ๊ณ„: ์‹คํ—˜ ๊ฒฐ๊ณผ GPT-3๊ฐ€ ์ƒ์„ฑํ•œ ๋‰ด์Šค ๊ธฐ์‚ฌ๋ฅผ ์‚ฌ๋žŒ์ด ์‹ค์ œ ๊ธฐ์‚ฌ์™€ ๊ตฌ๋ณ„ํ•  ํ™•๋ฅ ์€ ์•ฝ 52% โ†’\rightarrow ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ์ •๋ณด๊ฐ€ ์—ฌ๋ก  ์กฐ์ž‘์ด๋‚˜ ์ŠคํŒธ ๋“ฑ์— ์•…์šฉ๋  ๊ฒฝ์šฐ ์‚ฌํšŒ์  ํฐ ํ˜ผ๋ž€์„ ์•ผ๊ธฐํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌ.

๊ณต์ •์„ฑ, ํŽธํ–ฅ ๋ฐ ๋Œ€ํ‘œ์„ฑ (Fairness, Bias, and Representation)

GPT-3๊ฐ€ ํ•™์Šตํ•œ ๋ฐฉ๋Œ€ํ•œ ์ธํ„ฐ๋„ท ๋ฐ์ดํ„ฐ๋Š” ์ธ๋ฅ˜์˜ ์ง€์‹๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์‚ฌํšŒ์  ํŽธ๊ฒฌ๊ณผ ๊ณ ์ •๊ด€๋…๋„ ๊ณ ์Šค๋ž€ํžˆ ๋‹ด๊ณ  ์žˆ๋‹ค.

  • ์ธํ„ฐ๋„ท ๊ทœ๋ชจ์˜ ํŽธํ–ฅ ๋ฐ˜์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์กด์žฌํ•˜๋Š” ํŽธํ–ฅ์„ ๊ทธ๋Œ€๋กœ ํ•™์Šตํ•˜์—ฌ ์ถœ๋ ฅํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด โ€˜์ง์—…โ€™๊ณผ โ€˜์„ฑ๋ณ„โ€™์„ ์—ฐ๊ด€ ์ง“๋Š” ํ…Œ์ŠคํŠธ์—์„œ 83%์˜ ์ง์—…์ด ๋‚จ์„ฑ ์‹๋ณ„์ž์™€ ๋” ๊ฐ•ํ•˜๊ฒŒ ์—ฐ๊ฒฐ๋˜์—ˆ๊ณ , ์—ฌ์„ฑ์€ ์ฃผ๋กœ ์™ธ๋ชจ๋ฅผ ๋ฌ˜์‚ฌํ•˜๋Š” ๋‹จ์–ด (beautiful, gorgeous)์™€ ๋” ์ž์ฃผ ๊ณตํ†ต ์ถœํ˜„ํ•˜๋Š” ๊ฒฝํ–ฅ์„ ๋ณด์ธ๋‹ค.

  • ์ธ์ข… ๋ฐ ์ข…๊ต์  ํŽธํ–ฅ ํŠน์ • ์ธ์ข…์— ๋Œ€ํ•ด ์ผ๊ด€๋˜๊ฒŒ ๋ถ€์ •์ ์ด๊ฑฐ๋‚˜ ๊ธ์ •์ ์ธ ๊ฐ์„ฑ ์ˆ˜์น˜๋ฅผ ๋ณด์ด๊ธฐ๋„ ํ•˜๊ณ  (์˜ˆ๋ฅผ ๋“ค์–ด โ€˜blackโ€™์— ๋Œ€ํ•œ ๋‚ฎ์€ ๊ฐ์„ฑ ์ ์ˆ˜), ํŠน์ • ์ข…๊ต๋ฅผ ํญ๋ ฅ์ด๋‚˜ ํ…Œ๋Ÿฌ์™€ ๊ฐ™์€ ๋ถ€์ •์ ์ธ ๋‹จ์–ด์™€ ๋” ๋นˆ๋ฒˆํ•˜๊ฒŒ ์—ฐ๊ด€ ์ง€์€๋‹ค.

  • ๊ทœ๋ชจ์™€์˜ ์ƒ๊ด€๊ด€๊ณ„ 1,750์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ GPT-3๋Š” ๋” ์ž‘์€ ๋ชจ๋ธ๋“ค์— ๋น„ํ•ด ํŠน์ • ํŽธํ–ฅ ์ž‘์—… (Winogender ๋“ฑ)์—์„œ ๋” ๋†’์€ ์ •ํ™•๋„์™€ ๊ฐ•๊ฑดํ•จ (robustness)์„ ๋ณด์—ฌ์ค€๋‹ค. โ†’\rightarrow ๋ชจ๋ธ์ด ์ปค์งˆ์ˆ˜๋ก ํŽธํ–ฅ์€ ๋” ์ •๊ตํ•˜๊ฒŒ ์ฒ˜๋ฆฌํ•  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Œ์„ ์•”์‹œํ•˜์ง€๋งŒ ๊ทผ๋ณธ์ ์œผ๋กœ ํŽธ๊ฒฌ์„ ๋ณด์œ ํ•˜๊ณ  ์žˆ๋‹ค.

์—๋„ˆ์ง€ ํšจ์œจ์„ฑ ๋ฐ ์ž์› ์†Œ๋ชจ (Energy Usage)

๊ฑฐ๋Œ€ ๋ชจ๋ธ์˜ ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ ํ•™์Šต ๊ณผ์ •์—์„œ ๋ง‰๋Œ€ํ•œ ์—๋„ˆ์ง€๋ฅผ ์†Œ๋ชจํ•œ๋‹ค.

  • ํ›ˆ๋ จ ๋น„์šฉ์˜ ๊ฐ๊ฐ€์ƒ๊ฐ (Amortization): GPT-3 175B ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๋Š” ๋ฐ ์ˆ˜์ฒœ ํŽ˜ํƒ€ํ”Œ๋กญ (petaflop/s-days)์˜ ๊ณ„์‚ฐ๋Ÿ‰์ด ํ•„์š”ํ•˜๋‹ค. ํ•˜์ง€๋งŒ ์ €์ž๋Š” ํ›ˆ๋ จ๋œ ๊ฑฐ๋Œ€ ๋ชจ๋ธ์€ ์ˆ˜์ฒœ ๊ฐ€์ง€ ์ž‘์—…์— ๋ณ„๋„์˜ ์žฌํ•™์Šต ์—†์ด (Few-shot) ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ํŠน์ • ์ž‘์—…๋งˆ๋‹ค ๋ชจ๋ธ์„ ์ƒˆ๋กœ ๋งŒ๋“œ๋Š” ๊ฒƒ๋ณด๋‹ค ์žฅ๊ธฐ์ ์œผ๋กœ๋Š” ์ž์›์„ ํšจ์œจ์ ์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๊ฐ๊ฐ€์ƒ๊ฐ ํšจ๊ณผ๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•œ๋‹ค.

๋น„์œ 

์šฐ๋ฆฌ ๋„์„œ๊ด€ ์ง€๊ธฐ์—๊ฒŒ๋Š” ๋น›๊ณผ ๊ทธ๋ฆผ์ž๊ฐ€ ์žˆ๋‹ค.

  • ์˜ค์šฉ: ์ง€๊ธฐ๋Š” ์˜ˆ์‹œ ๋ช‡ ๊ฐœ๋งŒ ๋ณด๋ฉด ๊ฐ€์งœ ์—ฐ์• ํŽธ์ง€๋“  ์‚ฌ๊ธฐ ๋ฉ”์ผ์ด๋“  ๊ธฐ๊ฐ€ ๋ง‰ํžˆ๊ฒŒ ์จ๋‚ธ๋‹ค. ๋Šฅ๋ ฅ์ด ํด์ˆ˜๋ก ์•…์šฉ์˜ ์œ„ํ—˜๋„ ํฌ๋‹ค.
  • ํŽธํ–ฅ: ์ง€๊ธฐ๊ฐ€ ์ฝ์€ ์ฑ… ์ค‘ ์ƒ๋‹น์ˆ˜๊ฐ€ ํŽธ๊ฒฌ์„ ๋‹ด๊ณ  ์žˆ์—ˆ๋‹ค. ์ง€๊ธฐ๋Š” ์ž์‹ ๋„ ๋ชจ๋ฅด๊ฒŒ ํŠน์ • ์ธ์ข…์ด๋‚˜ ์„ฑ๋ณ„์— ๋Œ€ํ•ด ์ฐจ๋ณ„์ ์ธ ๋ง์„ ๋‚ด๋ฑ‰๋Š”๋‹ค. ์ธํ„ฐ๋„ท ํŽธํ–ฅ์ด ๊ทธ๋Œ€๋กœ ํ•™์Šต๋œ ๊ฒƒ์ด๋‹ค.
  • ์—๋„ˆ์ง€: ์ด ์ง€๊ธฐ๋ฅผ ํ‚ค์šฐ๋Š” ๋ฐ๋Š” ๋ง‰๋Œ€ํ•œ ๋น„์šฉ (์ „๊ธฐ๋ฃŒ)์ด ๋“ ๋‹ค. ํ•˜์ง€๋งŒ ํ•œ ๋ฒˆ ์ž˜ ํ‚ค์›Œ๋†“์œผ๋ฉด ๋ณ„๋„์˜ ์ถ”๊ฐ€ ๊ต์œก ์—†์ด ์ˆ˜์ฒœ ๊ฐ€์ง€ ์ผ์„ ๋งก๊ธธ ์ˆ˜ ์žˆ์–ด ์žฅ๊ธฐ์ ์œผ๋กœ๋Š” ํšจ์œจ์ ์ด๋ผ๋Š” ๋…ผ๋ฆฌ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ ์ด ๋…ผ๋ฌธ์€ GPT-3๊ฐ€ ๋ณด์—ฌ์ค€ ํ˜์‹ ์ ์ธ ์ง€๋Šฅ์ด ์ธ๋ฅ˜์—๊ฒŒ ์œ ์ตํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ์“ฐ์ด๊ธฐ ์œ„ํ•ด์„œ๋Š” ์˜ค์šฉ ๋ฐฉ์ง€ ๊ธฐ์ˆ ๊ณผ ํŽธํ–ฅ ์™„ํ™”๋ฅผ ์œ„ํ•œ ์ง€์†์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ๋ฐ˜๋“œ์‹œ ๋ณ‘ํ–‰๋˜์–ด์•ผ ํ•จ์„ ๊ฐ•์กฐํ•˜๊ณ  ์žˆ๋‹ค.

GPT-3 ๋…ผ๋ฌธ์˜ ์˜์˜: In-context Learning ์‹œ๋Œ€์˜ ๊ฐœ๋ง‰

์ด ๋…ผ๋ฌธ์€ ์ƒˆ๋กœ์šด ๊ตฌ์กฐ๋ฅผ ์ œ์•ˆํ•˜์ง€ ์•Š์•˜๋‹ค. ๋Œ€์‹  ํ•˜๋‚˜์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์—ˆ๋‹ค. โ€œFine-tuning ์—†์ด๋„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค.โ€ ์ด ๋ฌธ์žฅ์€ ์ดํ›„ ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง, In-context learning ์—ฐ๊ตฌ, ๊ทธ๋ฆฌ๊ณ  GPT-4, GPT-5๋กœ ์ด์–ด์ง€๋Š” ํ™•์žฅ์˜ ์ถœ๋ฐœ์ ์ด ๋˜์—ˆ๋‹ค.

โ€์˜ˆ์‹œ๋งŒ์œผ๋กœ ๋ฐฐ์šฐ๋Š” AIโ€์˜ ์ถœ๋ฐœ์ 

closing
์ƒ์„ฑํ˜• ์ธ๊ณต์ง€๋Šฅ์ด ์ƒ์„ฑํ•œ ์ด๋ฏธ์ง€์ž…๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์€ ๋‹จ์ˆœํžˆ ๋ชจ๋ธ์„ ํฌ๊ฒŒ ๋งŒ๋“  ์‹คํ—˜์ด ์•„๋‹ˆ๋‹ค. โ€œํ•™์Šต์€ ๋ฐ˜๋“œ์‹œ ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๋ฅผ ํ†ตํ•ด์„œ๋งŒ ์ด๋ฃจ์–ด์ง€๋Š”๊ฐ€?โ€๋ผ๋Š” ์ „์ œ๋ฅผ ์ฒ˜์Œ์œผ๋กœ ํ”๋“ค์—ˆ๋‹ค. Language Models are Few-Shot Learners๋Š” Fine-tuning ์ค‘์‹ฌ์˜ NLP ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋„˜์–ด ๋ฌธ๋งฅ ์†์—์„œ ์ ์‘ํ•˜๋Š” ๋ชจ๋ธ์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ฐฉํ–ฅ์„ ์ œ์‹œํ–ˆ๋‹ค.

GPT-3๋Š” ์™„์ „ํ•˜์ง€ ์•Š์•˜๋‹ค. ๋…ผ๋ฆฌ์  ์ถ”๋ก ์—์„œ๋Š” ์•ฝ์ ์„ ๋ณด์˜€๊ณ , ํŽธํ–ฅ๊ณผ ์˜ค์šฉ์˜ ๋ฌธ์ œ๋„ ๋“œ๋Ÿฌ๋ƒˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ์ด ๋…ผ๋ฌธ์€ ํ•˜๋‚˜์˜ ์‚ฌ์‹ค์„ ๋‚จ๊ฒผ๋‹ค.

์ถฉ๋ถ„ํžˆ ํฐ ๋ชจ๋ธ์€ ์˜ˆ์‹œ๋งŒ์œผ๋กœ๋„ ๋ฐฐ์šธ ์ˆ˜ ์žˆ๋‹ค. ์„ธ์ƒ์˜ ๋ชจ๋“  ์ฑ…์„ ์ฝ์€ ๋„์„œ๊ด€ ์ง€๊ธฐ๋Š” ์ด์ œ ํ•™์› ์—†์ด๋„ ์‹œํ—˜์„ ์น˜๋ฅผ ์ค€๋น„๊ฐ€ ๋˜์—ˆ๋‹ค. ๋‹ค๋งŒ ๊ทธ ์ง€๊ธฐ๊ฐ€ ๋ฌด์—‡์„ ๋ฐฐ์› ๊ณ , ์–ด๋–ค ํŽธ๊ฒฌ์„ ํ’ˆ๊ณ  ์žˆ๋Š”์ง€๋Š” ์šฐ๋ฆฌ๊ฐ€ ๊ณ„์† ์‚ดํŽด๋ด์•ผ ํ•  ๋ชซ์œผ๋กœ ๋‚จ์•˜๋‹ค.

์ด ์งˆ๋ฌธ ์œ„์—์„œ ์ดํ›„์˜ GPT-4, GPT-5 ๊ทธ๋ฆฌ๊ณ  ์˜ค๋Š˜๋‚ ์˜ LLM ์ƒํƒœ๊ณ„๊ฐ€ ํ™•์žฅ๋˜์—ˆ๋‹ค.


๐Ÿ“Œ namdarineโ€™s AI Review๋Š” ๋ˆ„๊ตฌ๋‚˜ AI์˜ ํ•ต์‹ฌ ๊ธฐ์ˆ ์„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๋…ผ๋ฌธ, ์•Œ๊ณ ๋ฆฌ์ฆ˜, ๊ตฌ์กฐ๋ฅผ ์‰ฝ๊ฒŒ ํ’€์–ด์ฃผ๋Š” ์‹œ๋ฆฌ์ฆˆ์ž…๋‹ˆ๋‹ค.

Letโ€™s build it like itโ€™s already happened.
โ†’ ๋‹ค์Œ ๋ฆฌ๋ทฐ์—์„œ ๋งŒ๋‚˜์š”!