GPT-1

OpenAI (GPT-1)
Az eredeti GPT architektúra sematikus ábrája
Az eredeti GPT architektúra sematikus ábrája

FejlesztőOpenAI
Első kiadás2018. június
Programozási nyelvPython
PlatformPlatformfüggetlen (kutatási modellként)
Méret117 millió paraméter
ElérhetőAngol (elsősorban a BookCorpus alapján)
Kategória
LicencPropietárius; a kutatáshoz kapcsolódó későbbi kód (pl. a GPT-2) MIT-licenc alatt került kiadásra[1]
Az OpenAI (GPT-1) weboldala

A Generative Pre-trained Transformer 1 (röviden GPT-1) volt az OpenAI által fejlesztett első olyan nagy nyelvi modell, amely a Google kutatói által 2017-ben publikált transzformer architektúrán alapult.[2] 2018 júniusában az OpenAI kiadta az „Improving Language Understanding by Generative Pre-Training” (A nyelvértés javítása generatív előtanítással) című tudományos közleményét,[3] amelyben nemcsak magát az első GPT modellt mutatták be, hanem ezzel együtt megalapozták a generatív előtanított transzformer modellek általános koncepcióját is.[4] Ez a modell jelentős mérföldkőnek számított a természetes nyelvi feldolgozás területén.

A korábbi, csúcstechnológiát képviselő természetesnyelv-feldolgozó (NLP) modellek túlnyomórészt felügyelt tanulási módszerekre épültek, amelyek nagyméretű, manuálisan annotált (címkézett) adathalmazokat igényeltek a tanításhoz. Ez a függőség komoly korlátot jelentett a modellek méretezhetőségében, és akadályozta az olyan, kevés digitális szöveges erőforrással rendelkező nyelvek feldolgozásának fejlődését is, mint például a szuahéli vagy a haiti kreol.[5] Ezzel szemben a GPT-1 újszerű, kétfázisú, „félig felügyelt” megközelítést alkalmazott: először egy felügyelet nélküli, generatív „előtanítási” (pre-training) fázisban tanították be a modell alapvető nyelvi képességeit egy nagy, címkézetlen szövegkorpuszon nyelvi modellezési céllal, majd ezt egy felügyelt „finomhangolási” (fine-tuning) szakasz követte, amely során a már előtanított modellt specifikus célfeladatokhoz igazították kisebb, címkézett adathalmazok segítségével.[3]

A transzformer architektúra alkalmazása kulcsfontosságú előrelépést jelentett a korábbi, főként visszacsatolt neurális hálózatokon (RNN) és LSTM-eken alapuló, figyelem-mechanizmust használó modellekhez képest. A transzformer strukturáltabb memóriakezelést tett lehetővé, és hatékonyabban tudta megragadni a hosszabb távú szöveges függőségeket, ami robusztusabb általánosítási képességet biztosított a különböző nyelvi feladatok között.[3]

  1. gpt-2. GitHub. [2023. március 11-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. március 13.)
  2. Vaswani, Ashish et al.: Attention is All you Need. Advances in Neural Information Processing Systems, 2017. [1]
  3. a b c Radford, Alec et al.: Improving Language Understanding by Generative Pre-Training. OpenAI, 2018. [2]
  4. GPT-1-től GPT-4-ig: Az OpenAI összes GPT modellje magyarázattal, 2023. április 11. [2023. április 15-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. április 29.)
  5. Tsvetkov, Yulia: Opportunities and Challenges in Working with Low-Resource Languages. Carnegie Mellon University, 2017. [3]

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Nelliwinne