OpenAI (GPT-1) | |
![]() | |
Az eredeti GPT architektúra sematikus ábrája | |
Fejlesztő | OpenAI |
Első kiadás | 2018. június |
Programozási nyelv | Python |
Platform | Platformfüggetlen (kutatási modellként) |
Méret | 117 millió paraméter |
Elérhető | Angol (elsősorban a BookCorpus alapján) |
Kategória | |
Licenc | Propietárius; a kutatáshoz kapcsolódó későbbi kód (pl. a GPT-2) MIT-licenc alatt került kiadásra[1] |
Az OpenAI (GPT-1) weboldala |
A Generative Pre-trained Transformer 1 (röviden GPT-1) volt az OpenAI által fejlesztett első olyan nagy nyelvi modell, amely a Google kutatói által 2017-ben publikált transzformer architektúrán alapult.[2] 2018 júniusában az OpenAI kiadta az „Improving Language Understanding by Generative Pre-Training” (A nyelvértés javítása generatív előtanítással) című tudományos közleményét,[3] amelyben nemcsak magát az első GPT modellt mutatták be, hanem ezzel együtt megalapozták a generatív előtanított transzformer modellek általános koncepcióját is.[4] Ez a modell jelentős mérföldkőnek számított a természetes nyelvi feldolgozás területén.
A korábbi, csúcstechnológiát képviselő természetesnyelv-feldolgozó (NLP) modellek túlnyomórészt felügyelt tanulási módszerekre épültek, amelyek nagyméretű, manuálisan annotált (címkézett) adathalmazokat igényeltek a tanításhoz. Ez a függőség komoly korlátot jelentett a modellek méretezhetőségében, és akadályozta az olyan, kevés digitális szöveges erőforrással rendelkező nyelvek feldolgozásának fejlődését is, mint például a szuahéli vagy a haiti kreol.[5] Ezzel szemben a GPT-1 újszerű, kétfázisú, „félig felügyelt” megközelítést alkalmazott: először egy felügyelet nélküli, generatív „előtanítási” (pre-training) fázisban tanították be a modell alapvető nyelvi képességeit egy nagy, címkézetlen szövegkorpuszon nyelvi modellezési céllal, majd ezt egy felügyelt „finomhangolási” (fine-tuning) szakasz követte, amely során a már előtanított modellt specifikus célfeladatokhoz igazították kisebb, címkézett adathalmazok segítségével.[3]
A transzformer architektúra alkalmazása kulcsfontosságú előrelépést jelentett a korábbi, főként visszacsatolt neurális hálózatokon (RNN) és LSTM-eken alapuló, figyelem-mechanizmust használó modellekhez képest. A transzformer strukturáltabb memóriakezelést tett lehetővé, és hatékonyabban tudta megragadni a hosszabb távú szöveges függőségeket, ami robusztusabb általánosítási képességet biztosított a különböző nyelvi feladatok között.[3]