GPT-1

	OpenAI (GPT-1)
	Az eredeti GPT architektúra sematikus ábrája
Fejlesztő	OpenAI
Első kiadás	2018. június
Programozási nyelv	Python
Platform	Platformfüggetlen (kutatási modellként)
Méret	117 millió paraméter
Elérhető	Angol (elsősorban a BookCorpus alapján)
Kategória	Nagy nyelvi modell; Generatív előtanított transformátor;
Licenc	Propietárius; a kutatáshoz kapcsolódó későbbi kód (pl. a GPT-2) MIT-licenc alatt került kiadásra
	Az OpenAI (GPT-1) weboldala

Bővebben: ChatGPT

A Generative Pre-trained Transformer 1 (röviden GPT-1) volt az OpenAI által fejlesztett első olyan nagy nyelvi modell, amely a Google kutatói által 2017-ben publikált transzformer architektúrán alapult.^[2] 2018 júniusában az OpenAI kiadta az „Improving Language Understanding by Generative Pre-Training” (A nyelvértés javítása generatív előtanítással) című tudományos közleményét,^[3] amelyben nemcsak magát az első GPT modellt mutatták be, hanem ezzel együtt megalapozták a generatív előtanított transzformer modellek általános koncepcióját is.^[4] Ez a modell jelentős mérföldkőnek számított a természetes nyelvi feldolgozás területén.

A korábbi, csúcstechnológiát képviselő természetesnyelv-feldolgozó (NLP) modellek túlnyomórészt felügyelt tanulási módszerekre épültek, amelyek nagyméretű, manuálisan annotált (címkézett) adathalmazokat igényeltek a tanításhoz. Ez a függőség komoly korlátot jelentett a modellek méretezhetőségében, és akadályozta az olyan, kevés digitális szöveges erőforrással rendelkező nyelvek feldolgozásának fejlődését is, mint például a szuahéli vagy a haiti kreol.^[5] Ezzel szemben a GPT-1 újszerű, kétfázisú, „félig felügyelt” megközelítést alkalmazott: először egy felügyelet nélküli, generatív „előtanítási” (pre-training) fázisban tanították be a modell alapvető nyelvi képességeit egy nagy, címkézetlen szövegkorpuszon nyelvi modellezési céllal, majd ezt egy felügyelt „finomhangolási” (fine-tuning) szakasz követte, amely során a már előtanított modellt specifikus célfeladatokhoz igazították kisebb, címkézett adathalmazok segítségével.^[3]

A transzformer architektúra alkalmazása kulcsfontosságú előrelépést jelentett a korábbi, főként visszacsatolt neurális hálózatokon (RNN) és LSTM-eken alapuló, figyelem-mechanizmust használó modellekhez képest. A transzformer strukturáltabb memóriakezelést tett lehetővé, és hatékonyabban tudta megragadni a hosszabb távú szöveges függőségeket, ami robusztusabb általánosítási képességet biztosított a különböző nyelvi feladatok között.^[3]

↑ gpt-2. GitHub. [2023. március 11-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. március 13.)
↑ Vaswani, Ashish et al.: Attention is All you Need. Advances in Neural Information Processing Systems, 2017. [1]
↑ ^a ^b ^c Radford, Alec et al.: Improving Language Understanding by Generative Pre-Training. OpenAI, 2018. [2]
↑ GPT-1-től GPT-4-ig: Az OpenAI összes GPT modellje magyarázattal, 2023. április 11. [2023. április 15-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. április 29.)
↑ Tsvetkov, Yulia: Opportunities and Challenges in Working with Low-Resource Languages. Carnegie Mellon University, 2017. [3]

[1] gpt-2. GitHub. [2023. március 11-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. március 13.)

[vaswani-2] Vaswani, Ashish et al.: Attention is All you Need. Advances in Neural Information Processing Systems, 2017. [1]

[gpt1paper-3] Radford, Alec et al.: Improving Language Understanding by Generative Pre-Training. OpenAI, 2018. [2]

[makeuseof-4] GPT-1-től GPT-4-ig: Az OpenAI összes GPT modellje magyarázattal, 2023. április 11. [2023. április 15-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. április 29.)

[tsvetkov-5] Tsvetkov, Yulia: Opportunities and Challenges in Working with Low-Resource Languages. Carnegie Mellon University, 2017. [3]

[1]

[2]

[3]

[4]

[5]

OpenAI (GPT-1)

Az eredeti GPT architektúra sematikus ábrája

Fejlesztő	OpenAI
Első kiadás	2018. június
Programozási nyelv	Python
Platform	Platformfüggetlen (kutatási modellként)
Méret	117 millió paraméter
Elérhető	Angol (elsősorban a BookCorpus alapján)
Kategória	Nagy nyelvi modell Generatív előtanított transformátor
Licenc	Propietárius; a kutatáshoz kapcsolódó későbbi kód (pl. a GPT-2) MIT-licenc alatt került kiadásra^[1]
Az OpenAI (GPT-1) weboldala

GPT-1

From Wikipedia, the free encyclopedia · View on Wikipedia