Transformeur

Modèle transformeur
Schéma représentant l'architecture générale d'un transformeur.
Type
Réseau de neurones artificiels, modèle d'apprentissage profond (d)Voir et modifier les données sur Wikidata
Date d'invention
Décrit par
Attention Is All You Need (en)Voir et modifier les données sur Wikidata

Un transformeur (ou modèle auto-attentif) est une architecture d'apprentissage profond introduite en 2017[2]. Elle est principalement utilisée dans le domaine du traitement automatique des langues en servant de base aux grands modèles de langage[3], mais peut aussi servir à traiter d'autres modalités comme les images[4], les vidéos ou le son, parfois simultanément[5].

À l'instar des réseaux de neurones récurrents (RNN pour recurrent neural network en anglais), les transformeurs sont conçus pour gérer des données séquentielles, notamment du texte, pour des tâches telles que la traduction et la génération de texte. Cependant, contrairement aux RNN, les transformeurs ne nécessitent pas un traitement séquentiel des données. Ainsi, pour une phrase en entrée, un transformeur peut analyser simultanément différentes parties du texte, sans devoir commencer par le début. Cette caractéristique permet aux transformeurs d'offrir une parallélisation supérieure à celle des RNN, réduisant ainsi le temps d'entraînement des modèles.

Les transformeurs sont devenus le modèle de choix pour les problèmes de traitement automatique des langues, remplaçant les anciens modèles de réseaux de neurones récurrents tels que le LSTM. Étant donné que le modèle transformeur facilite davantage la parallélisation pendant l'entraînement, celui-ci peut s'effectuer sur des ensembles de données plus volumineux. Cela a conduit au développement de systèmes pré-entraînés tels que BERT (Bidirectional Encoder Representations from Transformers) et GPT (Generative Pre-Trained Transformer), qui ont été entraînés sur d'énormes ensembles de données textuelles, incluant des sources diverses telles que Wikipédia, et peuvent être affinés pour réaliser des tâches linguistiques spécifiques.

  1. (en) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser et Illia Polosukhin, « Attention is All you Need », Advances in Neural Information Processing Systems 30,‎ , p. 15 (arXiv 1706.03762, lire en ligne).Voir et modifier les données sur Wikidata
  2. (en) Ashish Vaswani, « Attention Is All You Need »,
  3. (en) Margaret Rouse, « Large Language Model (LLM) », Techopedia,‎ (lire en ligne)
  4. (en) Yugesh Verma, « Hands-on guide to using Vision transformer for Image classification », sur Analytics India Magazine, (consulté le )
  5. (en) Aayush Mittal, « Google's Multimodal AI Gemini - A Technical Deep Dive », sur Unite.AI, (consulté le )

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Nelliwinne