Grands modèles de langage

De OSWiki
Aller à la navigation Aller à la recherche

Définition

Un grand modèle de langage (LLM : Large language model) est un modèle de langage composé d'un réseau neuronal avec de nombreux paramètres (généralement des milliards de facteurs de pondération ou plus), formé sur de grandes quantités de texte non identifié à l'aide d'un apprentissage auto-supervisé ou semi-supervisé. Les LLM sont apparus aux alentours de 2018 et donnent de bons résultats dans une grande variété de tâches. Cela a modifié l'orientation de la recherche sur le traitement du langage naturel par rapport au paradigme précédent, qui consistait à former des modèles supervisés spécialisés pour des tâches spécifiques. Bien que le terme de grand modèle de langage n'ait pas de définition formelle, il fait souvent référence à des modèles d'apprentissage approfondi ayant un nombre de paramètres de l'ordre de milliards ou plus. Les LLM sont des modèles à usage général qui excellent dans un large éventail de tâches, par opposition à ceux qui sont formés pour une tâche spécifique (telle que l'analyse des sentiments, la reconnaissance des entités nommées ou le raisonnement mathématique. La précision avec laquelle ils accomplissent des tâches et la gamme de tâches dont ils sont capables semblent être fonction de la quantité de ressources (données, taille des paramètres, puissance de calcul) qui leur sont consacrées, d'une manière qui ne dépend pas de nouvelles percées en matière de conception.

Bien qu'entraînés sur des tâches simples du type prédire le mot suivant dans une phrase, les modèles de langage neuronaux avec un entraînement et un nombre de paramètres suffisants sont capables de capturer une grande partie de la syntaxe et de la sémantique du langage humain. En outre, les grands modèles de langage font preuve d'une connaissance générale considérable du monde et sont capables de "mémoriser" une grande quantité de faits au cours de la formation.

Source: Article Wikipédia