Comment fonctionne un LLM, Large Language Model
31/05/2023
Les LLM, Large Language Models, sont à la base des nouvelles solutions d’IAG, IA Générative, telles que ChatGPT.
Concernant les IAG, je vous renvoie à deux billets récents que j'ai publié sur mon blog.
Les LLM ne sont utilisés que pour un sous-ensemble des IAG. Il existe aussi des solutions de haute qualité pour les images et photos, les vidéos, les sons, les codes logiciels…
Au vu des impacts immédiats et majeurs des LLM et IAG, je pense que nous devons tous faire l’effort d’en comprendre les fonctionnements, quelle que soit notre activité.
Pour répondre à cette question, je vous propose deux réponses:
- La première, c’est de poser la question à… ChatGPT.
- La deuxième, c’est de regarder une vidéo d’un des dirigeants d’OpenAI, fondateur de ChatGPT.
J’avais prévu de publier ce texte directement sur LinkedIn, mais la réponse donnée par ChatGPT est trop longue pour tenir dans les limites de longueur autorisées par LinkedIn.
J’ai donc été amené à le publier sous la forme d’un billet sur mon blog.
Réponse de ChatGPT à la question: Comment fonctionne un Large language model
Les limites de ces outils m’ont sauté aux yeux, immédiatement.
La première question que j’avais posée était:
Comment fonctionne un LLM?
La réponse que j’ai obtenue concernait… un Master of Laws, comme le montre ce début de réponse.
ChatGPT
Un Master of Laws (LLM) est un programme de troisième cycle qui permet d'approfondir ses connaissances juridiques dans un domaine spécifique. Voici comment fonctionne généralement un programme de LLM :
J’ai modifié ma question en précisant la signification que je donnais à LLM, Large Language Model et ChatGPT a répondu de manière pertinente à ma demande.
Comment fonctionne un Large Language Model?
J’ai été surpris, agréablement surpris, par la qualité et la pertinence de cette réponse.
J’ai posé la question en français et en anglais; les deux réponses étaient quasiment les mêmes.
Voici la réponse obtenue, en 7 points et un commentaire final.
—-------------------------------------------------
Un large modèle de langage, tel que GPT-3.5, fonctionne grâce à une technique d'apprentissage profond appelée réseau neuronal transformateur. Voici une explication simplifiée de son fonctionnement :
- Données d'entraînement : Les grands modèles de langage nécessitent une quantité considérable de données textuelles pour l'entraînement. Pendant la phase d'entraînement, le modèle est exposé à une grande variété de sources textuelles, notamment des livres, des articles, des sites web et d'autres textes écrits. Ces données textuelles servent de base de connaissances à partir de laquelle le modèle apprend des motifs, des structures linguistiques et des relations entre les mots.
- Architecture : Les grands modèles de langage utilisent une architecture transformateur, qui est un type de réseau neuronal profond spécialement conçu pour traiter des données séquentielles telles que du texte. Les transformateurs sont composés de plusieurs couches d'auto-attention et de réseaux neuronaux à propagation avant.
- Tokenisation : Les entrées textuelles sont divisées en unités plus petites appelées "tokens". Un token peut représenter un seul caractère, un mot ou même des sous-unités de mots, selon la stratégie de tokenisation utilisée. La tokenisation permet au modèle de traiter et de comprendre le texte de manière plus fine.
- Pré-entraînement : Les grands modèles de langage passent par une phase de pré-entraînement où ils apprennent à prédire le mot suivant dans une phrase ou à compléter des mots manquants. Ainsi, le modèle acquiert une compréhension des motifs statistiques et des relations contextuelles entre les mots dans les données d'entraînement. Ce processus de pré-entraînement aide le modèle à apprendre la grammaire, la syntaxe et un certain niveau de compréhension sémantique.
- Ajustement fin : Après le pré-entraînement, les grands modèles de langage passent par une phase d'ajustement fin pour adapter le modèle à des tâches ou des applications spécifiques. Cela implique d'entraîner le modèle sur des ensembles de données spécifiques qui sont adaptés à la tâche souhaitée, telle que répondre à des questions, générer du texte ou traduire des langues. L'ajustement fin permet au modèle de se spécialiser et de fournir des réponses plus précises et contextuellement appropriées pour des cas d'utilisation spécifiques.
- Inférence : Une fois que le modèle de langage est entraîné et ajusté finement, il est prêt pour l'inférence. Lors de l'inférence, un utilisateur saisit une consigne ou une question en texte et le modèle la traite, analyse le contexte et génère une réponse en fonction de ses connaissances acquises et des schémas appris à partir des données d'entraînement. La réponse est généralement générée en échantillonnant ou en classant une liste de mots ou de tokens susceptibles de suivre la séquence de texte en fonction des probabilités apprises par le modèle.
- Apprentissage itératif : Les grands modèles de langage peuvent être continuellement améliorés et mis à jour grâce à un processus d'apprentissage itératif. En exposant le modèle à de nouvelles données ou en l'ajustant finement avec des ensembles de données supplémentaires spécifiques à une tâche, le modèle peut acquérir de nouvelles connaissances et s'adapter à l'évolution des schémas et contextes linguistiques.
Il est important de noter que les grands modèles de langage tels que GPT-3.5 sont extrêmement complexes et impliquent de nombreux détails techniques au-delà de cette explication simplifiée. Cependant, cette vue d'ensemble devrait vous donner une compréhension générale des principes sous-jacents du fonctionnement d'un grand modèle de langage.
—----------------------------------------------------
Vous connaissez beaucoup de personnes qui seraient capables de répondre immédiatement à cette question d’une manière aussi claire et complète?
Moi, non.
Vidéo d’Andrej Karpathy pendant les journées Build de Microsoft en mai 2023
Vous souhaitez en savoir plus?
Vous êtes prêt à faire l’effort de rentrer dans plus d’informations techniques?
Vous pouvez consacrer 45 minutes de votre temps à regarder une vidéo?
Si vous avez répondu oui à ces trois questions, alors je vous conseille vivement de regarder cette vidéo de l’intervention de l’un des fondateurs d’OpenAI, Andrej Karpathy, pendant les journées Build organisées par Microsoft en mai 2023.
Rappel: Microsoft a investi environ 10 milliards de dollars dans OpenAI.
C’est très dense. Pour en tirer vraiment profit, il vaut mieux rester concentré et ne pas essayer de consulter en même temps son smartphone ou sa boîte mail.
Je ne suis pas certain d’avoir tout compris, mais les messages essentiels, oui.
Le pragmatisme de Microsoft
Cet article demande un abonnement payant pour être lu, mais les premières phrases sont suffisamment intéressantes pour que je le cite.
Il montre les réactions de Nadella, CEO de Microsoft, quand Peter Lee, responsable de la recherche chez Microsoft, lui explique que leurs chercheurs avaient été “estomaqués” par la performance de GPT-4.
Il l'interrompt et lui pose une question simple: “Comment OpenAI a pu construire cette solution avec 250 personnes quand nous avons chez Microsoft une équipe de recherche de 1 500 personnes qui travaille sur l’IA depuis des dizaines d’années?”
Cette remarque fera plaisir à tous ceux qui pensent que la taille d’une équipe de recherche n’est pas une garantie de réussite, et c’est même souvent le contraire.
En même temps, les ressources d’infrastructures informatiques nécessaires pour faire tourner ces modèles de LLM sont tellement importantes qu’OpenAI a besoin du Cloud Azure de Microsoft pour fonctionner.
OPenAI + Microsoft d’un côté, Google de l’autre pour créer BARD, on retrouve les deux géants du Cloud Public derrière les leaders actuels des outils d’IAG pour les textes.
Situation du marché LLM + IAG textes, fin 2024
Dans ce schéma, j’ai résumé ma vision de ce que “pourrait” être le marché des LLM et IAG textes à la fin de l’année 2024, dans 18 mois.
Je vous propose de l’analyser du bas vers le haut.
Les sources de LLM
Les quatre principales sources de LLM connues aujourd’hui sont:
- Microsoft et OpenAI
- Facebook, dont on parle moins, avec LLaMa, qui est Open Source.
- La communauté Open Source. Un texte attribué à un collaborateur de Google affirmerait que Google a très peur de ce que cette communauté pourrait produire.
Produits disponibles aujourd’hui
Les deux principaux produits issus de ces LLM que les entreprises peuvent utiliser directement aujourd’hui sont ChatGPT de Microsoft et BARD de Google.
Solutions disponibles, fin 2023
Microsoft et Google ont tous les deux annoncé qu’ils vont “intégrer” leurs solutions dans leurs produits logiciels ayant le plus d’utilisateurs dans le monde, leurs suites collaboratives Microsoft 365 et Google Workspace.
Solutions disponibles, fin 2024
Les principaux éditeurs de logiciels d’entreprise, aussi bien les historiques comme SAP que les natifs SaaS comme Workday vont ajouter des fonctionnalités issues des LLM dans leurs offres. Il est encore trop tôt pour savoir quels choix ils feront dans l’oligopole des fournisseurs de ces LLM.
A la fin de l’année 2024, je fais les hypothèses suivantes concernant les usages de ces LLM par les entreprises, publiques ou privées:
- 10% en direct depuis ChatGPT ou BARD.
- 30% à partir des solutions bureautiques collaboratives Microsoft 365 et Google Workspace.
- 60% depuis tous les autres logiciels déjà déployés dans ces entreprises.
En résumé, les usages “indirects” de ces outils d’IAG devraient rapidement représenter 90% des usages face aux 10% d’usages en direct, qui sont ceux dont on parle le plus en ce moment.