Les Grands Modèles de Langage (LLM) ont-ils rendu obsolète l’indexation comme intermédiaire entre l’utilisateur et l’information ?, par Claude Roux

Illustration par DALL·E à partir du texte

# Les LLM nous projettent dans un monde Post-Gutenberg

Lorsque l’on réfléchit à l’irruption des ordinateurs dans nos vies de tous les jours, on pourrait s’imaginer qu’une rupture absolue est intervenue par rapport au monde d’avant. Or ce n’est pas si simple…

Voici le résultat d’une conversation avec Claude Sonnet sur ce sujet…

## L’invention de l’imprimerie et son impact sur les index

L’imprimerie, inventée par Gutenberg au 15e siècle, a révolutionné la production et la diffusion des livres. Bien que les index aient été créés dans des monastères en France vers le 12e-13e siècle, l’imprimerie a grandement facilité leur constitution et leur utilisation. La standardisation des pages, la reproduction à l’identique des ouvrages, et l’amélioration de la mise en page ont permis de créer des index plus précis et universellement applicables. L’imprimerie a également favorisé l’automatisation partielle de la création d’index, la simplification de leur correction, et le développement de techniques spécialisées pour leur élaboration. Cette évolution a contribué à généraliser l’usage des index, les rendant plus accessibles et utiles pour un large public.

## Des moteurs de recherche aux LLM : continuité et rupture

Les moteurs de recherche, malgré leur complexité technique, peuvent être vus comme une extension numérique des pratiques d’indexation développées il y a des siècles. Ils partagent avec les index traditionnels le principe de base de localisation rapide d’informations spécifiques dans un vaste corpus. Les deux servent d’intermédiaires entre l’utilisateur et l’information, organisent l’information de manière structurée, et fonctionnent largement sur le principe de la correspondance des mots-clés. Cependant, l’émergence des LLM marque potentiellement une rupture avec cette tradition d’indexation, ouvrant la voie à une nouvelle ère d’interaction avec l’information, plus naturelle et intuitive.

## L’évolution de l’interface homme-machine : vers une interaction naturelle

L’histoire de l’interface homme-machine a connu plusieurs étapes cruciales : de la ligne de commande aux interfaces graphiques, lesquelles ont introduit des métaphores du monde réel (bureau, fichiers) pour faciliter l’interaction, tout en restant ancrées dans des concepts physiques.

Pourtant qui n’a pas perdu des heures à retrouver un document sur sa machine, dont on a oublié le titre ou dont notre mémoire a perdu le contenu exact?

Or, l’utilisation d’un LLM pour gérer l’information rend l’idée même d’un fichier particulier avec un nom spécifique non pas obsolète mais inutile comme moyen de le retrouver. J’ai l’intuition que dans quelques années, on pourra demander à la machine de retrouver tel document écrit sur tel sujet, envoyé à telle personne, sans avoir besoin d’autre chose que le souvenir du sujet sur lequel il portait. Les métaphores de documents, bureaux ou fichiers deviendront inutiles, remplacées par une indexation sémantique, devenue enfin réalité.

Les IA permettent une rupture avec ce réel virtualisé, offrant la possibilité de communiquer avec les machines de manière plus naturelle et conceptuelle. Cette évolution marque un changement de paradigme, passant d’une logique d’utilisation d’outils à une logique de conversation et de collaboration avec la machine.

## Conclusion

Les LLM introduisent une rupture fondamentale dans notre relation avec la technologie et l’information. Contrairement aux innovations précédentes qui ont principalement optimisé et étendu des paradigmes existants, les LLM transforment radicalement la manière dont nous interagissons avec les données et les connaissances. Ils nous font passer d’un modèle de recherche et de récupération d’informations à un modèle de dialogue et de génération de connaissances. Cette transition ouvre la voie à une démocratisation sans précédent de l’accès à l’information complexe, tout en soulevant de nouveaux défis en termes de fiabilité, d’éthique et de compétences critiques. Les LLM ont le potentiel de redéfinir les processus de création, d’apprentissage et de prise de décision, marquant ainsi le début d’une nouvelle ère dans l’histoire de l’information et de la cognition humaine assistée par la technologie.

Illustration par DALL·E à partir du texte

Partager :

3 réponses à “Les Grands Modèles de Langage (LLM) ont-ils rendu obsolète l’indexation comme intermédiaire entre l’utilisateur et l’information ?, par Claude Roux”

  1. Avatar de JMarc
    JMarc

    Merci Claude (et Claude !) pour ce billet.
    Il y a là encore une évolution dont on pourrait trop facilement sous-estimer l’importance.

  2. Avatar de timiota
    timiota

    Oui oui… mais mais….
    La topologie des trous du gruyère (ce qu’on ne trouve pas malgré l’indexation) va changer.
    Pas tant que ça le fait qu’il y ait des trous.
    Il y a pas mal de choses qui ne sont pas appelées par le même nom par des communautés différentes, c’est flagrant en science, et j’ai la faiblesse de penser que c’est vrai au-delà (par exemple dans les pratiques marketing ou dans les savoir-faire de métallurgie, ou dans la sociologie, friande en génération de concepts ((j’ai pas cherché mais je suis sûr qu’un/une post-post bourdieusien/ne a du lâcher un « capital conceptuel » quelque part). …)).

    Du coup faire « adhérer » (au sens topologique) les deux graphes de connaissances / sémantique des uns et des autres représente une très grosse barrière.
    Dans le meilleur des mondes, cette barrière comblant les trous du gruyère serait vaincue par l’IA 2.5 ou 3.14, « forcément », puisque sa force dans l’analogie est déjà de bonne tenue, comparable à celle d’humain dans des domaines de « moyenne spécialité » des individus concernés, des « bons amateurs » ou aficionados.

    Mais ce rêve me semble aussi simpliste que celui de 1995 « l’internet grand forum commun des humains, des peuples et forcément vecteur d’amitié et de connaissance réciproque ». Nole Ksum* et consorts veillent façon Olrik au petit pied à financer des IA « voix de son maitre », ou disons des IA qui ont a minima la politesse de s’abstenir sur les sujets qui l’irriteraient, lui et les « amis » auxquels ils entendent plaire à l’instant t.

    La philia est à la rigueur tolérable par les humains doués pour les affaire ou pour le sport sur le terrain de foot ou dans la piscine de Water polo, mais elle se dissout dans un monde polarisé, la rupture de la connexion pourrait en effet être lue sous le prisme d’une « dissonance de l’indexation », les cases sont pointées, les renvois sont « localement » corrects dans le réseau, mais le néo-cortex dit « cool, raoul, le mieux même si j’ai cru comprendre que ça pouvait aller fort mal est de trouver le coin où je pourrai laisser passer cela le plus peinard… » . Bref un « effet Vichy -1940 » pas très pétillant.

    *dit aussi Elusk Mon

  3. Avatar de aslan
    aslan

    Sujet très intéressant, bravo de l’avoir amené.

    Vous avez raison sur le pas centré IHM, nous ne produisons individuellement pas tant de donnée et on peut imaginer à moyenne échéance un OS comme un petit modèle qui peut déjà tourner sur un ordinateur puissant se fine-tuner réguliérement dans une ferme de serveurs avec nos productions et son système de fichier, à moins qu’il garde ce dernier en contexte, question technique qui me dépasse.

    Pour l’indexation en général c’est plus complexe;

    Pour le long terme, si l’on pouvait faire pousser des I.A ou juste les adapter à partir de tout le terreau de la production numérique tous les jours, oui, l’indexation ne servirait plus à rien. Mais les puissances de calcul nécessaires sont incommensurables, d’autant que les I.A crachent déjà du contenu et en cracheront de plus en plus. Une nouvelle révolution technique en I.A peut changer la donne et amener ce moment mais il en faudrait une belle ! Peut-être du niveau de celle que l’on avi éclore.

    Dans l’immédiat les larges modèles « omnisources » ou multimédia (graphiques, son et vidéo) permettent l’indexation de contenus jusqu’ici tagués à l’origine et par le web 2.0, c’est un plus dans la technologie. Mais ces nouveaux tags sont fixes, hérités du modèle qui les étiquettent, s’ils donnent dans la matière subjective ils deviendront contre-productifs, pour l’indexation pure comme pour l’entraînement des IA: pour forcer le trait imaginez de célèbres sketch de Michel Leeb imitant un africain ou un asiatique étiqueté « drôle » par une I.A d’époque. Si c’est cette association que digère une « jeune » I.A elle ne sera pas forcément ajustée.

    Mais j’imagine qu’on peut faire le parallèle avec le passage culturel de génération en génération, ce qui pose la question du poids du temps et de sa modélisation dans un réseau neuronal en apprentissage.

    Oui, vraiment, question complexe !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Contact

Contactez Paul Jorion

Commentaires récents

  1. Otromeros, Je viens de refaire votre recherche (DuckDuckGo et Google) : des pages et des pages de références.

  2. Vous m’en voyez heureux…très heureux…😍💕 7h30 … un dimanche…! Insomniaque/lêve-tôt/les trois pauses/méridien différent/…autre?… (sans chercher à être indiscret.. of course…^!^…)

Articles récents

Catégories

Archives

Tags

Allemagne Aristote bancor BCE Bourse Brexit capitalisme ChatGPT Chine Confinement Coronavirus Covid-19 dette dette publique Donald Trump Emmanuel Macron Espagne Etats-Unis Europe extinction du genre humain FMI France Grands Modèles de Langage Grèce intelligence artificielle interdiction des paris sur les fluctuations de prix Italie Japon Joe Biden John Maynard Keynes Karl Marx pandémie Portugal psychanalyse robotisation Royaume-Uni Russie réchauffement climatique Réfugiés spéculation Thomas Piketty Ukraine ultralibéralisme zone euro « Le dernier qui s'en va éteint la lumière »

Meta