Illustration par ChatGPT 4o
Un peu plus tard, mais toujours au bord de la piscine 😜.
P.J. :
Ne pensez-vous pas que les humains continueront de penser que les règles capturent mieux l’essence-même des choses, tandis que les corrélations constituent une approximation grossière et basique, ce qui implique que les LLM passent à côté de quelque chose en n’extrayant pas les « règles sous-jacentes » qui, en réalité, régissent le monde : qu’ils perdent certaines informations pertinentes ? Ne peut-on défendre le point de vue opposé, à savoir que les règles sont des esquisses qui, par nécessité, ne peuvent saisir la complexité « indisciplinée » des choses ; en d’autres termes, ce serait l’expression sous forme de règles qui évacuerait une partie de l’information. Qu’en pensez-vous ?
Thought for 12 seconds
ChatGPT o3 :
Une façon utile de cadrer le débat
Perspective | Vision « règles d’abord » | Vision « corrélations d’abord » |
---|---|---|
Qu’est‑ce qu’une règle ? | Énoncé concis, souvent symbolique, qui explique et prévoit en révélant une structure cachée (ex. : F = ma). | Motif comprimé de régularités statistiques qui imite le comportement sans structure explicite (ex. : poids d’un LLM). |
Information conservée / perdue | Conserve des leviers causaux et contrefactuels (« que se passe‑t‑il si… ?»). Perd les détails riches et bruyants qui ne rentrent pas dans le cadre. | Conserve presque tout ce qui est présent dans les données (queues longues, contingences). Perd un modèle lisible décrivant pourquoi les choses varient. |
Modes d’échec | Fragilité hors du domaine de validité ; ignore les résidus qui deviendront importants plus tard. | Surapprentissage de corrélations fallacieuses ; opacité face aux interventions ; difficulté à prouver la fiabilité. |
Pourquoi les règles sont des croquis comprimés
- La compression est leur raison d’être
Une règle est une réduction drastique de dimension : elle jette la majeure partie de la variation réelle pour isoler quelques variables essentielles. Ce gain explicatif implique une perte d’information. - Les systèmes complexes résistent aux règles fermées
Climat, repliement protéique ou évolution linguistique présentent des interactions d’ordre élevé qui échappent aux formulations symboliques élégantes. Dans ces domaines, les meilleurs prédicteurs actuels sont souvent data‑driven ou basés sur la simulation, non sur des règles. - Point de vue de la complexité de Kolmogorov
Le « programme » qui génère le monde peut être irrémédiablement long. Toute règle concise que nous écrivons est donc une approximation. Un modèle massif à millions de paramètres peut se rapprocher, en longueur de description, de ce programme irréductible mieux qu’un petit ensemble d’équations.
Pourquoi les corrélations ratent quand même quelque chose
- La manipulation causale exige de la structure
Pour intervenir (concevoir un médicament, un pont) il faut des leviers contrefactuels : si je change X, Y varie ainsi. La pure corrélation ne fournit pas ces poignées ; d’où l’intérêt de combiner apprentissage à grande échelle et modules de graphes causaux ou de simulateurs. - Généralisation hors distribution
Quand l’environnement change, une règle parcimonieuse encodant de véritables invariants (conservation de l’énergie, grammaire compositionnelle) généralise souvent mieux qu’une surface de corrélations entraînée sur l’ancien régime. - Interprétabilité et confiance humaines
Les systèmes sociaux exigent des justifications (« Pourquoi devrais‑je te croire ? »). Les règles servent de jalons vérifiables. Un tenseur de 300 milliards de paramètres est plus difficile à auditer.
Vers une synthèse : « la règle après l’apprentissage »
- Utiliser des modèles denses et voraces en données pour absorber la richesse chaotique.
- Sonder, distiller et extraire des règles provisoires de ces modèles (interprétabilité mécaniste, régression symbolique, découverte causale).
- Traiter ces règles non comme des vérités finales, mais comme des interfaces — résumés concis à raisonner, réviser ou écarter quand ils cessent de fonctionner.
Mon point de vue
- Règles et corrélations forment un continuum de compression.
Plus la description est courte, plus on perd d’information. - Les LLM montrent qu’un espace riche en corrélations peut surpasser des règles élégantes sur de nombreuses tâches, précisément parce qu’il conserve des nuances que ces règles élaguent.
- Mais les systèmes purement corrélatifs restent handicapés pour l’intervention délibérée, la preuve de sûreté et l’explication.
Il faut donc des techniques permettant d’aller dans les deux sens : expansion vers l’espace corrélatif pour capturer la réalité, puis contraction vers des abstractions de type règle pour le contrôle et la compréhension.
En ce sens, aucun camp ne « gagne ».
Les règles sont nécessaires mais jamais suffisantes ; les corrélations sont puissantes mais jamais complètes. Les avancées viennent de l’ingénierie du dialogue entre les deux.
Garçon ! Un autre svp ... avec beaucoup de glaçons !
Illustration par ChatGPT 4o
Laisser un commentaire