Billet invité
Avertissement de l’auteur :
La démarche d’explication pédagogique se veut ici la plus étayée possible. Aussi, un appendice technique (*) important a été positionné dans la seconde partie du billet.
StructureA – photo prise le 15/03/2009 – Tour Eiffel
***
Revenons un instant sur cette polémique qu’a suscité en 2013, la sortie du livre du physicien François Gervais, L’innocence du carbone, l’effet de serre remis en question, aux éditions Albin Michel [1]. Voici quelle fut à l’époque la réponse parue dans Le Monde de François-Marie Bréon, chercheur au laboratoire des sciences du climat et de l’environnement (CEA/CNRS/UVSQ) et coauteur de l’AR5 du GIEC (Groupe d’experts Intergouvernemental sur l’Évolution du Climat) [2].
Dans sa réponse, monsieur Bréon montre du doigt pas moins de 3 manipulations des variables de mesure (*), au moins 7 prédicats faux (*) [24] [25], « et dénonce […] une série […] de données fictives et de courbes tronquées » [3]. En effet, dans les exemples présentés par monsieur Bréon, monsieur Gervais dégrade fortement dans son livre l’un des attributs de la qualité des données de supervision/surveillance (*) sans lequel il ne lui est absolument pas possible de conclure de façon formelle. Il s’agit de l’attribut de consistance (l’échantillon d’observation doit être suffisant) (*), réduisant ainsi fortement les plages d’observation de certaines variables de mesure (*) (plus de 20 ans de données de mesure éludées dans certains cas) et de facto les tendances globales des signaux concernés, masquant ainsi aux lecteurs de son livre une large partie de la réalité des observations scientifiques pourtant loin d’être négligeable, et ne leur permettant pas une prise de recul suffisante. Il procède notamment ainsi avec des variables de mesure (*) importantes, telles que celles relatives au volume de la banquise arctique, à l’élévation du niveau des océans et à l’accumulation de chaleur dans l’océan, passant ainsi à la trappe plus de 20 ans de données de mesure sans lesquelles il est déjà extrêmement difficile de conclure.
Par exemple, concernant le volume de la banquise arctique qui selon l’auteur, se reconstituerait progressivement, évoquant même les mesures du satellite ESA Cryosat pour qualifier de « remontée spectaculaire » le sursaut qu’a connu en 2013 le volume de cette banquise, il s’avère qu’à défaut d’un échantillon d’observation suffisant (*) et d’un rapprochement avec une autre variable de mesure (*), l’auteur ne semble pas avoir remarqué que l’évolution du retrait en volume mais aussi en surface de la banquise arctique, connaît régulièrement depuis 1979 des sursauts parfois importants, avant de reconquérir de nouveaux records de fonte absolus les années suivantes. Sur la présentation interactive proposée par le NSIDC (National Snow and Ice Data Center), il est d’ailleurs possible de relever visuellement les derniers sursauts en surface observés entre 1999 et 2015 [4] :
– 1999 ↓ record de fonte
– 2000 maximum solaire cycle 23
– 2001 ↑ sursaut
– 2002 ↓ record de fonte
– 2003 ↑ sursaut malgré la canicule
– 2004
– 2005 ↓ record de fonte
– 2006 ↑ sursaut
– 2007 ↓ premier record de fonte absolu
– 2008 hiver froid
– 2009 ↑ sursaut minimum solaire cycle 23 et début du cycle 24
– 2010
– 2011
– 2012 ↓ dernier record de fonte absolu jamais observé
– 2013 ↑ dernier sursaut observé
– 2014 maximum solaire cycle 24 << à celui du cycle 23
– 2015 ? canicule en cours comparable à celle de 2003
Ces sursauts n’auraient-ils pas un lien particulier avec l’enthalpie de fusion de la glace qui provoque des baisses soudaines de température de l’eau, favorisant ainsi provisoirement la reconstitution de la glace l’hiver suivant un record estival de fonte ? Ne serait-ce pas cette même enthalpie de fusion de la glace qui serait à l’origine de la fonte brutale du Groenland en juillet 2012 [5] ?
Parmi les prédicats faux (*) [24] [25] les plus étonnants découlant de l’analyse de l’auteur, celui de la relation de cause à effet entre hausse des températures et augmentation des gaz à effet de serre dans l’atmosphère tels que le CO2 (dioxyde de carbone), du fait notamment du « dégazage de l’océan » (post hoc ergo propter hoc (*) [25]), est des plus patents. Et la réponse de monsieur Bréon sur ce point s’avère tout à fait pertinente lorsqu’il met en avant la question de l’acidification des océans [3] du fait de leur capacité d’absorption du CO2 présent dans l’atmosphère. Dans ces conditions, il n’est alors pas surprenant que l’auteur n’ait pas remarqué lors de son analyse l’impact possible sur le climat de la dérive du pôle Nord magnétique depuis le milieu du XIXème siècle, ni les interactions possibles entre intensité du champs magnétique terrestre et anomalies des températures, ni l’influence que peut avoir l’ensemble de nos activités anthropiques sur le comportement de ce champs magnétique depuis le début de la révolution industrielle, du fait notamment de l’enfouissement de conducteurs métalliques [5].
Non, l’augmentation des concentrations en gaz à effet de serre dans l’atmosphère est bel et bien, pour une très large part, le fruit amer de l’ensemble de nos activités anthropiques à base d’énergies fossiles notamment, mais pas seulement, et ceci depuis le début de la révolution industrielle, ce début de l’anthropocène selon le prix Nobel de chimie Paul Crutzen [6]. Cette nouvelle ère géologique singulière ne présente aucun équivalent dans l’Histoire. Et là où pendant 650000 ans la tectonique des plaques peut éventuellement nous éclairer quant aux variations équivalentes (*) de l’anomalie de température et de la concentration en CO2, il devient tout simplement impossible de trouver une explication à la fois naturelle et rationnelle quant aux nouvelles variations exponentielles de base aujourd’hui >1, de ces mêmes variables de mesure (*) au cours des 165 dernières années. Et les fluctuations observées ça et là sur la variable de mesure (*) de l’anomalie de température moyenne globale, collectée régulièrement depuis 1880, ne peuvent être dues qu’à l’effet de rétroactions positives [7] non maîtrisées, voire inconnues, agissant au cœur même du système climatique terrestre (*).
Suite à une réponse dans Le Monde de monsieur Gervais à l’attention de monsieur Bréon [8], une réponse beaucoup plus détaillée de 22 pages, mise à jour en octobre 2014 (en matière de climat, l’humilité nous oblige à ce que personne ne puisse-t-être épargné par le tâtonnement nécessaire au regard de la situation), est aujourd’hui accessible depuis la page Wikipédia consacrée à l’auteur lui-même [9]. Dans cette réponse, l’auteur renoue une fois de plus avec des plages d’observation relativement restreintes (*), descendant parfois jusqu’à la courte période 2000-2013 afin de réitérer ses conclusions, faisant ainsi le focus sur ce qui correspond selon lui à une période de « tendance à la stagnation » des températures. Seulement voilà, pas de chance, puisque c’est sans compter l’année 2014 qui pulvérise d’ores et déjà tous les records de température [17], et sans compter l’année 2015 qui semble prendre le même chemin, voire pire encore, et ceci en dépit d’un cycle solaire 24 relativement atone. En attendant, stagnation ou pas, les glaciers continuent quant à eux leur régression [10], mettant ainsi à l’approche de la COP21 [11], de l’eau au moulin de monsieur Bréon [3] et de ses confrères au sein du GIEC [2].
… à suivre.
***
(*) appendice technique : comment éviter les pièges des prédicats faux ?
Tout travail d’analyse des données de supervision/surveillance d’un système complexe observé, tel que le système climatique terrestre, nécessite des connaissances spécifiques. Par exemple, le travail de recherche des relations de cause à effet permettant d’expliquer les comportements intrinsèques de ce système sous l’effet conjugué de perturbations internes et/ou externes, nécessite de connaître l’algèbre de Boole [12], dont l’équivalence demeure la fonction logique la plus intuitive, et donc la plus simple à appréhender. Ainsi, certaines corrélations (variance/covariance, corrélation croisée, corrélation de Pearson [13]) entre plusieurs variables de mesure temporelles, discrètes et chaotiques, mathématiquement considérées deux à deux, telles que par exemple I et J, sont facilement transposables en logique booléenne via la fonction d’équivalence (I comme J) ou (I comme -J), grâce à la recherche des coefficients de corrélation linéaire dits remarquables ; le coefficient de corrélation de Pearson entre I et J devant se situer sur l’intervalle [-1, -√3/2] pour la fonction logique (I comme -J), ou [√3/2, 1] pour la fonction logique (I comme J), avec √3/2 correspondant au cosinus de l’angle Ï€/6 radians qui est la limite maximale de l’angle dont le sinus est approximativement égal à l’angle lui-même à l’ordre 2 en trigonométrie sphérique [14]. Bien évidemment, il ne s’agit ici que du cas simple de l’équivalence, et il y a certainement d’autres fonctions logiques à considérer telles que par exemple la conjonction (I et J), l’inhibition (I et -J), la disjonction (I ou J) ou (I ou -J), la disjonction exclusive (I ou exclusif J) ou (I ou exclusif -J), etc. Mais la complexité matricielle en découlant et l’explosion combinatoire du fait des seuls calculs des corrélations mises en œuvre sont déjà telles, qu’elles freinent plus avant le travail de recherche au regard des limites technologiques dues à la forte volumétrie en présence, nous obligeant souvent à discriminer un grand nombre de relations de cause à effet possibles.
Un peu d’algèbre de Boole avec l’équivalence, la conjonction, l’inhibition et la disjonction…
Pourquoi est-il nécessaire de considérer un triplet de corrélations lors de ce travail d’analyse ?
– la variance/covariance permet de réduire les temps de calcul en écartant suffisamment tôt les couples de variables de mesure indépendantes
– la corrélation croisée permet de déterminer les temps de retard ou d’avance entre les variables de mesure dépendantes les unes des autres, voire de recenser toutes celles qui sont redondantes, puis de préparer l’ordonnancement
– la corrélation de Pearson permet de ne retenir que les équivalences remarquables parmi les variables de mesure dépendantes les unes des autres, corrigées des temps de retard ou d’avance correspondants
Ce sont généralement des robots/agents/algorithmes informatiques qui collectent en quasi temps réel ces variables de mesure suivant des pas de collecte prédéfinis (granularité). Puis, ce sont ces mêmes robots qui stockent ces mesures au sein des gisements de données, plus communément connus sous le nom de datawarehouses [15] dans le cadre de l’informatique décisionnelle. Ainsi, plus il y a de robots de ce genre répartis uniformément tout autour du système (couverture de supervision/surveillance optimale), plus ces gisements de données deviennent très rapidement imposants tout en étant le plus souvent architecturés sous la forme d’environnement de calcul distribué. On parle alors de Big Data de supervision, ou aussi de Big Analytics [16] : n variables constituées tout au plus de N mesures à un instant t, pour représenter non pas le système complexe lui même, mais plutôt son état à un instant t, c’est à dire la forme que doit prendre sa couverture de supervision/surveillance à cet instant.
Nous en avions déjà parlé lors d’un précédent billet [17], il s’agit donc ici d’évoluer au sein d’un espace euclidien de dimension n dont chaque vecteur d’observation, de norme croissante, est la représentation dans cet espace d’une variable de mesure à un instant t. En outre, les normes des vecteurs peuvent être inégales à un instant t et fonction des temps de retard ou d’avance entre les variables de mesure dépendantes les unes des autres ; le coefficient de corrélation de Pearson correspondant ici au cosinus de l’angle formé par deux vecteurs d’observation. S’il vous est possible d’imaginer la couverture de supervision/surveillance en découlant, alors il devrait vous être possible d’accepter le fait que son volume sous-jacent, sorte de métaphore du système complexe lui-même, ne cesse de croître du fait de l’opération ininterrompue de collecte des mesures. Et n’essayez pas d’imaginer une simple sphère, sorte d’« aplatissement » en 3 dimensions de cet espace euclidien de dimension n, car vous seriez purement et simplement dans l’erreur, même s’il est vrai que cette forme simplifiée de représentation peut présenter quelque intérêt, notamment dans le cadre d’une représentation géodésique par triangulation [18] des variables de mesure. Préférez plutôt vous représenter une sorte de gros ballon de football aux n alvéoles à la fois déformées, inégales, puisqu’elles sont fonction de la valeur de chaque variable mesurée à un instant t, et positionnées aux extrémités des vecteurs d’observations correspondants. Si vous parvenez à vous représenter cette métaphore, alors vous touchez du doigt une hypersphère, ou une n-sphère [19], appelez cela comme vous voulez, sachant que cette n-sphère est au système ce que la peau est au fruit.
Les n variables de mesure stockées au sein du Big Data de supervision doivent être structurées de telle sorte qu’elle en facilite leur exploitation. On parle ici de la qualité des données de supervision/surveillance sans laquelle il est impossible de tirer des conclusions quant à l’état réel du système complexe observé à un instant t, et dont les attributs sont généralement :
– la complétude (le nombre de variables de mesure doit être exhaustif)
– la consistance (l’échantillon d’observation doit être suffisant)
– l’opportunité (la collecte doit s’effectuer en temps réel)
– la précision (les capteurs des robots doivent être précis)
– la validité (la construction des robots doit être conforme aux règles)
– l’accessibilité (les variables de mesure doivent être compréhensibles)
– l’intégrité (l’authenticité et la traçabilité)
Si les six premiers de ces attributs sont généralement obtenus dès la mise en œuvre des robots/agents/algorithmes informatiques permettant la collecte des variables de mesure, l’intégrité, qu’il ne faut surtout pas confondre ici avec l’intégrité référentielle propre à tout gisement de données, est obtenue à l’issue de l’opération de recherche des relations de cause à effet depuis laquelle découle une certaine forme de codification non nominative, c’est à dire une codification significative des variables de mesure (l’authenticité) [20]. C’est cette codification significative qui permet ensuite, au moyen d’une grammaire des graphes appropriée, l’écriture automatique de la modélisation associée à l’état du système complexe observé à un instant t, cette modélisation pouvant prendre ici la forme d’un réseau de Petri temporisé (la traçabilité) [20] [21].
Cependant, les variables de mesure qui sont stockées au sein des gisements de données ne remplissent pas systématiquement l’ensemble des six premiers attributs de la qualité des données de supervision/surveillance. C’est le cas notamment de la complétude où le risque d’« hypersupervision » (redondance des variables de mesure du fait du tâtonnement opérationnel) présente une forte probabilité de réalisation quels que soient les sujets traités. C’est le cas aussi de la consistance où pour des raisons logistiques, il n’est pas toujours possible de démarrer au même moment les opérations de collecte des variables de mesure. C’est le cas enfin de l’opportunité où pour des raisons techniques, le risque de désynchronisation des pas de collecte des variables de mesure (granularité hétérogène) est bien réel. Or, sans ces attributs, il est absolument impossible de poursuivre le moindre traitement de corrélation. On opère alors à toutes sortes d’artifices mathématiques permettant de rétablir un semblant de qualité des données de supervision/surveillance au sein des gisements :
– l’interpolation afin de rendre les variables de mesure plus consistantes
– la synchronisation afin de rendre la granularité plus homogène
– la normalisation afin de pouvoir comparer ce qui est comparable
– et dans certains cas de mesure, le nettoyage des bruits résiduels
– etc.
C’est donc seulement à l’issue de cette phase dite d’assainissement des gisements de données que l’on peut procéder à l’opération de recherche des relations de cause à effet, et notamment aux divers calculs de corrélation entre variables de mesure considérées deux à deux.
Tout ce qui précède constitue bien évidemment un exemple de processus de modélisation parmi d’autres, du fait notamment des nombreuses possibilités offertes par l’algèbre de Boole. Mais ce traitement conduit toutefois l’analyste à disposer, au moment du processus ultérieur de simulation/prévision, de trois formes de représentation relativement complémentaires quant à l’état du système complexe observé à un instant t :
– une n-sphère, sorte de couverture de supervision/surveillance (la peau du fruit)
– à défaut, son « aplatissement » en 3 dimension sous forme de représentation géodésique permettant d’évaluer le taux de recouvrement du système [20]
– enfin, un réseau de Petri temporisé, sorte d’automate de simulation/prévision des comportements intrinsèques de ce système sous l’effet conjugué de perturbations internes et/ou externes [20]
Dès lors, il devient opportun d’identifier parmi toutes les variables de mesure, celles qui constituent vraisemblablement des points de fragilité du système, et qui sont sensibles aux perturbations internes et/ou externes. Cette identification est alors réalisée au moyen de l’entropie de Shannon [22] appliquée à chaque variable de mesure temporelle, discrète et chaotique, permettant de dénombrer les occurrences d’un événement/incident singulier, dont la simulation/prévision de la propagation au sein du système complexe lui-même, est rendue possible grâce au réseau de Petri temporisé [20]. A terme, et si la technologie des supercalculateurs le permet, l’ensemble de la modélisation peut-être rendue dynamique au moyen des réseaux de neurones [23].
Nous disposons alors d’une palette d’outils que nous savons certes incomplète, mais toutefois exploitable puisque conforme à la technique. Sur la base de celle-ci, il devient alors possible d’entreprendre toutes sortes d’analyses, et notamment celles concernant la supervision des points de fragilité du système complexe observé à un instant t. Dit autrement, on parle aussi de démarche de préoccupation de robustesse du système complexe observé à un instant t.
StructureB – photo prise le 15/03/2009 – Tour Eiffel
Mais il s’agit aussi d’un processus de modélisation permettant surtout d’éviter les pièges dus aux sophismes (prédicats faux) qu’il serait trop souvent tentant de formuler à la simple lecture simultanée des variables de mesure :
– « cum hoc ergo propter hoc » [24], si deux événements sont corrélés, alors il existe une relation de cause à effet entre les deux (si I comme J alors I cause J, est un prédicat faux)
– « post hoc ergo propter hoc » [25], si un événement en suit un autre, alors le premier des deux doit être la cause du second (si I se produit puis si J se produit alors I cause J, est un prédicat faux)
Pourquoi ?
Les raisons en sont assez simples, voire évidentes à comprendre :
– pour le sophisme « cum hoc ergo propter hoc », l’échantillon d’observation et le nombre d’occurrences de l’événement sont-ils suffisants pour pouvoir conclure, en outre, existe-t-il d’autres variables de mesure susceptibles de réagir à l’événement, enfin, de I ou de J, laquelle des deux variables de mesure réagit toujours avant l’autre face à l’événement tant il peut très bien s’agir de la relation inverse (J cause I) ?
– pour le sophisme « post hoc ergo propter hoc », l’échantillon d’observation et le nombre d’occurrences de l’événement sont-ils suffisants pour pouvoir conclure, en outre, existe-t-il d’autres variables de mesure susceptibles de réagir à l’événement, enfin, quelle est la vraie valeur de la corrélation entre I et J ?
Bref, il ne suffit pas de disposer de n écrans de monitoring permettant une lecture simultanée à un instant t, pour une plage d’observation donnée relativement restreinte, de n variables de mesure (à la seule condition bien évidemment que vos yeux soient en capacité de le permettre), pour pouvoir déduire avec certitude l’ensemble des relations de cause à effet présentes au sein du système complexe observé à un instant t, et ceci quels que soient les sujets traités.
Or, dans le cadre de l’étude du système climatique terrestre, c’est justement cette façon de procéder qui doit être impérativement montrée du doigt afin de discréditer une bonne fois pour toutes l’ensemble des publications réalisées par les climato-sceptiques, puisque selon eux, le réchauffement climatique dû aux gaz à effet de serre ne serait pas fondé…
***
[1] François Gervais, L’innocence du carbone, l’effet de serre remis en question, aux éditions Albin Michel, 2013, 304 p :
http://www.albin-michel.fr/L-Innocence-du-carbone-EAN=9782226209160
[2] 5ième rapport du GIEC :
http://www.ipcc.ch/report/ar5/
[3] François-Marie Bréon, Les contre-vérités du dernier pamphlet climatosceptique, Le Monde, 28/10/2013 :
http://www.lemonde.fr/sciences/article/2013/10/28/les-contre-verites-du-dernier-pamphlet-climatosceptique_3504317_1650684.html
[4] Arctic Sea Ice Extent, NSIDC, 11/08/2015 :
http://nsidc.org/arcticseaicenews/charctic-interactive-sea-ice-graph/
[6] Paul Josef Crutzen, Wikipédia, L’encyclopédie libre, 29/07/2015 :
https://fr.wikipedia.org/wiki/Paul_Josef_Crutzen
[7] Rétroaction, Wikipédia, L’encyclopédie libre, 25/11/2014 :
https://fr.wikipedia.org/wiki/R%C3%A9troaction
[8] François Gervais, La réponse de l’auteur, François Gervais, Le Monde, 28/10/2013 :
http://www.lemonde.fr/sciences/article/2013/10/28/la-reponse-de-l-auteur-francois-gervais_3504318_1650684.html
[9] François Gervais, Wikipédia, L’encyclopédie libre, 18/07/2015 :
https://fr.wikipedia.org/wiki/Fran%C3%A7ois_Gervais
[10] Les glaciers continueront de fondre même avec des températures stables, Le Monde, 03/08/2015 :
http://www.lemonde.fr/planete/article/2015/08/03/les-glaciers-continueront-de-fondre-meme-avec-des-temperatures-stables_4710051_3244.html
[11] COP21, Paris, 11/12/2015 :
http://www.cop21.gouv.fr/fr
[12] Algèbre de Boole (logique), Wikipédia, L’encyclopédie libre, 28/07/2015 :
https://fr.wikipedia.org/wiki/Alg%C3%A8bre_de_Boole_(logique)
[13] Corrélation (statistiques), Wikipédia, L’encyclopédie libre, 26/05/2015 :
https://fr.wikipedia.org/wiki/Corr%C3%A9lation_(statistiques)
[14] Trigonométrie sphérique, Wikipédia, L’encyclopédie libre, 12/05/2015 :
https://fr.wikipedia.org/wiki/Trigonom%C3%A9trie_sph%C3%A9rique#Le_triangle_sph.C3.A9rique
[15] Entrepôt de données, Wikipédia, L’encyclopédie libre, 26/01/2015 :
https://fr.wikipedia.org/wiki/Entrep%C3%B4t_de_donn%C3%A9es
[16] Big data, Wikipédia, L’encyclopédie libre, 10/08/2015 :
https://fr.wikipedia.org/wiki/Big_data
[18] Géode (géométrie), Wikipédia, L’encyclopédie libre, 10/12/2014 :
https://fr.wikipedia.org/wiki/G%C3%A9ode_(g%C3%A9om%C3%A9trie)
[19] n-sphère, Wikipédia, L’encyclopédie libre, 30/06/2015 :
https://fr.wikipedia.org/wiki/N-sph%C3%A8re
[20] Philippe Soubeyrand, Procédé pour organiser des variables dans une base de données, [en ligne], France, Brevet Coraud, Method for organizing variables in a database, FR 2949585 B1, 25/08/2009, PCT WO 2011/023876 A2, 03/03/2011, EP 2471010 A2, 04/07/2012, 57p :
http://fr.espacenet.com/publicationDetails/originalDocument?FT=D&date=20110303&DB=worldwide.espacenet.com&locale=en_EP&CC=WO&NR=2011023876A2&KC=A2&ND=5
[21] Réseau de Petri, Wikipédia, L’encyclopédie libre, 02/07/2015 :
https://fr.wikipedia.org/wiki/R%C3%A9seau_de_Petri
[22] Entropie de Shannon, Wikipédia, L’encyclopédie libre, 09/08/2015 :
https://fr.wikipedia.org/wiki/Entropie_de_Shannon
[23] Réseau de neurones artificiels, Wikipédia, L’encyclopédie libre, 07/08/2015 :
https://fr.wikipedia.org/wiki/R%C3%A9seau_de_neurones_artificiels
[24] Cum hoc ergo propter hoc, Wikipédia, L’encyclopédie libre, 09/07/2015 :
https://fr.wikipedia.org/wiki/Cum_hoc_ergo_propter_hoc
[25] Post hoc ergo propter hoc, Wikipédia, L’encyclopédie libre, 27/04/2015 :
https://fr.wikipedia.org/wiki/Post_hoc_ergo_propter_hoc
Merci Khanard, de m’avoir envoyé la liste. Que dire ? que dire ? 😀 1 – Il y a peut-être…