Accueil coût Le coût caché du Big Data – Technology Org

Le coût caché du Big Data – Technology Org

0
Le coût caché du Big Data – Technology Org

Le calcul haute performance a transformé le fonctionnement de la recherche et notre capacité à faire des découvertes auparavant impensables. Nous sommes en mesure de modéliser notre climat futur avec une précision sans précédent. Nous sommes capables de prédire à quoi ressemble une protéine à partir de son code génétique. Nous savons même à quoi ressemble un trou noir à 55 millions d’années-lumière.

Sortie d’un séquenceur d’ADN. Crédit d’image : Institut national de recherche sur le génome humain

Mais si peu de gens s’opposeraient à de tels progrès, cela a un coût.

En 15 ans d’écriture sur la recherche médicale, je me suis retrouvé à écrire d’innombrables articles sur des études d’association à l’échelle du génome, où les chercheurs comparent l’ADN de potentiellement des centaines de milliers de personnes – des patients et des «témoins» sains – pour rechercher des variantes génétiques qui augmentent notre risque de développer une maladie particulière. Jamais je ne me suis retrouvé à considérer l’impact environnemental de telles études.

Il s’avère que cela peut être assez stupéfiant.

Au début de cette année, une équipe de Cambridge, en collaboration avec des collègues du Baker Institute de Melbourne, en Australie, a publié des recherches montrant qu’une étude d’association pangénomique (GWAS) sur les données de chalutage de 500 000 participants enregistrés dans une base de données de biobanque créerait une empreinte carbone de 17,3 kg de CO2e (équivalent dioxyde de carbone) pour chaque trait génétique étudié.

Mais en fait, les chercheurs examineraient généralement des milliers de traits. Le même cycle GWAS pour 1 000 traits générerait 17,3 tonnes de CO2e. Cela équivaut à 346 vols entre Paris et Londres. (Les chercheurs soulignent que la mise à niveau du logiciel utilisé vers la dernière version réduirait cela de trois quarts.)

Début 2020, Loïc Lannelongue était au milieu d’un doctorat en science des données de santé au Département de santé publique et de soins primaires de Cambridge. Il était un biologiste informatique, utilisant l’apprentissage automatique pour prédire comment les protéines interagissent dans le corps humain. L’un de ses collaborateurs était Jason Grealey, un universitaire basé à l’Université de Melbourne, en Australie. Lannelongue regardait les nouvelles – et entendait de première main Grealey – parler des feux de brousse qui déchiraient l’Australie. Cela l’a fait réfléchir à l’urgence climatique et au rôle que nous jouons tous.

Quelques mois plus tôt, Lannelongue avait pris connaissance d’une étude qui assimile la formation à l’intelligence artificielle (IA) à l’empreinte carbone de cinq voitures au cours de leur vie. Il a commencé à se demander quel était l’impact de son propre travail et, avec Grealey, a décidé de le résoudre, s’attendant à trouver une calculatrice en ligne sur laquelle ils pourraient simplement brancher leurs chiffres.

«Nous avons commencé à penser que ce serait un projet de deux semaines, une belle pause dans notre recherche doctorale», explique Lannelongue, «juste pour déterminer quelle était l’empreinte carbone de ce que nous faisions pour obtenir un chiffre et probablement tweeter à ce sujet. Sauf qu’il n’y avait rien là-bas.

Depuis lors, avec le soutien de son superviseur, le Dr Michael Inouye, Lannelongue consacre la moitié de son temps à travailler sur ce projet, menant au développement de Algorithmes vertsun simple calculateur en ligne qui permet aux chercheurs de calculer l’empreinte carbone de leur travail informatique.

Ce n’est pas la première fois que le milieu de la recherche braque les projecteurs sur ses propres pratiques. Certains membres de la communauté ont déjà demandé questions sur l’impact du vol à travers le monde pour présenter leurs découvertes lors de conférences scientifiques, par exemple. D’autres ont soulevé la question des déchets plastiques et chimiques et des besoins énergétiques des «laboratoires humides», c’est-à-dire des laboratoires où se déroulent des travaux expérimentaux. Les laboratoires informatiques ont également un impact significatif : les équipements doivent être mis à jour et remplacés au moins toutes les quelques années, tandis que même le stockage des données lui-même nécessite de l’énergie.

Et puis il y a le travail informatique lui-même, dont la quantité est phénoménale de nos jours. Pour vous donner une idée de son ampleur, en 2020, le XSEDE (Extreme Science and Engineering Discovery Environment – un système virtuel permettant aux scientifiques de partager des ressources informatiques, des données et de l’expertise) basé aux États-Unis, désormais terminé, a vu à lui seul les chercheurs utiliser 9 milliards heures de calcul, soit 24 millions d’heures par jour.

« Pour des calculs puissants, soit vous avez besoin de beaucoup de cœurs – vous branchez essentiellement beaucoup d’ordinateurs et ils font tous le travail pour vous – soit vous avez besoin de beaucoup de mémoire. Dans tous les cas, cela demande de l’énergie.

Une partie du problème, dit-il, est que l’informatique peut sembler gratuite. Les groupes de recherche ont souvent un accès gratuit aux installations de calcul haute performance (HPC) de leur établissement.

Il donne l’exemple d’un processus d’apprentissage automatique appelé réglage d’hyperparamètres, qui consiste à tester différentes configurations de votre modèle pour déterminer celle qui fonctionne le mieux. « Vous ne savez jamais quand vous avez atteint le maximum. Ça ne cesse de s’améliorer jusqu’à ce qu’à un moment donné, vous disiez: « Eh bien, je pense que je l’ai fait aussi bien que possible ».

«Mais disons que vous êtes à la fin de la journée et que vous pensez:« Qui sait, peut-être que je pourrais le faire fonctionner pendant la nuit. Peut-être que j’obtiendrai ce demi pour cent supplémentaire de précision. Cela ne coûte rien et personne n’utilise les ordinateurs ». Mais en fait, là est un coût – il y a un coût du carbone.

Ce qu’il veut, ce n’est pas limiter la recherche, mais réduire le gaspillage informatique, « pour amener les gens à penser : ‘Est-ce que j’ai vraiment besoin de faire ça ? Probablement pas.’

Lannelongue avoue que lorsqu’ils ont lancé Green Algorithms pour la première fois, il était sceptique quant à savoir si les gens allaient l’utiliser. Au cours des premiers mois, il n’a été utilisé que quelques dizaines de fois par mois – principalement par des utilisateurs de son propre laboratoire, pense-t-il. Mais depuis lors, il a décollé et ils reçoivent plus de 300 utilisateurs par semaine du monde entier.

Même ainsi, il reconnaît que l’outil peut être «lourd» pour certaines personnes, car il les oblige à saisir manuellement leurs données. C’est pourquoi ils travaillent sur Green Algorithms 4HPC (qui est déjà disponible en formulaire bêta sur GitHub), qui utilise les journaux de données des centres HPC pour calculer automatiquement l’empreinte carbone d’un projet.

« De nombreux départements s’y intéressent car c’est un moyen simple pour les scientifiques de le mettre en œuvre. Un département peut surveiller l’intégralité de l’empreinte carbone du travail qui y est effectué – ce ne sont pas seulement des scientifiques individuels, mais des groupes entiers qui peuvent commencer à dire : « OK, surveillons notre empreinte carbone et voyons quel est notre impact mois après mois ».

Il aimerait voir plus de transparence de la part des groupes de recherche, et c’est pourquoi son équipe calcule désormais systématiquement leur empreinte carbone à l’aide de l’outil Green Algorithms et l’inclut à la fin de leurs documents de recherche.

Il est facile de supposer qu’à mesure que les algorithmes et les ordinateurs qui les alimentent deviennent de plus en plus efficaces, l’empreinte carbone de la science informatique diminuera, comme ce fut le cas dans l’exemple de la biobanque. Mais ce n’est pas nécessairement le cas, en raison de «l’effet rebond».

« Je veux dire, c’est génial, c’est comme ça que l’innovation fonctionne. Mais c’est pourquoi nous devons être en mesure de suivre plus précisément que ce que nous faisons se traduit par une consommation d’énergie moindre – sinon, nous pourrions faire tout le travail acharné et nous nous rendrions compte que les factures d’énergie sont plus élevées qu’elles ne l’ont jamais été.

En fin de compte, pense-t-il, il devra y avoir un élément de responsabilité personnelle lorsqu’il s’agira de réduire l’empreinte carbone de la science informatique. « Les gens pensent ‘Je n’ai pas besoin de changer ma façon d’agir, tous les centres de données seront bientôt alimentés par l’éolien et le solaire’. J’adorerais que ce soit vrai – c’est juste que nous savons que ce n’est pas le cas. Nous devons agir maintenant, et puis si à l’avenir, nous arrivons à un point où cela n’a plus d’importance, alors brillant, nous pourrons reprendre nos vies sans culpabilité.

Et son travail a-t-il changé sa façon de travailler ?

« Malheureusement, oui », rit-il. Il était ce gamin proverbial dans une histoire de bonbons, exécutant plusieurs analyses juste parce qu’il le pouvait. Maintenant, bien qu’il poursuive ses recherches et utilise toujours l’apprentissage automatique, il est plus attentif aux ressources qu’il utilise. Il s’arrêtera et se demandera s’il a vraiment besoin de cette mémoire supplémentaire ou s’il doit exécuter son analyse une fois de plus pour être du bon côté. Au lieu de cela, il prendra le temps de déterminer exactement ce dont il a besoin avant de commencer le travail.

Source: L’université de Cambridge



Lien de Etoile d'Europe