Un professeur du MIT repousse les limites du calcul en élaborant le plus grand cluster jamais créé dans le cloud public

En confiant la gestion de la base de données de fonctions L et de formes modulaires (LMFDB, L-Functions and Modular Forms Database) à Google Compute Engine, Andrew V. Sutherland, spécialiste de la théorie calculatoire des nombres et directeur de recherche au MIT, bat son propre record dans le domaine du calcul hautes performances avec 580 000 cœurs.

Si vous assistez à un cours de philosophie des mathématiques, vous entendrez sûrement parler d'"objets". Les objets désignent des éléments qui peuvent subir des opérations mathématiques (comme des nombres ou des fonctions) et des résultats de calculs (des courbes, par exemple). La base de données LMFDB représente un atlas détaillé d'objets ainsi que les connexions qui les relient. Fruit de la collaboration entre chercheurs disséminés aux quatre coins de la planète, ce projet est conduit par une équipe internationale basée au sein d'universités en Europe et en Amérique du Nord, y compris au MIT.

Vous ne voyez plus la recherche de la même façon lorsque le temps d'attente pour obtenir la réponse à une question se chiffre en heures, et non plus en mois.
Andrew V. Sutherland, Computational number theorist and Principal Research Scientist, MIT

Des données partagées entre chercheurs

La base LMFDB constitue une avancée scientifique, car elle facilite comme jamais le partage de données sur les objets avec les communautés de physiciens, d'informaticiens et de mathématiciens. Certains calculs utilisés pour créer des objets sont si complexes qu'ils restent la chasse gardée d'une poignée de personnes sur Terre. D'autres sont si démesurés, et demandent tellement de temps et d'argent, que mieux vaut les exécuter une fois seulement.

L'équipe responsable de la base LMFDB recherchait un service cloud suffisamment puissant pour faire face à l'évolution des besoins de stockage. Pour resituer les choses, il a fallu près de 1 000 années de calcul pour créer les objets de la LMFDB. Le problème du dimensionnement s'est ajouté au défi majeur du stockage. Chaque membre du projet lmfdb.org a accès à la LMFDB, ce qui représente un nombre incalculable de recherches quotidiennes. Enfin, la nature collaborative du projet imposait que le système soit facile à administrer depuis les différents pays.

Une seule préoccupation : la recherche (et pas l'infrastructure)

Parmi les différentes solutions cloud étudiées, l'équipe LMFDB a retenu Google Cloud Platform pour ses performances, sa capacité à évoluer automatiquement, sa facilité d'utilisation et sa fiabilité.

Andrew V. Sutherland, professeur de mathématiques, spécialiste de la théorie calculatoire des nombres et directeur de recherche au MIT, fut l'un des tout premiers chercheurs à s'impliquer dans le projet et dans le processus de prise de décision.

"Nous autres mathématiciens voulons nous concentrer sur nos recherches. Nous n'avons pas à nous préoccuper des défaillances matérielles ni de problèmes de dimensionnement avec le site Web", explique Andrew V. Sutherland.

Andrew V. Sutherland et le reste de l'équipe LMFDB ont choisi Google Compute Engine (GCE) et Google Persistent Disk comme solution d'hébergement des serveurs Web. La mise en miroir des bases de données MongoDB a permis de stocker un demi-téraoctet de données en ligne et trois téraoctets de données plus rarement utilisées. Avec cette configuration, la base LMFDB évolue automatiquement en fonction des besoins, et renvoie rapidement aux chercheurs les résultats calculatoires et les objets mathématiques qui leur manquent. Google Cloud inclut un large éventail d'outils qui facilitent la gestion de la base de données et le travail d'équipe pour l'ensemble des chercheurs, où qu'ils se trouvent. Il s'agit notamment de Google Stackdriver, Google Cloud Console et Google Cloud Load Balancing.

En particulier, Andrew V. Sutherland devait exécuter et stocker une mise en tableaux extrêmement complexe dans la base LMFDB. L'opération, d'une envergure exceptionnelle, exigeait une puissance de calcul qui dépassait les limites historiques du cloud public. Pour relever le défi, il a choisi GCE avec 580 000 cœurs sur des machines virtuelles préemptives. Il venait alors de créer le plus grand cluster de calcul hautes performances jamais exploité dans le cloud public.

Le calcul a généré 70 000 courbes, soit 70 000 entrées différentes dans la LMFDB. Rechercher ne serait-ce qu'une seule de ces courbes est une tâche extrêmement complexe qui demande un nombre très élevé de cycles de calcul. "C'est comme chercher une aiguille dans une meule de foin en 15 dimensions."

Avant de se tourner vers GCE pour le calcul, le professeur avait mis à l'épreuve les 64 cœurs de son propre ordinateur. Malheureusement, cela prenait beaucoup trop de temps. La seule solution était d'obtenir l'autorisation d'utiliser les clusters du MIT, un passe-droit difficile à décrocher et, de toute façon, les configurations logicielles à disposition auraient été limitées. Avec GCE, Andrew V. Sutherland peut utiliser autant de cœurs que nécessaire, installer le système d'exploitation, les bibliothèques et les applications dont il a besoin et mettre à jour l'environnement quand il le souhaite.

La plate-forme Google Cloud apporte de la flexibilité au projet LMFDB. Étudiants comme chercheurs aguerris peuvent aisément rechercher et parcourir le contenu de la base via une interface Web. Ainsi, quand Andrew V. Sutherland donne un cours sur les courbes elliptiques, ses étudiants peuvent utiliser la LMFDB pour leurs devoirs.

Des calculs d'envergure et des économies

Les chercheurs et les établissements scolaires se heurtent souvent à des contraintes budgétaires. Google Cloud leur permet justement d'effectuer des calculs d'envergure, pour un coût raisonnable. Grâce aux machines virtuelles préemptives de GCE, le professeur de mathématiques réalise en effet des économies substantielles, bien qu'il exécute des calculs extrêmement complexes. Parce qu'elles peuvent être interrompues par GCE, ces instances pourtant complètes coûtent 80 %% moins cher que leurs équivalents classiques. Les interruptions de calcul ont peu d'incidence sur les performances. La part des instances interrompues par heure de calcul ne dépasse pas 2 à 3 %% en moyenne. En outre, un script les redémarre automatiquement jusqu'à ce que la tâche soit complètement terminée. La perte de temps est donc minime. En autorisant ces interruptions mineures, il est possible de réaliser des calculs colossaux, pour un coût modeste et quasiment sans temps de latence.

Nous cartographions les mathématiques du XXIe siècle.
Andrew V. Sutherland, Computational number theorist and Principal Research Scientist, MIT