Optimized data driven model for the prediction of temporal properties at the well (CO2 storage and geothermal production) in an NVIDIA Rapids/Legate ecosystem
Direction Sciences et Technologies du Numerique
Stage
Entre mars et juin 2025
6 mois
Ile de France
Oui
IFP Energies nouvelles (IFPEN) est un acteur majeur de la recherche et de la formation dans les domaines de l’énergie, du transport et de l’environnement. Depuis les concepts scientifiques en recherche fondamentale jusqu’aux solutions technologiques en recherche appliquée, l’innovation est au cœur de son action, articulée autour de quatre orientations stratégiques : climat, environnement et économie circulaire ; énergies renouvelables ; mobilité durable ; hydrocarbures responsables.
Dans le cadre de la mission d’intérêt général confiée par les pouvoirs publics, IFPEN concentre ses efforts sur l’apport de solutions aux défis sociétaux et industriels de l’énergie et du climat, au service de la transition écologique. Partie intégrante d’IFPEN, IFP School, son école d’ingénieurs, prépare les générations futures à relever ces défis.
Optimized data driven model for the prediction of temporal properties at the well (CO2 storage and geothermal production) in an NVIDIA Rapids/Legate ecosystem
De nombreuses années de recherche, d’ingénierie et de développement dans le secteur des énergies ont permis à l’IFPEN d’acquérir une connaissance variée et avancée dans ce domaine. Une capitalisation en a été faite à travers des logiciels industriels et/ou en cours d’industrialisation. Des efforts de portages sont faits pour certains et sont en cours pour d’autres afin de prendre en compte l’évolution des architectures machines sur lesquelles s’exécutent ces applications métiers notamment l’usage des cartes graphiques (GPU).
En parallèle, avec l’avènement des techniques et modèles de Machine/Deep Learning (ML), certaines de ces applications s’en sont enrichies soit par inférence soit par substitution. Pour tirer parti des GPU, côté python (Langage de prédilection des modèles de ML) il existe des librairies comme numba, cuPy, Dask pour adresser n’importe quel architecture NVIDIA ou AMD. Cependant leur usage nécessite plus de temps dans le cadre d’un portage.
C’est pourquoi chez NVIDIA, des projets comme Legate ou Rapids sont en cours pour mettre une surcouche logicielle afin de « réaliser à moindre coût » ces portages.
En ce qui concerne Legate, un écosystème complet permet
- D’accéder aux outils de profiling (nvtx, Nsight) pour faire un état des lieux
- L’usage de cunumeric (une ré-implémentation de numpy) pour accélérer les opérations sur les tableaux.
Objectifs
L’objectif de ce stage sera de partir d’une application, qui implémente différents modèles de ML, destinée à la prédiction de la pression fond d’un puits, en contexte de géothermie et stockage de CO2. Cette pression est traitée comme une série temporelle et est corrélée à d’autres variables temporelles.
Par l’usage de Legate ou Rapids, le stagiaire pourra remplacer (quand cela est possible) les usages de Numpy et Pandas par des versions optimisées. Mettre en cohérence ces tableaux optimisés avec l’usage des API de ML. Puis faire des tests de performance. L’étudiant aura à cœur que la solution retenue s’intègre dans l’écosystème MLOps de l’IFPEN.
Profil
Calculs scientifiques avec un intérêt pour le HPC et le Machine Learning.