Deep Learning pour le NLP : application à la Chimie
Sciences et Technologies du Numerique


Type de contrat
Stage
Début
Entre janvier et septembre 2020
Durée
de 5 à 6 mois
Région
Ile de France
Indemn / Rém
Oui

ref 2020_R115_02

IFP Energies nouvelles (IFPEN) est un acteur majeur de la recherche et de la formation dans les domaines de l’énergie, du transport et de l’environnement. De la recherche à l’industrie, l’innovation technologique est au cœur de son action, articulée autour de trois priorités stratégiques : mobilité durable, énergies nouvelles et hydrocarbures responsables.

Dans le cadre de la mission d’intérêt général confiée par les pouvoirs publics, IFPEN concentre ses efforts sur :

  • l’apport de solutions aux défis sociétaux de l’énergie et du climat, en favorisant la transition vers une mobilité durable et l’émergence d’un mix énergétique plus diversifié ;
  • la création de richesse et d’emplois, en soutenant l’activité économique française et européenne et la compétitivité des filières industrielles associées.

Partie intégrante d’IFPEN, l’école d’ingénieurs IFP School prépare les générations futures à relever ces défis.


La Direction « Sciences et Technologies du numérique » apporte ses propres compétences informatique, traitement de l’information et mathématiques appliquées en complément des compétences des nombreux autres métiers d’IFPEN, pour la réalisation de projets de Recherche et d’Innovation internes et collaboratifs sur les aspects numériques au sens large.

De façon plus précise, les contributions de la Direction sont essentiellement dans l’optimisation et la commande de systèmes technologiques complexes, dans la modélisation, la performance numérique et informatique des codes scientifiques, et dans l’exploitation, par des outils numériques, de gros volumes de données issues de l’expérimentation ou des simulations.

Technologies de recherche d'information et d'extraction de texte pour la chimie - Deep Learning pour le NLP : application à la Chimie 

En raison de  l’accélération du rythme d’innovation pour la mise au point de produits et procédés chimiques nouveaux et plus écologiques pour diverses applications, une quantité sans cesse croissante d'informations est publiée (dans des publications scientifiques et des brevets) et est très généralement accessible en ligne. La mise au point d’outils permettant d’accéder, de classer et d’interpréter cette vaste quantité d'information est donc maintenant essentielle à la recherche scientifique.

En effet, l'analyse des publications et brevets permet d’établir un état de l’art sur un sujet donné et de dégager des nouvelles voies de recherche et de développement. De nouvelles méthodes de recherche bibliographiques issues des sciences de l'information comme l'extraction de données (data mining) et la théorie des graphes sont donc maintenant testées pour la recherche en chimie et génie chimique [1-3].

En particulier, la plupart des données (articles scientifiques et brevets) étant sous forme de textes, les algorithmes de traitement du langage naturel (NLP pour Natural Langage Processing) sont des outils de choix pour répondre à cette problématique [2-4].

Des travaux préliminaires conduits à IFPEN ont eu pour objectif d’évaluer la pertinence de technologies « Intelligence Artificielle » de différents niveaux pour extraire de l’information d’une base de données d’articles ou de brevets, dans différents domaines. Ces travaux ont montré un fort potentiel des méthodes d’apprentissage pour la compréhension de textes techniques et scientifiques. En particulier, les modèles entrainés ont montré une faculté d’inférence de notions et de relations métiers particulièrement intéressantes.

Dans le domaine de la chimie, ces travaux ont permis par ailleurs d’établir une ontologie métier pour la recherche et le développement de catalyseurs et de réaliser des études préliminaires d’extraction de données de différents corpus de documents préalablement sélectionnés.

Le but de ce stage est d’étudier les méthodes de compréhension de textes à partir de méthodes d’apprentissage supervisé.

De manière plus spécifiques, les objectifs du stage seront notamment de :

  • Valider et compléter l’ontologie métier en catalyse.
  • Participer à l’annotation manuelle et automatique de nouveaux documents afin d’améliorer l’apprentissage des outils de Machine Learning et de Data Mining utilisés.
  • Evaluer la pertinence et la performance des outils existants.
  • Evaluer les modèles du langage state-of-the-art Deep Learning NLP (Transformers type BERT [5] par exemple), application aux tâches Named Entity Recognition et Relation Extraction.
  • Au-delà, conduire une réflexion sur les méthodes disponibles et pertinentes en tenant compte des spécificités du domaine de la chimie et du génie chimique (information sous une forme numérique associée à une unité de mesure, reconnaissance et extraction d'entités chimiques, etc.).

Mots clés : Deep learning, NLP, Named entity recognition, Relation extraction, Chimie.

Profil recherché :

Le candidat devra idéalement posséder une forte compétence en sciences du numérique (Machine Learning ou Deep Learning, NLP et programmation en python) avec un intérêt marqué pour la Chimie.

Le candidat sera intégré dans une équipe de datascientists travaillant sur des problématiques data transverses de l'entreprise adressées par Deep Learning.   

Bibliographie :

[1] Tshitoyan, V.; Dagdelen, J.; Weston, L.; Dunn, A.; Rong, Z.; Kononova, O.; Persson, K. A.; Ceder, G.; Jain, A. Unsupervised word embeddings capture latent knowledge from materials science literature. Nature 2019, 571 (7763), 95–98.

[2] Weston, L.; Tshitoyan, V.; Dagdelen, J.; Kononova, O.; Trewartha, A.; Persson, K. A.; Ceder, G.; Jain, A. Named Entity Recognition and Normalization Applied to Large-Scale Information Extraction from the Materials Science Literature. JOURNAL OF CHEMICAL INFORMATION AND MODELING 2019, 59 (9), 3692–3702.

[3] Krallinger, M.; Rabal, O.; Lourenço, A.; Oyarzabal, J.; Valencia, A. Information Retrieval and Text Mining Technologies for Chemistry. CHEMICAL REVIEWS 2017, 117 (12), 7673–7761.

[4] Kim, E.; Huang, K.; Saunders, A.; McCallum, A.; Ceder, G.; Olivetti, E. Materials Synthesis Insights from Scientific Literature via Text Extraction and Machine Learning. Chem. Mater. 2017, 29 (21), 9436–9444.

[5] Vaswani A.; Shazeer N.; Parmar N.; Uszkoreit J.; Jones L.; Gomez 1. N.; Kaiser L.; Polosukhin I. Attention Is All You Need. arXiv 1706.03762, 2017