Offre n° 1451852
PhD 'Data mixing using bandits to train LLMs' F/H

Publié le 14 avril 2026

Orange est un acteur majeur en Europe et en Afrique dans le mobile et l'ADSL, et un leader mondial des services télécoms aux entreprises. Description de l'entité/équipe La Division Innovation vise à renforcer le leadership technologique d'Orange en mobilisant la recherche pour une innovation responsable, au service de l'humain, et pour éclairer les choix stratégiques du Groupe. Elle rassemble 6 000 employés dans le monde, dont 740 chercheurs, avec une grande diversité de profils (chercheurs, ingénieurs, data scientists, sociologues, etc.). Leur mission est d'améliorer continuellement la performance des services et de faire d'Orange un opérateur multiservices de confiance. Au sein de cette division, vous intégrerez deux équipes de recherche spécialisées dans le traitement automatique des langues et l'apprentissage statistique, dans un environnement stimulant avec de nombreux chercheurs, doctorants, data scientists, et de grandes infrastructures de calcul. L'entraînement des grands modèles de langage (LLMs) nécessite de gérer efficacement un coût élevé en données. Il faut sous-échantillonner les sources peu utiles et sur-échantillonner celles profitables. Les méthodes actuelles de data mixing, basées sur des lois de mélange ou régressions, ne captent pas parfaitement la dynamique d'apprentissage ni la non-stationnarité de l'utilité des données. Une alternative consiste à formaliser l'ajustement des proportions d'échantillonnage via un agent qui, à chaque étape, choisit une source et observe un retour lié aux progrès du modèle. Les bandits, notamment non-stationnaires, offrent un cadre pour gérer exploration/exploitation et l'évolution de l'utilité des sources. L'objectif est de développer des méthodes innovantes pour adapter dynamiquement l'échantillonnage entre sources lors de l'apprentissage de modèles statistiques, en particulier les LLMs, en utilisant des modèles de bandits et des algorithmes d'allocation adaptés à l'entraînement à grande échelle. Les principaux défis sont : Estimer un feedback utile malgré un signal indirect, bruité et biaisé ; Gérer la non-stationnarité de l'utilité des sources au fil du temps ; Prendre en compte les interactions entre sources (synergie, redondance, interférence) ; Limiter le coût d'exploration dans un contexte de contraintes de calcul et de retards dans les retours. Résultats attendus : Formalisation d'un modèle bandit réaliste pour le data mixing, développement de nouveaux algorithmes d'échantillonnage adaptatif, et leur évaluation à grande échelle. Compétences (scientifiques et techniques) et qualités personnelles exigées par le poste - Scientifiques et techniques ? Solide formation en mathématiques appliquées, probabilités/statistiques et optimisation ? Maîtrise de Python et des librairies de data science (NumPy, PyTorch...) ? Connaissances en apprentissage automatique et deep learning - Qualités personnelles ? Intérêt pour la recherche appliquée et la validation expérimentale ? Curiosité scientifique, rigueur et autonomie. ? Goût pour le travail en équipe et la communication de résultats ? Esprit d'initiative et capacité d'adaptation à des problématiques complexes ? Bonnes capacités communicationnelles (prise de parole, rédaction, anglais) Formation demandée (master, diplôme d'ingénieur, doctorat, domaine scientifique et technique ...) - Master 2 ou école d'ingénieur en informatique ou mathématiques appliquées Expériences souhaitées (stages, ...) - Idéalement, un stage dans un environnement de recherche en machine learning

Type de contrat: CDD - 36 Mois
Contrat travail
Durée du travail: Travail en journée