PhD 'Data mixing using bandits to train LLMs' F/H 22 - Lannion
Offre n° 1451852
PhD 'Data mixing using bandits to train LLMs' F/H
22 - Lannion - Localiser avec Mappy
Publié le 14 avril 2026
Orange est un acteur majeur en Europe et en Afrique dans le mobile et l'ADSL, et un leader mondial des services télécoms aux entreprises. Description de l'entité/équipe La Division Innovation vise à renforcer le leadership technologique d'Orange en mobilisant la recherche pour une innovation responsable, au service de l'humain, et pour éclairer les choix stratégiques du Groupe. Elle rassemble 6 000 employés dans le monde, dont 740 chercheurs, avec une grande diversité de profils (chercheurs, ingénieurs, data scientists, sociologues, etc.). Leur mission est d'améliorer continuellement la performance des services et de faire d'Orange un opérateur multiservices de confiance. Au sein de cette division, vous intégrerez deux équipes de recherche spécialisées dans le traitement automatique des langues et l'apprentissage statistique, dans un environnement stimulant avec de nombreux chercheurs, doctorants, data scientists, et de grandes infrastructures de calcul. L'entraînement des grands modèles de langage (LLMs) nécessite de gérer efficacement un coût élevé en données. Il faut sous-échantillonner les sources peu utiles et sur-échantillonner celles profitables. Les méthodes actuelles de data mixing, basées sur des lois de mélange ou régressions, ne captent pas parfaitement la dynamique d'apprentissage ni la non-stationnarité de l'utilité des données. Une alternative consiste à formaliser l'ajustement des proportions d'échantillonnage via un agent qui, à chaque étape, choisit une source et observe un retour lié aux progrès du modèle. Les bandits, notamment non-stationnaires, offrent un cadre pour gérer exploration/exploitation et l'évolution de l'utilité des sources. L'objectif est de développer des méthodes innovantes pour adapter dynamiquement l'échantillonnage entre sources lors de l'apprentissage de modèles statistiques, en particulier les LLMs, en utilisant des modèles de bandits et des algorithmes d'allocation adaptés à l'entraînement à grande échelle. Les principaux défis sont : Estimer un feedback utile malgré un signal indirect, bruité et biaisé ; Gérer la non-stationnarité de l'utilité des sources au fil du temps ; Prendre en compte les interactions entre sources (synergie, redondance, interférence) ; Limiter le coût d'exploration dans un contexte de contraintes de calcul et de retards dans les retours. Résultats attendus : Formalisation d'un modèle bandit réaliste pour le data mixing, développement de nouveaux algorithmes d'échantillonnage adaptatif, et leur évaluation à grande échelle. Compétences (scientifiques et techniques) et qualités personnelles exigées par le poste - Scientifiques et techniques ? Solide formation en mathématiques appliquées, probabilités/statistiques et optimisation ? Maîtrise de Python et des librairies de data science (NumPy, PyTorch...) ? Connaissances en apprentissage automatique et deep learning - Qualités personnelles ? Intérêt pour la recherche appliquée et la validation expérimentale ? Curiosité scientifique, rigueur et autonomie. ? Goût pour le travail en équipe et la communication de résultats ? Esprit d'initiative et capacité d'adaptation à des problématiques complexes ? Bonnes capacités communicationnelles (prise de parole, rédaction, anglais) Formation demandée (master, diplôme d'ingénieur, doctorat, domaine scientifique et technique ...) - Master 2 ou école d'ingénieur en informatique ou mathématiques appliquées Expériences souhaitées (stages, ...) - Idéalement, un stage dans un environnement de recherche en machine learning
- Type de contrat
-
CDD - 36 Mois
Contrat travail - Durée du travail
-
Travail en journée
Profil souhaité
Expérience
- Débutant accepté
Informations complémentaires
- Qualification : Cadre
- Secteur d'activité : Télécommunications filaires
D'autres offres peuvent vous intéresser :
(déjà vu)Ingénieur Simulation Aéronautique - Lannion F/H - Projets scientifiques et techniques (H/F)
B-HIVE - 22 - Lannion
Descriptif du poste: Votre mission consistera à réaliser la conception préliminaire et conception détaillée de tout ou partie d'un simulateur de vol d'avion de ligne. Vos principales missions...
CDI - Non renseigné
Publié il y a 8 jours
CDI
Non renseigné
(déjà vu)Ingénieur Automatisation de Tests F/H - Test, essai, validation, expertise (H/F)
CARREVOLUTIS - 22 - Lannion
Descriptif du poste: Description de l'entreprise Le groupe SII est une société d'ingénierie et de conseil en technologies (ICT) et une entreprise de services numériques (ESN) créée en 1979 par...
CDI - Non renseigné
Publié il y a 19 jours
CDI
Non renseigné
Découvrez d'autres services web

Réussir son CV et sa lettre de motivation
Suscitez l’intérêt du recruteur et donnez-lui envie de vous rencontrer.

B.A.BA Entretien
Apprenez à préparer votre prochain entretien.

Informations sur le marché du travail
Accédez aux informations et statistiques sur ce métier.

Simulateur en cas de reprise d'emploi salarié
Estimez vos droits aux allocations et aides.
- Voir plus de services (Emploi store)


.



