Ingénieur Systèmes & Opération Usine Gpu H/F 92 - Saint-Cloud
Offre n° 5861383
Ingénieur Systèmes & Opération Usine Gpu H/F
92 - Saint-Cloud - Localiser avec Mappy
Publié le 26 novembre 2025
POSTE : Ingénieur Systèmes & Opération Usine Gpu H/F DESCRIPTION : Nous offrons des expériences uniques grâce au savoir-faire de nos équipes passionnées, qui se reflète notamment par la création de solutions de Business Expériences, le développement de notre propre orchestrateur Cloud, TINA OS, ou encore l'obtention de la qualification SecNumCloud. Vos missions - Déployer les couches logicielles, depuis les OS de base jusqu'aux couches d'abstraction de type hyperviseur de virtualisation, orchestrateur de container - Configurer les serveurs, des couches réseaux, en particulier du réseau Infiniband et des commutateurs Nvlink - Mettre en place les outils de supervision et de monitoring, en particulier : - La surveillance matérielle de l'usine à IA allant des moyens de refroidissement (CDU / échangeurs thermiques, identification des fuites d'eau), les moyens de calcul (serveurs), les équipements de communication réseau et fabric internes aux serveurs (Nvlink), les GPU (température, performance, utilisation) - La surveillance système pour toutes les couches logicielles de bas niveau - La surveillance des services qui seront définis - La surveillance de la disponibilité et de la performance du stockage - La surveillance des performances d'ensemble de bout-en-bout - La mise en place d'un cockpit de supervision permettant de visualiser de manière synthétique l'état de l'usine à GPU - La mise en place d'un dashboard management permettant de visualiser des éléments simplifiés à l'usage du management de l'entreprise et permettant de visualiser l'état de disponibilité des services et l'état des performances des services - Elaborer les dispositifs permettant l'automatisation des opérations, en particulier : - La mise à jour des composants logiciels - La relance / réparation (self-healing) des composants logiciels lorsque c'est faisable - L'isolation de GPU / noeuds / serveurs qui ne seraient plus en mesure d'exécuter des traitements - La relance des traitements sur un autre serveur lorsque cela est faisable au niveau applicatif - Elaborer les process de support, de gestion des incidents, de mise à jour des environnements (GPU / BIOS / NvSwitch / NIC) - Gérer la capacité avec identification en avance de phase des saturations, identifier les usages principaux et mettre en place les dashboards qui permettent la prise de décision sur les investissements à réaliser - Gérer la sécurité en relation avec les équipes Cyber Sécurité d'OUTSCALE - Gérer le réseau au sein des serveurs en relation avec les ingénieurs réseaux dédiés à l'AI Factory - Paramétrer les outils de management de l'usine à GPU - Paramétrer les accès au stockage, vérifier la performance d'accès au stockage pour l'ensemble des noeuds - Sauvegarder et restaurer les configurations qui permettent la relance de l'usine à GPU en cas de dysfonctionnement - Elaborer un plan de débordement afin d'utiliser une autre usine à GPU en cas de saturation - Elaborer un plan de secours permettant de redémarrer le service sur une autre usine à GPU en cas d'indisponibilité majeure - Assurer le support aux utilisateurs internes - Intégrer les nouveaux services développés par les équipes internes ou basés sur des solutions tierces (par exemple Nvidia) - Mettre en oeuvre les outils Nvidia Mission Control et Nvidia Run:ai - Mettre en place le métrique de coût (€/TFLOPS, €/VM, €/heure GPU) Stack technique - Administration système d'exploitation Linux (pas uniquement utilisateur) - Déploiement et opération de containers en particulier Docker et/ou Kubernetes - Déploiement et/ou administration d'infrastructure de supercalcul (HPC / High performance computing) - Administration réseau / connaissance de la stack IP / déploiement de réseaux Cisco / certification Cisco Cloud Expert AWS ou GCP ou Azure - Déploiement / administration d'hyperviseurs de virtualisation, ou de logiciels d'orchestration - Cloud Administration des outils de gestion d'infrastructure Nvidia : Mission Control et/ou Run:ai - L'une des certification suivante: Kubernetes CKA/CKS, Nvidia Certified, Cisco CCNP/CCIE, RedHat RHCE Votre profil - Diplômé·e d'un Master en ingénierie informatique, ou en commerce, vous possédez déjà une expérience professionnelle post diplôme minimum de 2 ans en tant que ingénieur systemes & operation Usine GPU - Vous parlez français et anglais couramment - Vous appréciez travailler en équipe et possédez un bon relationnel. - Rigoureux, autonome et réactif, vous êtes naturellement force de proposition. Nous rejoindre c'est aussi Intégrer une entreprise scientifique au coeur de l'innovation technologique, portée par une forte croissance depuis plus de 40 ans Principa
- Type de contrat
-
CDI
Contrat travail - Durée du travail
-
00H/semaine
Profil souhaité
Expérience
- Expérience exigéeCette expérience est indispensable
Informations complémentaires
- Qualification : Cadre
Employeur
Dassault Systèmes
Nous recrutons un·e Ingénieur systèmes & operation Usine GPU afin de renforcer notre équipe AI Factory. OUTSCALE, marque de Dassault Systèmes, est un opérateur souverain et durable de l'Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance.
D'autres offres peuvent vous intéresser :
(déjà vu)
PENTESTER H/F
EMITECH - 78 - MONTIGNY LE BRETONNEUX
Rattaché au responsable du laboratoire cybersécurité, vous assurerez la sécurité des dispositifs IoT, en réalisant des tests de pénétration et des audits de conformité avec les normes de...
CDI - Temps plein
Publié il y a 13 jours
CDI
Temps plein(déjà vu)
Ingénieur réalisation (H/F)
LINKT - 92 - Courbevoie
Nous recherchons des experts en intégration de solutions IT pour accompagner nos clients dans leurs projets d'infrastructure, de sécurité, de virtualisation et de transformation digitale. Expertise...
CDI - Temps plein
Publié il y a 14 jours
CDI
Temps plein
(déjà vu)Ingénieur(e) de Production DevOps - Ile-de-France (H/F)
92 - Courbevoie
Votre futur environnement de travail :Vous intégrez une agence dynamique qui compte plus de 370 collaborateurs répartis sur toute la région parisienne. Suivant les missions qui vous sont confiées,...
CDI - Non renseigné
Publié il y a 2 jours
CDI
Non renseigné
(déjà vu)Ingénieur / Ingénieure d'exploitation informatique F/H - Exploitation, maintenance informatique (H/F)
LOGWIRE CONSULTING - 95 - Bezons
Descriptif du poste: *S'occuper du suivi des performances et du bon déroulement des opérations. *Surveiller les différents fonctionnements des matériels informatiques *Création de la chaine control...
CDI - Non renseigné
Publié il y a 5 jours
CDI
Non renseigné
(déjà vu)Ingénieur / Ingénieure d'exploitation informatique (H/F)
Konvergence Consulting - 78 - Montigny-le-Bretonneux
Nous recherchons pour l'un de nos client grand compte dans le secteur Bancaire un Ingénieur d'exploitation pour intervenir sur les sujets suivants: NTEGRATION - Vous contribuez : . à la mise en...
CDI - Non renseigné
Publié il y a 9 jours
CDI
Non renseigné
(déjà vu)Ingénieur d'Exploitation Linux H/F
78 - Trappes
Notre client est une entreprise spécialisée dans les services IT dans les environnements bancaire, elle se distingue par ses spécialisations. Elle est reconnue pour son expertise dans l'optimisation...
CDI - Non renseigné
Publié hier
CDI
Non renseigné
(déjà vu)Ingénieur Réseaux et Sécurité F/H - Système, réseaux, données (H/F)
les artisans recrutement - 75 - Paris 1er Arrondissement
Descriptif du poste: Vos missions au quotidien : Sécurité opérationnelle : Exploitation et administration de l'écosystème Palo Alto (obligatoire) :FirewallsVPNEDR Cortex / XDRDatalake Palo...
CDI - Non renseigné
Publié il y a 10 jours
CDI
Non renseigné
(déjà vu)Ingénieur Système Ferroviaire H/F
IT Link - 75 - Paris 1er Arrondissement
POSTE : Ingénieur Système Ferroviaire H/F DESCRIPTION : Dans le cadre de nos activités relatives à la mutation des mobilités, nous recherchons un.e ingénieur.e système pour développer les différents...
CDI - Non renseigné
Publié hier
CDI
Non renseigné
(déjà vu)Ingénieur - Ingénierie Système - Plm H/F
Assystem - 92 - Courbevoie
POSTE : Ingénieur - Ingénierie Système - Plm H/F DESCRIPTION : Rejoignez les équipes d'Amine au sein du Digital Excellence Center d'Assystem, une entité dédiée à l'innovation et la R&D, et devenez...
CDI - Non renseigné
Publié il y a 3 jours
CDI
Non renseigné
(déjà vu)Ingénieur Réseau et Sécurité N3 F/H - Maintenance, sécurité (H/F)
NEURONES IT - 91 - Saclay
Descriptif du poste: Pour cela, vous garantissez le maintien en condition opérationnelle (MCO) des infrastructures réseau et sécurité et vous serez en charge de l'analyse, du suivi et de la...
CDI - Non renseigné
Publié il y a 13 jours
CDI
Non renseigné
Découvrez d'autres services web

Réussir son CV et sa lettre de motivation
Suscitez l’intérêt du recruteur et donnez-lui envie de vous rencontrer.

B.A.BA Entretien
Apprenez à préparer votre prochain entretien.

Informations sur le marché du travail
Accédez aux informations et statistiques sur ce métier.

Simulateur en cas de reprise d'emploi salarié
Estimez vos droits aux allocations et aides.
- Voir plus de services (Emploi store)


.



