developerjobs.ch
← Toutes les offres

Ingénieur de fiabilité de site - Agents IA

Kraken

Type de contrat
Temps plein
Lieu
Suisse
Postuler
CONSTRUIRE L'AVENIR DE LA FINANCE OUVERTE Payward - la société mère derrière Kraken, NinjaTrader, Breakout, xStocks, Payward Services et CF Benchmarks - a passé les 15 dernières années à construire l'une des plateformes d'infrastructure financière les plus modernes et accessibles au niveau mondial dans l'industrie, conçue pour faire progresser un système financier ouvert et mondial. Avant de postuler, nous vous encourageons à explorer notre page de culture https://www.kraken.com/culture pour comprendre ce qui nous motive et comment nous travaillons. L'ÉQUIPE Fondée en 2011, Kraken est l'une des plateformes de crypto les plus anciennes au monde, en qui plus de 10 millions d'individus et d'institutions à travers le globe ont confiance. Elle propose des services de trading spot, de marge, de futures, de staking et de services OTC, avec des produits conçus à la fois pour les investisseurs individuels et les clients institutionnels. L'équipe d'infrastructure IA siège au sein de l'organisation Data et est responsable de la construction, de l'exploitation et de la mise à l'échelle des systèmes qui alimentent les agents IA en production — à la fois des outils internes et des produits à destination externe. Travaillant en étroite collaboration avec les équipes IA et Systèmes d'agents, ce groupe veille à ce que les couches d'orchestration, d'exécution et de service de modèles sous-jacentes aux flux de travail agents soient fiables, observables et conçues pour évoluer. Cette équipe opère à l'intersection de l'infrastructure de données et de l'IA appliquée — un espace qui évolue rapidement et qui exige des ingénieurs capables d'apporter une discipline de production à la technologie émergente. Vous travaillerez en partenariat avec les équipes d'ingénierie de données, de ML et de produits pour renforcer l'infrastructure d'agent et la maintenir en fonctionnement aux normes attendues par nos utilisateurs. Il est important de noter que c'est une équipe d'ingénierie de plateforme. Au-delà de l'exploitation de l'infrastructure, l'équipe est responsable de la construction des API, des SDK et des capacités de plateforme qui permettent aux équipes IA, données et ingénierie de consommer en toute sécurité et efficacement l'infrastructure d'agent en tant que service. Le succès dans ce rôle nécessite de réfléchir au-delà des opérations d'infrastructure et de se concentrer sur l'expérience du développeur, l'adoption de la plateforme et la scalabilité à long terme. L'OPPORTUNITÉ - Concevoir, construire et exploiter la couche d'infrastructure qui prend en charge les flux de travail d'agents IA en production - Assurer la fiabilité, la scalabilité et l'observabilité des systèmes agents sur les produits internes et externes - Concevoir et développer des services de plateforme, des API, des SDK et des capacités d'auto-service qui permettent aux équipes d'ingénierie de consommer facilement l'infrastructure IA et les services de plateforme d'agent - Gérer et maintenir l'infrastructure de calcul, d'orchestration et de service qui alimente l'inférence de modèle et l'exécution d'agent - Mettre en œuvre des procédures de surveillance, d'alerte et de réponse aux incidents robustes adaptées aux charges de travail IA/ML - Utiliser des outils d'infrastructure en tant que code (IaC) tels que Terraform pour provisionner et gérer les composants d'infrastructure cloud (AWS) - Construire et maintenir des pipelines CI/CD qui prennent en charge le déploiement rapide et fiable des services IA et des flux de travail d'agent - Définir et mettre en œuvre des garde-fous, des mécanismes de gestion des défaillances et des modèles de récupération spécifiques aux systèmes agents et alimentés par LLM - Collaborer avec les équipes IA et d'ingénierie de données pour traduire les prototypes d'agent expérimentaux en systèmes de production robustes - Gérer les charges de travail conteneurisées à l'aide de Kubernetes, en veillant à un déploiement, une mise à l'échelle et une orchestration efficaces des services IA - Mettre en œuvre des contrôles d'accès et des meilleures pratiques de sécurité dans l'ensemble des environnements d'infrastructure IA - Documenter l'architecture, les runbooks et les meilleures pratiques pour soutenir le partage des connaissances au sein de l'équipe CE QUE VOUS APOPORTER - 5+ ans d'expérience en tant qu'ingénieur de fiabilité de site, ingénieur d'infrastructure, ingénieur de plateforme ou rôle similaire dans un environnement de production - Expérience pratique dans le soutien de l'infrastructure ML, du service de modèle ou des flux de travail MLOps en production - Expérience dans la construction de plateformes de développeur, d'outils internes, d'API ou de SDK consommés par les équipes d'ingénierie à grande échelle - Compréhension solide des principes d'ingénierie de plateforme, y compris l'expérience du développeur, l'infrastructure en mode auto-service et la conception de plateforme basée sur API - Maîtrise des outils d'infrastructure en tant que code, en particulier Terraform - Expérience avec la conteneurisation et l'orchestration, en particulier Kubernetes et Docker - Compréhension solide de l'infrastructure cloud, de préférence AWS - Solides compétences en scripting (bash/shell) et maîtrise d'au moins un langage de programmation (Python préféré) - Expérience dans la conception et l'exploitation de systèmes d'observabilité, de surveillance et d'alerte - Expérience dans la mise en œuvre de procédures de réponse aux incidents et la participation à des rotations d'appel - Solides compétences en collaboration travaillant avec les équipes de données, d'IA et d'ingénierie - Mentalité de forte propriété dans un environnement de production à mouvement rapide et à enjeux élevés CE SERAIT BIEN - Expérience dans la construction ou l'exploitation d'infrastructure pour les systèmes basés sur des agents ou alimentés par LLM - Familiarité avec les frameworks d'o

Traduit automatiquement depuis l’original.

Publié aujourd'hui

Cette offre paraît aussi sur