Stagiaire Machine Learning #1

Nantes, France

Talend logo
Talend
Apply now Apply later

Posted 1 month ago

WHO WE ARE:
We are changing the way the world makes decisions! Talend is a global leader in data integration and data integrity. Our software is used to truly transform business and companies with data. We believe our company has a certain Je ne sais quoi that makes us special and gives us opportunities with purpose. We pride ourselves in our values of Passion, Agility, Team Spirit and Integrity.
We help companies take their data from chaos to clarity by delivering complete, trusted, and timely data to the business.
With over 1,400 employees, we support more than 4,750 enterprise customers globally who have chosen Talend to put their data to work. We are consistently recognized by Forrester and Gartner as a leader in the Data Integration Market and our plan for the future is even more exciting.
Sujet de stage : Apprentissage fédéré et respectueux de la vie privée d’un modèle de classification pour la qualité de données.
Mots clés : Apprentissage fédéré, Respect de la vie privée, Deep learning, Machine learningEncadrant : Tarek BenkhelifLocalisation : De préférence à Nantes mais l'offre est aussi ouverte pour le site de Suresnes (Ile-de-France).
Profil candidat(e):•           BAC +5 en fin de cycle école d’ingénieur ou Master 2 en université, spécialisé(e) en informatique et/ou mathématiques appliquées.•           Une expérience pratique en apprentissage automatique avec Python est requise. La maîtrise de l’anglais est exigée.•           Expériences souhaitées : Privacy, librairies PyTorch, Pandas et Scikit-learn.•           Début du stage souhaité : février -avril 2021.•           Durée : 5-6 mois.
Contexte :La détection de types sémantiques vise à identifier les références réelles des sources de données en établissant des correspondances avec des concepts du monde réel. Les types sémantiques peuvent fournir des descriptions de données précises et leur découverte est souvent une étape systématique pour l’automatisation de tâches telles que : le nettoyage des données, la correspondance des schémas, la recherche sémantique et la visualisation des données. Par exemple, si un outil de préparation de données est capable de détecter que les valeurs d’une colonne donnée se réfèrent à des noms, il pourrait alors appliquer automatiquement une règle de transformation qui met en majuscule le premier caractère de chaque chaîne de caractère, tout en laissant le reste en minuscules. Il réduit ainsi le temps et les efforts nécessaires à l’accomplissement de cette tâche. Talend met à disposition de ses utilisateurs une liste ’standard‘ contenant plus d’une centaine de types sémantiques des plus usités, et leurs permet de les détecter dans leurs données.
Objectif :Nous voulons construire un modèle de classification multi-label pour la détection de types sémantiques partagé par l’ensemble de nos utilisateurs. Les avantage de l’utilisation d’un tel modèle pour l’utilisateur sont : (I) sa robustesse (apprentissage à partir de sources multiples) (II) sa mise à jour automatique (les changements dans les données des utilisateurs sont répercutés sur le modèle global). L’objectif du stage sera de décliner un modèle de deep learning pour la détection de types sémantiques : Sherlock [1] dans un contexte d’apprentissage fédéré et respectueux de la vie privée .[2]
L’apprentissage fédéré est un cadre d’apprentissage dont l’objectif est de produire un modèle centralisé de haute qualité avec des données d’apprentissage réparties sur un grand nombre de clients .[3] Chaque client calcule indépendamment une mise à jour du modèle actuel sur la base de ses données locales, et communique cette mise à jour à un serveur central. Enfin, les mises à jour côté client sont agrégées pour calculer un nouveau modèle global.
Les protocoles d’apprentissage automatique préservant la vie privée [4] permettent d’entraîner des modèles d’apprentissage et de les exploiter sur des données sensibles, tout en protégeant simultanément les données et le modèle.
L’enjeu du stage réside dans la combinaison de l’apprentissage fédéré et de la confidentialité différentielle [5] (une approche de protection de la vie privée). A cet effet, l’étudiant(e) exploitera les bibliothèques Opacus [6] et PySyft .[7]

----------------------------------------
[1] Madelon Hulsebos et al., “Sherlock: A Deep Learning Approach to Semantic Data Type Detection,” in Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2019, 1500–1508.[2] Georgios A Kaissis et al., “Secure, Privacy-Preserving and Federated Machine Learning in Medical Imaging,” Nature Machine Intelligence, 2020, 1–7.[3] Jakub Konečnỳ et al., “Federated Learning: Strategies for Improving Communication Efficiency,” arXiv Preprint arXiv:1610.05492, 2016.[4] Thomas Schneider, “Engineering Privacy-Preserving Machine Learning Protocols,” in Proceedings of the 2020 Workshop on Privacy-Preserving Machine Learning in Practice, 2020, 3–4.[5] Cynthia Dwork, “Differential Privacy: A Survey of Results,” in International Conference on Theory and Applications of Models of Computation (Springer, 2008), 1–19.[6] Pranav Subramani, Nicholas Vadivelu, and Gautam Kamath, “Enabling Fast Differentially Private SGD via Just-in-Time Compilation and Vectorization,” arXiv Preprint arXiv:2010.09063, 2020.[7] Mohamed Abdur Rahman et al., “Secure and Provenance Enhanced Internet of Health Things Framework: A Blockchain Managed Federated Learning Approach,” IEEE Access 8 (2020): 205071–87. 

AND NOW, A LITTLE ABOUT US:
Talend has received some pretty impressive accolades along the way:
- CEO named a 2020 Top Diverse Leader by the National Diversity Council- 5th consecutive year named a Leader for Data Integration Tools in the Gartner Magic Quadrant 2020- 3rd consecutive year named as a Leader for Data Quality Solutions in Gartner Magic Quadrant 2020- Recognized as a Challenger for Enterprise Integration Platform as a Service (iPaaS) in Gartner Magic Quadrant 2020- "2018 Best  Public Cloud Computing Companies To Work For" by Glassdoor- Named Leader in The Forrester Wave™: Enterprise Data Fabric- Ranked in the DBTA “100 Companies that Matter Most in Data”- Listed in the CRN Big Data 100 Companies We are passionate about helping companies become more data driven; and, if we can be honest, we are all geeks at heart who pride ourselves on the vibrant company culture that we have built. 

As a global employer, Talend believes our success depends on diversity, inclusion and mutual respect among our team members. We want to look like our customers, and we recruit, develop and retain the most hardworking people from a diverse candidate pool. We are committed to making all employment decisions on the basis of business need, merit, capability and equality of opportunity. All qualified applicants will receive consideration for employment without regard to race, color, religion, sex, sexual orientation, gender identity, or national origin.
We will ensure that individuals with disabilities are provided reasonable accommodation to participate in the job application or interview process, to perform essential job functions, and to receive other benefits and privileges of employment. Please contact us to request accommodation.
Job tags: Big Data Data Mining Deep Learning Engineering Machine Learning Pandas Python PyTorch Scikit-Learn
Job region(s): Europe
Share this job: