Stagiaire Machine Learning #2

Nantes, France

Talend logo
Talend
Apply now Apply later

Posted 1 month ago

WHO WE ARE:
We are changing the way the world makes decisions! Talend is a global leader in data integration and data integrity. Our software is used to truly transform business and companies with data. We believe our company has a certain Je ne sais quoi that makes us special and gives us opportunities with purpose. We pride ourselves in our values of Passion, Agility, Team Spirit and Integrity.
We help companies take their data from chaos to clarity by delivering complete, trusted, and timely data to the business.
With over 1,400 employees, we support more than 4,750 enterprise customers globally who have chosen Talend to put their data to work. We are consistently recognized by Forrester and Gartner as a leader in the Data Integration Market and our plan for the future is even more exciting.

Sujet de stage : Recommandation pour la jointure de schéma automatique
Mots clés : Schema matching, Appariement de schéma, NLP (Natural Langage Processing), apprentissage supervisé, apprentissage non-superviséEncadrant: Raphaël NedellecLocalisation : De préférence à Nantes mais l'offre est aussi ouverte pour le site de Suresnes (Ile-de-France).
Profil candidat(e):·           BAC +5 en fin de cycle école d’ingénieur ou Master 2 en université, spécialisé(e) en informatique et/ou mathématiques appliquées et/ou statistiques.·           Une expérience pratique en apprentissage statistique et des notions de développement informatique sont requises. La maîtrise de l’anglais est exigée. Une expérience en NLP est un plus.·           Connaissances sollicitées : Développement d’API en Python (Flask), NLP, word embedding, Test-driven developpement.·           Début du stage souhaité : février-avril 2021.·           Durée : 5-6 mois.
Contexte :Le schema matching est une technique consistant à faire correspondre les schémas de données de deux tables représentant des données similaires sémantiquement mais souvent de façon hétérogènes. L’étape de schema matching est une étape fondamentale pour l’intégration ou la manipulation de données. Il existe de multiples approches pour attaquer ce problème (distances textuelles/syntaxiques, analyse linguistique, sous-contraintes, basée sur des règles métier, etc.). Néanmoins, en pratique, cette tâche est souvent fastidieuse et réalisée à la main. L’objectif du stage est de développer une API fournissant un service de recommendation de schema matching. Étant donné plusieurs tables, l’objectif de l’API sera de proposer une recommendation pour l’appariement des schémas. Dans l’exemple suivant, tiré de [1], on cherche par exemple à retrouver l’appariement entre la table books et les tables BookInfo et AuthorInfo. Cet exemple illustre parfaitement le challenge à determiner automatiquement les correspondances. Certaines correspondances peuvent être determinées grâce à leur ressemblance syntaxique (Title et BookTitle), d’autres nécessitent une analyse sémantique (ISBN et ID, ou encore la décomposition de Author en LastName et FirstName). Dans certaines situations, une analyse d’un échantillon de données en complément de l’analyse du schéma permettra d’affiner l’appariement. Enfin, le problème de schema matching existe dans le cadre d’une correspondance entre des tables plates ou des structures de données hierarchiques (json, xml, ...).
Lien figure schéma : http://www.vldb.org/pvldb/vol4/p695-bernstein_madhavan_rahm.pdf

[1] Philip A. Bernstein, Jayant Madhavan, and Erhard Rahm, “Generic Schema Matching, Ten Years Later,” Proceedings of the VLDB Endowment 4, no. 11 (August 2011): 695–701, https://doi.org/10.14778/3402707.3402710.
Objectif :Le stagiaire travaillera à la recherche bibliographique, le choix et l’implémentation des algorithmes d’apprentissage pour résoudre ce problème dans différentes situations :·           Quand seuls les schémas (noms de colonnes) seront disponibles·           Quand les schémas et des méta-données seront disponibles·           Quand il sera possible d’avoir en plus accès à des samples de données·           ...De plus, l’objectif du stage sera de développer un service (librairie et API) d’appariement de schéma unique capable d’utiliser les différentes approches sélectionnées en fonction du problème posé. Plusieurs applications pourront bénéficier des suggestions de schema matching. Il sera donc demandé dans le cadre du stage de développer une API, programmée en Python, pour exposer ce service. On pourra par exemple utiliser la librairie Flask.
-------------------------------------References :A., Ali, Azlin Nordin, Mogahed Alzeber, and Abedallah Zaid. “A Survey of Schema Matching Research Using Database Schemas and Instances.” International Journal of Advanced Computer Science and Applications 8, no. 10 (2017). https://doi.org/10.14569/IJACSA.2017.081014.
“A Survey of Schema Matching Research Using Database Schemas and Instances.” International Journal of Advanced Computer Science and Applications 8, no. 10 (2017). https://doi.org/10.14569/IJACSA.2017.081014.
Abedjan, Ziawasch, Lukasz Golab, and Felix Naumann. “Profiling Relational Data: A Survey.” The VLDB Journal 24, no. 4 (August 2015): 557–81. https://doi.org/10.1007/s00778-015-0389-y.
Baazizi, Mohamed-Amine, Houssem Ben Lahmar, Dario Colazzo, Giorgio Ghelli, and Carlo Sartiani. “Schema Inference for Massive JSON Datasets.” OpenProceedings.org, 2017. https://doi.org/10.5441/002/EDBT.2017.21.
Bernstein, Philip A., Jayant Madhavan, and Erhard Rahm. “Generic Schema Matching, Ten Years Later.” Proceedings of the VLDB Endowment 4, no. 11 (August 2011): 695–701. https://doi.org/10.14778/3402707.3402710.
Blaselbauer, Vitor Marini, and Joao Marcelo Borovina Josko. “JSONGlue: A Hybrid Matcher for JSON Schema Matching,” n.d., 6.
Cappuzzo, Riccardo, Paolo Papotti, and Saravanan Thirumuruganathan. “Creating Embeddings of Heterogeneous Relational Datasets for Data Integration Tasks.” In Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data, 1335–49. Portland OR USA: ACM, 2020. https://doi.org/10.1145/3318464.3389742.
Islam, Aminul, Diana Inkpen, and Iluju Kiringa. “Database Schema Matching Using Corpus-Based Semantic Similarity and Word Segmentation,” n.d., 12.
Koutras, Christos, Marios Fragkoulis, Asterios Katsifodimos, and Christoph Lofi. “REMA: Graph Embeddings-Based Relational Schema Matching,” n.d., 4.
Nozaki, Kenji, Teruhisa Hochin, and Hiroki Nomiya. “Semantic Schema Matching for String Attribute with Word Vectors and Its Evaluation.” International Journal of Networked and Distributed Computing, 2019. https://doi.org/10.2991/ijndc.k.190710.001.
Sahay, Tanvi, Ankita Mehta, and Shruti Jadon. “Schema Matching Using Machine Learning.” In 2020 7th International Conference on Signal Processing and Integrated Networks (SPIN), 359–66. Noida, India: IEEE, 2020. https://doi.org/10.1109/SPIN48934.2020.9071272.
Shraga, Roee, Avigdor Gal, and Haggai Roitman. “ADnEV: Cross-Domain Schema Matching Using Deep Similarity Matrix Adjustment and Evaluation.” Proceedings of the VLDB Endowment 13, no. 9 (May 2020): 1401–15. https://doi.org/10.14778/3397230.3397237.
Waghray, Kunal. “JSON Schema Matching: Empirical Observations.” In Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data, 2887–89. Portland OR USA: ACM, 2020. https://doi.org/10.1145/3318464.3384417.


AND NOW, A LITTLE ABOUT US:
Talend has received some pretty impressive accolades along the way:
- CEO named a 2020 Top Diverse Leader by the National Diversity Council- 5th consecutive year named a Leader for Data Integration Tools in the Gartner Magic Quadrant 2020- 3rd consecutive year named as a Leader for Data Quality Solutions in Gartner Magic Quadrant 2020- Recognized as a Challenger for Enterprise Integration Platform as a Service (iPaaS) in Gartner Magic Quadrant 2020- "2018 Best  Public Cloud Computing Companies To Work For" by Glassdoor- Named Leader in The Forrester Wave™: Enterprise Data Fabric- Ranked in the DBTA “100 Companies that Matter Most in Data”- Listed in the CRN Big Data 100 Companies We are passionate about helping companies become more data driven; and, if we can be honest, we are all geeks at heart who pride ourselves on the vibrant company culture that we have built. 

As a global employer, Talend believes our success depends on diversity, inclusion and mutual respect among our team members. We want to look like our customers, and we recruit, develop and retain the most hardworking people from a diverse candidate pool. We are committed to making all employment decisions on the basis of business need, merit, capability and equality of opportunity. All qualified applicants will receive consideration for employment without regard to race, color, religion, sex, sexual orientation, gender identity, or national origin.
We will ensure that individuals with disabilities are provided reasonable accommodation to participate in the job application or interview process, to perform essential job functions, and to receive other benefits and privileges of employment. Please contact us to request accommodation.
Job tags: Big Data JSON Machine Learning NLP Python Research
Job region(s): Europe
Share this job: