Job Offers
Ph.D. proposal : Vers la découverte automatique de zones d’intérêt dans le domaine du transport maritime
* Full topic: Towards automatic ZOI extraction * Time commitment: Full-time* Starting date: preferably September 2022* Duration: 36 months* Indicative salary: Approximately 1420 Euros per month* Hosting lab: LIS Lab (CNRS UMR 7020), Aix-Marseille University, Marseilles, France* How to apply: Send your complete CV, cover letter, the two last grades transcripts, and references letters to {etienne.thuillier, sana.sellami, omar.boucelma}@univ-amu.fr
Internship: Discover Disguised Missing Values
* Position: Internship position* Time commitment: Full-time* Starting date: Flexible, beginning from Feb 2019 or thereafter* Duration: Flexible from 3 to 6 months* Indicative salary: Approximately 540 Euros per month* Hosting lab: LIS Lab (CNRS UMR 7020), Aix-Marseille University, Marseilles, France* How to apply: Send your complete CV to {laure.berti, noel.novelli}@lis-lab.fr
Disguised missing values [1] are default values that are used incorrectly and by necessity to replace missing original values for which the user does not know or does not want to enter the true value. For example, when entering a form, many users will note January 1st by default as the date of birth on the field imposed by the form. We can then possibly observe that the distribution of dates of birth is somewhat "abnormal" but how to identify automatically in the data the people who were actually born on January 1st and distinguish them from the others? How to correct the erroneous data? Approaches have been proposed for this problem [2] and some rely on the discovery of functional dependencies in the data [3]. However, they are not robust to the problem of "disguised" missing values.The successful candidate will be asked to perform a state of the art of the current approaches with their implementations and propose a robust solution. This solution will be implemented and tested on real-world and synthetic data. Finally, it will be compared to existing approaches by setting up adequate experiments. The work will be carried out in the context of QualiHealth, a multi-partner project recently funded by ANR (the French Agency for Research) and the creation of the new line of research initiatives in Data Science and AI at LIS Lab.
* Required Profile:- Master 2, undergraduate M.Sc. or M.Phil in Computer Science or Engineering school- Experience in machine learning and complex data analysis and/or data management- Programming skills in Python- Good written and verbal communication skills in English
References[1] R. K. Pearson. The problem of disguised missing values. SIGKDD 2006. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.443.6794&rep=rep1&type=pdf [2] M. Hua and J. Pei. Cleaning Disguised Missing Data: A Heuristic Approach. KDD 2007. https://www.cs.sfu.ca/~jpei/publications/dmv-kdd07.pdf [3] L. Berti-Équille, H. Harmouch, F. Naumann, N. Novelli, S. Thirumuruganathan, Discovery of Genuine Functional Dependencies from Relational Data with Missing Values. Proceedings of VLDB 2018. http://www.vldb.org/pvldb/vol11/p880-berti-equille.pdf
(in French) STAGE M2: Apprentissage automatique pour l’analyse de données massives dans un contexte IoT Unité d'accueil : Laboratoire d’Informatique et des Systèmes (LIS UMR CNRS 7020)Encadrement : Etienne Thuillier (etienne.thuillier@univ-amu.fr) et Sana Sellami (sana.sellami@univ-amu.fr)Stage soumis à acceptation de financementDate limite de candidature : 06 janvier 2019Dates : de mars à juillet pour une durée de 4 à 5 mois en fonction du profilMots-clés : Sciences des données, Prédiction, apprentissage, IoT, données geolocalisées Contexte et problématique :Aujourd’hui, tous les objets sont capables d’échanger des informations et de communiquer entre eux et avec leurs utilisateurs. On les retrouve dans de nombreuses applications telles que le smart home, la santé, le transport, etc. C’est le monde de l’Internet des Objets (IoT).Selon de nombreuses études, l’IoT sera constitué de plus de 50 milliards d’objets connectés à l’horizon 2020 engendrant une grosse quantité d’informations hétérogènes transmises à chaque instant.Dans un monde optimiste, cette situation se traduit par une question simple : comment faire travailler ensemble tout ou partie de ces objets afin d’exploiter de façon efficace la masse de données qu’ils génèrent ? La partie analyse de données ou analytics est une tâche ardue. En effet, les données arrivent en flux et sont souvent parcellaires et parfois erronées. L’enjeu est donc de pouvoir intégrer, compléter et qualifier ces données afin de fournir des services performants. Objectif du stage :L’objectif de ce stage est d’étudier différents types d'algorithmes d’apprentissage automatique, notamment d’algorithmes prédictifs dans deux contextes différents. Tout d’abord la prédiction des mobilités humaines sur les territoires, par l’analyse de données GPS. Ensuite, la prédiction météorologique, et son aspect pollution atmosphérique, notamment sur la ville de Marseille.Durant ce stage, l’étudiant(e) aura à effectuer les tâches suivantes :· Réaliser un état de l’art sur les différents algorithmes de la littérature susceptibles d’être utilisés pour traiter ces données (méthodes statistiques, apprentissage, régression linéaire, arbres de décision, etc.).· Proposer des approches d’analyse prédictive adaptées aux deux contextes d’étude· Analyser et tester les approches sur les données disponibles sur la plateforme IoT locale. Profil du candidat :· Etudiant(e) de Master 2 sur un cursus informatique.· Bon niveau en informatique et plus précisément en bases de données, analyse de données et IoT· Bon niveau en C/C++, Python· Bon niveau de communication scientifique à l’écrit et à l’oral, notamment en anglais· Esprit d’initiative, autonomie Références :[1] Shanthamallu et. al. A brief survey of machine learning methods and their sensor and IoT applications, IISA 2017. https://ieeexplore.ieee.org/document/8316459 [2] Athmaja et. al. A survey of machine learning algorithms for big data analytics, ICIIECS 2017. https://ieeexplore.ieee.org/document/8276028[3] Klaine et. al. A Survey of Machine Learning Techniques Applied to Self-Organizing Cellular Networks, IEEE Communications surveys & tutorials. https://ieeexplore.ieee.org/document/7982603 [4] Sherkhane and Vora. Survey of deep learning software tools, ICDMAI 2017. https://ieeexplore.ieee.org/document/8073516[5] Lin et. al. Enhanced fingerprinting and trajectory prediction for localization in smart buildings, IEEE Transactions on automation science and engineering. https://ieeexplore.ieee.org/abstract/document/7450196