Smart Import : le typage automatique de données textuelles avec du machine learning

Simon GEORGES est lead développeur chez Makina Corpus. Il donnera une conférence gratuite sur Intelligence Artificielle (IA), et de machine learning le 06 juin prochain dans le cadre de la 18éme édition des Rencontres Interactives au DÔME.
Drakkar Numérique s’est rapproché de lui pour en savoir un peu plus sur le contenu de sa conférence…

DN : Bonjour Simon. Quelle sera le thème de ta conférence ?
Simon : Le titre de ma conférence c’est « Smart Import : retour d’expérience sur le typage automatique de données textuelles avec du machine learning ». Je pars d’une application précise du machine learning et je montre comment l’implémenter sur un projet pour améliorer la qualité d’un jeu de data. Le sujet est assez transverse, il intéressera tous ceux qui travaillent avec de la data au quotidien : CEO, directeurs techniques, développeurs, marketeurs, growth hackers, SEO, UX designers, et donnera des idées aux autres…

DN : Quels points importants vas-tu aborder dans ta conférence ?
Simon : Je souhaite essayer de montrer que le machine learning en tant que tel est tout à fait abordable d’un point de vue programmation, mais nécessite une vraie réflexion et du travail pour concrètement obtenir des résultats. En résumé : comment faire un « vrai » projet de machine learning aujourd’hui.

DN : Ta conf est-elle destinée à des gens qui conçoivent déjà des applications basée sur l’IA, ou un néophyte peut venir sans crainte d’être perdu ?
Simon: Cette conf est plutôt tout public. Même si je montre concrètement des exemples de code, c’est plus pour indiquer qu’ils sont simples. Il y aura une grande part de « culture générale » ou d’exemples pratiques, donc cela devrait être normalement possible de la suivre pour tout le monde.

DN : À quelles applications se destinent tes recherches autour de l’IA ?
Simon : Ici, il faut distinguer le « personnel » du « professionnel » Je bosse personnellement sur des sujets autour du SEO et notamment de l’analyse sémantique, donc principalement sur l' »embedding » de mots ou de phrases (continuité du travail de Google sur Word2vec), voir par exemple l’article https://medium.com/huggingface/universal-word-sentence-embeddings-ce48ddc8fc3a paru ce mois-ci sur le sujet. Du point de vue professionnel, nous travaillons sur plusieurs sujets, l’un autour des « chatbots », donc tout ce qui est traitement du langage, et surtout sur la classification automatique de données structurées (utilisée lors de l’import de fichiers CSV, par exemple).

DN : Sur quelles données te bases-tu ?
Simon : Nous avons la chance aujourd’hui de disposer de nombreux ensembles de données, fournis par les grands acteurs (GAFAM, mais aussi Wikipedia, par exemple) pour le traitement du langage, fournis par de nombreuses plateformes Opendata pour les fichiers structurés. C’est véritablement l’âge d’or des données, on en trouve partout.

DN : Quels sont les outils et méthodes que tu utilises au quotidien et pour quelles types d’applications ?
Simon : Aujourd’hui, nous utilisons quasi-exclusivement le langage Python, par affinité au sein de la société, et des bibliothèques opensource, notamment scikit-learn, créé initialement par des labos de recherche français, pour le machine learning, mais aussi d’autres librairies comme gensim ou spacy pour le traitement du texte, openCV pour le traitement des images, et tensorflow / Keras / PyTorch pour le DeepLearning. En fait, ce sont ces bibliothèques qui font le gros du travail, et nous ne tapons pas tant de code que ça au quotidien. Nous travaillons sur tout type d’application : traitements d’images pour des labos ou parcs naturels, chatbots pour des sites web, tant qu’on peut faire de l’intelligence artificielle avec des produits open source, ça nous intéresse.

DN : Tu parles de typage automatique de données textuelles. Dans ce contexte comment maîtriser la capacité de l’IA à vérifier d’elle-même la qualité des données quelle génère ?
Simon : Cette question appelle tout un tas de réponses. La première, c’est bien sûr : « on ne peut pas ». Tout est affaire de statistiques et de tentatives de mitigations, mais il n’y a pas d’absolu en IA .
On essaie de comprendre de mieux en mieux les algorithmes, parce que la Darpa appelle l’eXplainable Artifical Intelligence (https://www.darpa.mil/program/explainable-artificial-intelligence), ce qui nous permet à notre tour de mieux la programmer. On fait aussi tout ce qu’on peut pour utiliser des algorithmes tolérants aux anomalies, des algorithmes le plus adaptés possibles aux données en entrée, et puis on introduit des phases de contrôle « a posteriori », en ne nous contentant pas d’une phase de traitement des informations, mais en essayant de les consolider ensuite.
C’est l’architecture de l’enchaînement des algos sur laquelle on travaille le plus, finalement, bien plus que sur un algo lui-même, entièrement fourni par la bibliothèque que l’on utilise.

DN : Merci Simon. On attend ta conférence avec impatience.
Simon : Merci Drakkar Numérique pour l’invitation. Je vous donne rendez-vous le 06 juin au DÔME.

Pour contacter Simon :