Intelligence Artificielle et Vidéo : l’Humain au cœur du Process

13 décembre 2019

Mis à jour le 4 mai 2022

Article publié dans la revue INTERFACE (n°136 – 4ème trimestre 2019), édité par les Alumni de l’INSA Lyon. Reproduction avec leur aimable autorisation.

L’intelligence artificielle, buzzword du moment, engendre son lot d’excitation mais aussi de craintes. Le remplacement des humains est la problématique la plus souvent évoquée. Et si nous voyions l’IA différemment ? Et si l’humain pouvait justement rendre l’IA plus intelligente et performante, ouvrant la voie à de nouvelles perspectives métiers ? Muriel Le Bellac, CEO de Videomenthe vous expose sa vision.

Comment l’IA propulse le montage vidéo ?

Je travaille dans le domaine de la vidéo professionnelle depuis une vingtaine d’années, et ce secteur est en profonde mutation. Dans ce domaine d’activité, l’arrivée de l’informatique dans les années 2000, puis du cloud en 2010, a modifié les schémas de fonctionnement traditionnels, tant au niveau technique qu’humain et commercial.

En effet, les infrastructures à mettre en place font désormais appel à des profils techniques différents : les formations réseaux et informatique prédominent, les techniciens et exploitants vidéos « classiques » se sentent délaissés par leur hiérarchie. L’arrivée du cloud amplifie ce ressenti car il ajoute un sentiment de dépossession de ses compétences actuelles. L’usage des services en ligne alimente les conversations et divise les équipes.

Or, nous ne sommes qu’au début de l’histoire : l’Intelligence Artificielle déboule et se cumule à ces deux changements importants. L’utilisation du cloud permet en effet d’envisager l’exploitation de ressources de calculs énormes, avec une capacité de traitement de données colossale, pour en tirer des règles, une logique, un tri. L’IA va à nouveau chambouler le rapport homme/machine et modifier le point d’équilibre.

IA : de quoi parle-t-on exactement ?

Un algorithme seul, ce n’est pas de l’IA, malgré ce que de nombreuses sociétés mettent en avant. L’intelligence artificielle intègre en fait différentes technologies : le Machine Learning et le Deep Learning, entre autres.

ml between al et dl

Selon Dony Ryanto (source : ‘Machine learning, Deep learning, AI, Big Data, Data Science, Data Analytics’ par Dony Ryanto, Janvier 2019), le Machine Learning (ML) est un champ de l’IA qui utilise des techniques statistiques offrant aux systèmes informatiques une capacité d’apprentissage (c’est-à-dire une amélioration progressive des performances sur une tâche précise), basées sur les données, sans programmation explicite préalable.

Le Deep Learning (DL) concerne quant à lui un algorithme autonome basé sur un système neuronal, capable de produire des résultats comparables, voire supérieurs à ceux des humains. Il est particulièrement utilisé dans les domaines de la reconnaissance image et voix, la traduction automatisée, l’analyse d’image médicale, les filtres pour réseaux sociaux…

L’Intelligence Artificielle au service de la vidéo

Il y a 18 mois, mon équipe a justement débuté l’intégration de l’IA dans Eolementhe, notre plateforme web collaborative permettant aux médias, services marketing et RH de facilement traiter et livrer des vidéos.

L’IA pour la Video

Selon Gartner (source : ‘A Framework for Applying AI in the Entreprise”, Juin 2017):

“En général, l’IA est mise à profit dans les activités digitales pour : (1) gérer la complexité, (2) effectuer des prédictions, (3) apprendre, (4) agir de façon autonome, (5) avoir l’air de comprendre (6) refléter un objectif très défini ou ciblé.”

Et dans le domaine de la vidéo, plusieurs cas d’usage peuvent facilement être envisagés dès lors qu’on parle d’apprentissage machine, de prédiction pour gagner du temps dans la détection d’objet, de lieux, de personnes, ou encore de transcription.

En voici quelques-uns.

Indexation : bases de documentation & archives

Les centre d’archives, médiathèques, centre de données multimédia d’organismes de formation ou de grands groupes, d’institutionnel manipulent et stockent de très nombreuses vidéos, qui ont vocation à être réutilisées pour recréer du contenu sur une thématique donnée. Se pose alors la question de l’indexation de ce contenu sur la base de mots clés ou d’images.

Quelques exemples : identifier et recenser toutes les personnalités (politiques, sportifs, acteurs) présentes dans une vidéo. Ou encore identifier des environnements (ville, plage, usine, gare), des objets (voiture, vélo), permettant de faciliter des recherches pour illustrer un sujet précis (une grève de train par exemple).

L’intelligence artificielle ouvre la voie à l’extraction automatique et pertinente de ces données (avec dans ce cas une reconnaissance faciale), pour faciliter la réutilisation par les utilisateurs. Exit l’indexation manuelle, chronophage, coûteuse et source d’erreurs. L’Humain peut désormais se concentrer sur des tâches à plus forte valeur ajoutée.

Tri avant la diffusion

Autre cas d’usage : la diffusion de contenu sur les chaînes TV, le web, les réseaux sociaux…, avec un tri préalable par l’IA, selon des critères prédéfinis par les spécificités du diffuseur. On pense par exemple à la détection de scènes, de visages, de mots…, pouvant répondre aux problématiques des chaînes thématiques, jeunesse ou aux particularités de certains pays (nudité, alcool…).

Transcription et traduction pour sous-titrage

Faire reconnaître certains termes (terminologie métier, mots à proscrire, marques) à l’IA, de manière à ce qu’elle les apprenne et les intègre ensuite par elle-même, est un autre champ d’action possible. Le but étant de proposer un service de transcription très pertinent et efficace, pour ensuite générer des sous-titres multilingues de qualité. Les mots issus du sous-titrage peuvent également être utilisés en tant que «tags », pour faciliter l’indexation des médias.

Le SEO, ou amélioration du référencement web

Dans la même veine, les métadonnées extraites par l’IA peuvent venir enrichir le référencement naturel des vidéos sur les moteurs de recherche (titre, tags, intervenants, transcription…) et permettre une plus grande visibilité.

Créer une boucle d’apprentissage complémentaire

Créer une boucle d’apprentissage complémentaire pour bénéficier du meilleur des deux mondes. Car, c’est l’un des paradoxes de l’intelligence artificielle : elle a besoin de nous pour apprendre.

L’IA au service de l’humain

Oubliez le mythe de l’intelligence artificielle toute puissante, dotée d’une conscience et capable de remplacer les humains dans toutes leurs facettes. Sans apprentissage, un outil d’intelligence artificielle est limité.

Plusieurs acteurs mondiaux travaillent sur l’intelligence artificielle au service de la vidéo :

Google ;
Microsoft ;
IBM.

Mais aussi tous les éditeurs spécialisés sur un sujet spécifique (transcription, etc…).

Sur le marché BtoB, les éditeurs entrainent leurs IA en interne. Il n’y a pas de mutualisation d’apprentissage entre utilisateurs afin de limiter les risques d’erreurs dans les données récupérées. La donnée est fondamentale et doit impérativement être contrôlée (vous connaissez l’expression anglaise « garbage in = garbage out » ?).

En revanche, certains fournissent un logiciel « vide », charge à vous de l’entraîner selon vos propres besoins. D’ailleurs, de nouvelles technologies émergent pour permettre aux entreprises de développer leurs propres modèles d’apprentissage, sans les compétences (rares) d’experts ou de Data Scientists. L’Auto ML est l’une de ses tendances, permettant de créer des modèles de Machine Learning facilement.

Videomenthe et l’IA

Chez Videomenthe, avant même d’intégrer l’IA, nous avons fait le choix de combiner l’automatisation des services cloud et les actions humaines. Ainsi, nous assurons à nos clients un résultat rapide et qualitatif.

Pour aller plus loin, nos équipes travaillent actuellement sur l’intégration de Deep Learning et d’AutoML. Mis à la disposition de l’utilisateur, de sorte qu’il puisse améliorer le mode automatique de la plateforme par ses propres données. Pour la transcription par exemple, une boucle d’apprentissage de l’IA est proposée au client. Elle va enrichir le dictionnaire de la solution que nous pilotons. Le but ? Que les corrections humaines effectuées par nos utilisateurs viennent enrichir le compte IA de notre plateforme Eolementhe. Elles mettent ainsi en place un cercle vertueux d’amélioration.

Démystifions l’intelligence artificielle. L’IA, lorsque nous l’utilisons de manière pertinente, réfléchie et éthique. Elle offre du temps aux utilisateurs, élimine les tâches fastidieuses et recentre les métiers. C’est le cas dans le domaine de la vidéo, avec une expertise humaine indispensable qui donne de la valeur ajoutée au contenu.

“10% des entreprises tirant partie de l’IA remettent l’expertise humaine au centre des choses” Forrester Predictions 2019

Les développements futurs intègreront l’AI de façon native, tout simplement car le buzzword sera devenu un impondérable.

MURIEL LE BELLAC, CEO de Videomenthe