L'IA de Facebook peut analyser les mèmes, mais peut-elle les comprendre ? La technologie Rosetta de Facebook analyse des milliards d'images contenant du texte, mais les mèmes sont trop complexes pour l'intelligence artificielle. Des milliards de textes, de photos et de vidéos sont téléchargés chaque jour sur les réseaux sociaux. Il s’agit d’une mine d’informations que les modérateurs humains et leurs vérificateurs de faits ne peuvent pas examiner, contrôler et contrôler de manière exhaustive. Des entreprises comme Facebook et YouTube s’appuient depuis longtemps sur l’intelligence artificielle pour éloigner le spam, la violence, les contenus critiques et la pornographie de leurs plateformes !
Quelque chose comme un mème critique pour le système sans texte peut être difficile à analyser et à traiter pour ses superordinateurs et leurs algorithmes, car cette tâche nécessite le calcul de plusieurs éléments visuels différents en même temps. Les systèmes automatisés, appelés systèmes bots, doivent reconnaître et « lire » les mots au-dessus de la photo ainsi qu'analyser et attribuer l'image elle-même. Les mèmes peuvent également être décrits comme des artefacts culturels complexes, difficiles à comprendre en dehors de leur contexte. Malgré les défis qu’ils posent, toutes les grandes plateformes sociales utilisent déjà l’IA pour contrôler les mèmes, y compris Facebook, qui utilise un outil appelé Rosetta pour analyser les photos et vidéos contenant du texte et des légendes.
Selon Facebook, Rosetta est déjà utilisée pour détecter automatiquement les contenus qui enfreignent les directives relatives aux discours de haine. Avec l'aide de Rosetta, Facebook s'efforce de contrôler le contenu des utilisateurs, notamment les photos et les vidéos, et pas seulement les publications textuelles. Rosetta prend en charge le processus dans lequel il est automatiquement vérifié si les images et les vidéos contenant du texte ont déjà été marquées comme « critiques ». Rosetta combine la technologie OCR (reconnaissance optique de caractères) avec d'autres techniques d'apprentissage automatique pour afficher, traiter, classer et attribuer du texte dans et sur des photos et des vidéos, puis l'enregistrer. Premièrement, l’OCR est utilisée pour déterminer où se trouve le texte dans un mème ou une vidéo. Cela leur permet de transformer rapidement les données et d'utiliser leurs « sélecteurs » pour évaluer le contenu.
Une fois que Rosetta sait où se trouvent les mots, Facebook utilise un réseau de neurones capable de comprendre le texte, sa transcription et sa signification. Ce texte peut ensuite être transmis via d'autres systèmes, comme un système qui vérifie si le mème est un message viral déjà démystifié conformément à leurs directives. Les développeurs et les chercheurs de Rosetta affirment que l'outil peut désormais extraire le texte de n'importe quelle image téléchargée publiquement sur Facebook en temps réel et reconnaître le texte, ainsi que « lire » son identifiant de langue, notamment l'anglais, l'espagnol, l'allemand et l'arabe.
Rosetta peut également analyser des images contenant du texte sous de nombreuses formes différentes, telles que des photos de pancartes de protestation, des menus de restaurant, des vitrines de magasins, etc. Viswanath Sivakumar, ingénieur logiciel chez Facebook qui travaille sur Rosetta, a déclaré dans un e-mail que l'outil fonctionne bien à la fois pour identifier du texte dans un paysage comme un panneau de signalisation et pour les mèmes - mais ce dernier est plus difficile. « Dans le contexte de la détection proactive des discours de haine et d’autres contenus qui enfreignent les politiques, les images de type mème présentent un défi plus complexe en matière d’IA », a-t-il écrit.
Contrairement aux humains, une IA a généralement besoin de voir des dizaines de milliers d’exemples avant de pouvoir apprendre à accomplir une tâche compliquée, explique Sivakumar. Mais les mèmes ne sont pas infiniment contrôlables, même pour Facebook, et collecter et stocker suffisamment d'exemples dans différentes langues et émotions peut également s'avérer difficile. Trouver des messages de haute qualité constitue un défi permanent pour la recherche sur l’intelligence artificielle au sens large. Les données doivent souvent être soigneusement étiquetées et archivées manuellement. De nombreuses bases de données sont également protégées par le droit d'auteur.
Afin de fournir à Rosetta les données nécessaires et de développer son utilité, le texte, ainsi que ses légendes et les lieux à partir desquels ils ont été publiés, sont combinés dans un processus informatique. En termes simples, vous avez créé un programme pour créer exactement les exemples dont le contenu semble discutable. Cela signifie que l'ensemble du processus est automatisé dans une certaine mesure : un programme crache automatiquement les mèmes et un autre essaie de les analyser. L’IA sera confrontée à de très grands défis. Par exemple, Rosetta est confrontée à des langues comme l’arabe, qui se lit de droite à gauche, contrairement à d’autres langues comme l’anglais ou l’allemand. Rosetta « lit » l’arabe à l’envers, puis Facebook inverse les caractères après traitement. Cette astuce fonctionne étonnamment bien et permet d'obtenir un modèle unifié qui fonctionne à la fois pour les langues de gauche à droite et de droite à gauche.
Les systèmes automatisés peuvent être extrêmement utiles pour la modération du contenu et la vérification des faits, mais ils ne sont pas toujours simples. Par exemple, WeChat utilise deux algorithmes différents pour filtrer les images. Le premier, un programme basé sur l'OCR, filtre les photos contenant du texte sur des sujets interdits, tandis que les autres censurent les images similaires à celles figurant sur une liste noire probablement créée par le gouvernement chinois. Grâce aux filtres de WeChat, vous pouvez facilement supprimer les caractéristiques d'une image, ainsi que la coloration ou l'orientation modifiée. La Rossetta de Facebook est complexe, mais probablement pas parfaite. Le système peut être contourné par un texte difficile à lire ou des polices déformées. Tous les algorithmes de reconnaissance d’images sont également potentiellement vulnérables à des exemples contradictoires, des images légèrement modifiées qui se ressemblent pour les humains mais qui perturbent l’IA.
Facebook et d'autres plateformes telles que Twitter, YouTube et Reddit subissent d'énormes pressions pour contrôler certains types de contenus dans plusieurs pays. En 2018, l’Union européenne a proposé de nouvelles lois qui obligeraient les sociétés de médias sociaux à supprimer les publications terroristes dans l’heure suivant la notification, sous peine d’amendes. Rosetta et d'autres outils automatisés similaires aident déjà Facebook et d'autres plateformes à se conformer à des lois similaires dans des pays comme l'Allemagne. Et ils s'améliorent dans leur travail : il y a deux ans, le PDG Mark Zuckerberg a déclaré que les systèmes d'IA de Facebook n'interceptaient de manière proactive qu'environ la moitié du contenu supprimé par l'entreprise. Les gens doivent d’abord noter le reste. Selon Facebook, ses outils d'IA détectent près de 100 % des spams qu'ils condamnent, ainsi que 99,5 % des contenus terroristes et 86 % des violences graphiques. D’autres plateformes telles que YouTube ont obtenu un succès similaire grâce aux systèmes automatisés de reconnaissance de contenu.
Cependant, cela ne signifie pas que les systèmes d’IA comme Rosetta constituent une solution parfaite, surtout lorsqu’il s’agit de formes d’expression plus nuancées. Contrairement à un menu de restaurant, il peut être difficile d’analyser la signification d’un mème sans connaître le contexte dans lequel il a été publié. C'est pourquoi il existe des sites Web entiers qui les expliquent. Les mèmes figurent souvent dans des blagues ou sont très spécifiques à une certaine sous-culture en ligne et à son contexte moral et éthique. Et une intelligence artificielle n’est toujours pas capable de comprendre un mème ou une vidéo comme le ferait une personne. Pour l’instant, Facebook devra toujours s’appuyer sur des modérateurs humains et leurs vérificateurs de faits pour prendre la décision de supprimer ou non un mème.
Article traduit du magazine Wired du 14.09.2018 septembre XNUMX

(Via Val Rion)





"Dravens Tales from the Crypt" enchante depuis plus de 15 ans avec un mélange insipide d'humour, de journalisme sérieux - pour l'actualité et de reportages déséquilibrés dans la politique de la presse - et de zombies, garni de beaucoup d'art, de divertissement et de punk rock. Draven a transformé son passe-temps en une marque populaire qui ne peut être classée.







