Un ordinateur peut-il apprendre le bon sens?

Dans un passé pas trop lointain, suggérer qu'un ordinateur pouvait faire preuve de «bon sens» serait considéré comme un oxymore. Mais les supercalculateurs tels que Watson d’IBM peuvent présager de nouveaux rôles pour les ordinateurs.

Actuellement, les chercheurs de l'Université Carnegie Mellon exécutent un programme informatique 24 heures sur 24, 7 jours sur 7, dans le but de capturer des données et de s'enseigner le bon sens à grande échelle.

Le programme s'appelle NEIL (Never Ending Image Learner) car le logiciel recherche des images sur le Web, fait de son mieux pour les comprendre par lui-même et, au fur et à mesure qu'il construit une base de données visuelle croissante, rassemble le bon sens à grande échelle.

NEIL s'appuie sur les progrès récents de la vision par ordinateur qui permettent aux programmes informatiques d'identifier et d'étiqueter des objets dans les images, de caractériser des scènes et de reconnaître des attributs, tels que les couleurs, l'éclairage et les matériaux, le tout avec un minimum de supervision humaine.

À leur tour, les données qu'il génère amélioreront encore la capacité des ordinateurs à comprendre le monde visuel.

NEIL a des avancées significatives par rapport aux dispositifs robotiques antérieurs car il peut faire des associations entre les choses pour obtenir des informations de bon sens. Des informations que les gens connaissent presque intuitivement - que les voitures se trouvent souvent sur les routes, que les bâtiments ont tendance à être verticaux et que les canards ressemblent à des oies.

Sur la base de références textuelles, il peut sembler que la couleur associée aux moutons est noire, mais les gens - et maintenant NEIL - savent néanmoins que les moutons sont généralement blancs.

«Les images sont le meilleur moyen d’apprendre les propriétés visuelles», a déclaré Abhinav Gupta, Ph.D., professeur adjoint de recherche à l’Institut de robotique de Carnegie Mellon.

«Les images comprennent également de nombreuses informations de bon sens sur le monde. Les gens apprennent cela par eux-mêmes et, avec NEIL, nous espérons que les ordinateurs le feront également.

Un cluster informatique exécute le programme NEIL depuis fin juillet et a déjà analysé trois millions d'images, identifiant 1 500 types d'objets dans un demi-million d'images et 1 200 types de scènes dans des centaines de milliers d'images.

Il a connecté les points pour apprendre 2 500 associations à partir de milliers d'instances.

L’une des motivations du projet NEIL est de créer la plus grande base de connaissances structurées visuelles au monde, où les objets, scènes, actions, attributs et relations contextuelles sont étiquetés et catalogués.

«Ce que nous avons appris au cours des 5 à 10 dernières années de recherche sur la vision par ordinateur, c'est que plus vous avez de données, meilleure est la vision par ordinateur», a déclaré Gupta.

Certains projets, comme ImageNet et Visipedia, ont tenté de compiler ces données structurées avec une assistance humaine.

Mais l'échelle d'Internet est si vaste - Facebook détient à lui seul plus de 200 milliards d'images - que le seul espoir de tout analyser est d'apprendre aux ordinateurs à le faire en grande partie par eux-mêmes.

Les gens indiquent également à NEIL quelles catégories d'objets, de scènes, etc., rechercher et analyser. Mais parfois, ce que NEIL trouve peut surprendre même les chercheurs.

On peut prévoir, par exemple, qu'une recherche sur «pomme» pourrait renvoyer des images de fruits ainsi que des ordinateurs portables. Mais Gupta et son équipe, tous des propriétaires terriens, n'avaient aucune idée qu'une recherche de F-18 permettrait d'identifier non seulement des images d'un avion de combat, mais aussi des catamarans de classe F18.

Au fur et à mesure de sa recherche, NEIL développe des sous-catégories d'objets - les tricycles peuvent être pour les enfants, pour les adultes et peuvent être motorisés, ou les voitures sont disponibles dans une variété de marques et de modèles.

Et il commence à remarquer des associations - que les zèbres ont tendance à se trouver dans les savanes, par exemple, et que les parquets sont généralement bondés.

Avant que NEIL puisse devenir un nom familier, l'échelle devra être réduite car NEIL est intensif en calcul, le programme s'exécutant sur deux grappes d'ordinateurs comprenant 200 cœurs de traitement.

Source: Université Carnegie Mellon