vendredi 2 mai 2008

Google veut améliorer la recherche d'images

Des chercheurs veulent appliquer le principe du « PageRank » à la recherche d'illustrations. Les résultats du moteur ne dépendraient plus des descriptions renseignées par leurs auteurs.

Lors de l'International World Wide Web Conference qui s'est déroulée du 21 au 25 avril 2008 à Pékin, deux chercheurs ont présenté un livre blanc sur ce que pourrait être le futur algorithme de recherche d'images de Google.

Leur projet consiste à appliquer le « PageRank » - recette maison de Google qui détermine le classement des résultats lors d'une requête d'un internaute - aux images. Aujourd'hui, la recherche d'illustrations est loin d'être pertinente. Elle s'appuie sur les tags (mots-clés), renseignés par les utilisateurs lorsqu'ils publient une photographie sur la Toile, ou encore sur le nom du fichier lui-même.

Exemple classique : une recherche sur « Paris » remonte, parmi des vues de la capitale française, une photo de Paris Hilton mangeant un hamburger. Tapez « Kermit » dans le moteur et il vous remonte, parmi des clichés de la marionnette du Muppet Show, une (fausse) radiographie. Entrez « Google » comme thème de la recherche d'images et vous obtiendrez, entre autres résultats, des photographies de femmes à forte poitrine...

Jusque-là les travaux menés en matière de reconnaissance d'images n'ont pas permis de faire en sorte d'identifier tous les objets comme le fait l'oeil humain. « Bien que certaines tâches comme trouver des visages ou des objets extrêmement texturés telles les couvertures de CD ont été réalisées avec succès, le problème de reconnaissance et de détection des images demeure complet », estiment Shumeet Baluja et Yushi Jing, les chercheurs de Google dans leur livre blanc PageRank for Product Image Search.

Aucune date de disponibilité

En outre, la multiplication du nombre d'illustrations postées sur Internet ainsi que l'alourdissement du poids de ces mêmes images augmentent le volume de données à analyser compliquant ainsi la tâche d'un moteur de recherche.

Les scientifiques ont convenu qu'il leur fallait définir un algorithme capable d'identifier les éléments communs entre plusieurs images, quelle que soit leur position dans l'image ou leur orientation. La meilleure façon d'y arriver est « de traiter les images comme des pages Web et leur similarité comme des liens hypertextes visuels probables (...) Ceci en considérant que les plus "visitées" devraient avoir un meilleur classement que les autres. »

Ainsi comme pour les pages Web, les images les plus cliquées ou celles vers lesquelles pointent le plus de liens hypertextes apparaîtront en tête de gondole.

Le géant américain a testé son algorithme sur les 1 000 requêtes d'images les plus populaires (iPod, Xbox, Zune...). Après avoir soumis ces résultats à 150 personnes, il s'avère qu'ils sont bien plus pertinents que ceux du moteur de recherche classique. Seul 0,47 % des dix premiers résultats sont sans rapport avec l'objet de la recherche, contre 2,82 % actuellement. Google n'a annoncé aucune date quant à la disponibilité de ce nouvel outil.

Texte : 01net.

Aucun commentaire: