Pour le savoir, Jean-Noël Anderruthy de GoogleXXL a fait une sélection de 10 questions qu’il est possible de poser à un moteur de recherche en langage naturel, et les a testées sur plusieurs moteurs : Google donc, mais aussi Powerset, Live Search, Hakia, Yahoo, Ask et TrueKnowledge.
Les questions :
Show me a map of France List some large cities in France When was einstein born? What movies has Alain Delon been in? Give me the GDP of China How many languages are spoken in Pakistan? Who was the eighth president of the United States? How many ethnic groups exist in cameroon? What is TCP/IP? How hot will it be in Paris tomorrow?
Résultat des courses : Google et Ask obtiennent la note de 10/10 et Powerset arrive en dernier avec juste la moyenne (5/10). Les autres moteurs se débrouillent plutôt bien : 8/10 ou 9/10.
Pour une description des moteurs de recherche et l’analyse, c’est ici.
Quelques questions :
Jérôme : Le billet est intéressant : étudier et comparer les réponses de différents moteurs à un ensemble de recherches exprimées en langage naturel (tout de même assez factuelles), pourquoi pas. La méthodologie un peu légère à mon goût : ne prendre que le premier résultat, reformuler les requêtes selon les moteurs, ne décider de la pertinence (facteur très subjectif) des réponses sans prendre ne serait-ce qu’un mini panel ne donne pas des résultats significatifs et exploitables. Il ne faut donc pas comme nous serions tenté de la faire prendre ce billet comme une étude détaillée, mais comme une expérimentation. Il y a déjà un petit moment, suite à ce billet de ReadWriteWeb que je voulais aborder le sujet des « recherches sémantiques » de Google. Ce sera donc aujourd’hui l’occasion d’en parler. ça semble magique. Vous recherchez « Quelle est la devise de la France » et Google vous retourne « France – Monnaie : Euro (EUR) ». Pas mal, non ? Amusez-vous donc avec des recherches du style « qui est le président de la france » ou encore « quelle est la superficie de la france ». Pour ceux qui ne connaissaient pas, vous êtes bluffés, non ? De là à parler de recherche en langage naturel, il ne faut tout de même pas aller trop vite. Essayez par exemple « quelle est la taille de la france », « qui est le chef d’état de la france » ou « j’aimerais connaitre la superficie de la france » et vous verrez que Google ne sait plus nous répondre (directement). D’autres vous dirons que Google devient un moteur de recherche sémantique. Soit, mais qu’est-ce que la sémantique et plus particulièrement l’analyse sémantique ? D’après la définition de Wikipedia, c’est une analyse qui établit la signification d’un message en utilisant le sens des éléments du texte. Pensez-vous sérieusement que Google face une telle analyse ? Non du tout. Voici comment se déroule très probablement ce processus à l’heure actuelle. Le moteur utilise une base de données structurée (comme dbpedia) ou pseudo-structurée (comme Wikipedia). Prenons l’exemple de Wikipedia. Allez sur la page France. Que remarquez-vous sur la droite ? Un tableau structuré de données factuelles sur la France (superficie, devise, etc). Google récupère donc ces données en conservant le triplet France/devise/euro. Ensuite lors d’une recherche, si Google retrouve le terme France associé au terme devise (ou superficie, etc) et que le reste des termes sont des termes vides ou peu discriminant alors il propose une réponse exacte issue de la base de données structurée. Nous pouvons au premier abord nous laisser tromper, mais non, Google n’est pas un moteur de recherche en langage naturel et ce n’est pas non plus un moteur de recherche sémantique. En revanche, ce genre de fonctionnalité est très intéressante et préfigure ce que seront les moteurs de demain : un accès encore plus précis et plus rapide à l’information recherchée.
Jérôme : Le billet est intéressant : étudier et comparer les réponses de différents moteurs à un ensemble de recherches exprimées en langage naturel (tout de même assez factuelles), pourquoi pas. La méthodologie un peu légère à mon goût : ne prendre que le premier résultat, reformuler les requêtes selon les moteurs, ne décider de la pertinence (facteur très subjectif) des réponses sans prendre ne serait-ce qu’un mini panel ne donne pas des résultats significatifs et exploitables. Il ne faut donc pas comme nous serions tenté de la faire prendre ce billet comme une étude détaillée, mais comme une expérimentation.
Il y a déjà un petit moment, suite à ce billet de ReadWriteWeb que je voulais aborder le sujet des « recherches sémantiques » de Google. Ce sera donc aujourd’hui l’occasion d’en parler. ça semble magique. Vous recherchez « Quelle est la devise de la France » et Google vous retourne « France – Monnaie : Euro (EUR) ». Pas mal, non ? Amusez-vous donc avec des recherches du style « qui est le président de la france » ou encore « quelle est la superficie de la france ». Pour ceux qui ne connaissaient pas, vous êtes bluffés, non ? De là à parler de recherche en langage naturel, il ne faut tout de même pas aller trop vite. Essayez par exemple « quelle est la taille de la france », « qui est le chef d’état de la france » ou « j’aimerais connaitre la superficie de la france » et vous verrez que Google ne sait plus nous répondre (directement).
D’autres vous dirons que Google devient un moteur de recherche sémantique. Soit, mais qu’est-ce que la sémantique et plus particulièrement l’analyse sémantique ? D’après la définition de Wikipedia, c’est une analyse qui établit la signification d’un message en utilisant le sens des éléments du texte. Pensez-vous sérieusement que Google face une telle analyse ? Non du tout. Voici comment se déroule très probablement ce processus à l’heure actuelle. Le moteur utilise une base de données structurée (comme dbpedia) ou pseudo-structurée (comme Wikipedia). Prenons l’exemple de Wikipedia. Allez sur la page France. Que remarquez-vous sur la droite ? Un tableau structuré de données factuelles sur la France (superficie, devise, etc). Google récupère donc ces données en conservant le triplet France/devise/euro. Ensuite lors d’une recherche, si Google retrouve le terme France associé au terme devise (ou superficie, etc) et que le reste des termes sont des termes vides ou peu discriminant alors il propose une réponse exacte issue de la base de données structurée.
Nous pouvons au premier abord nous laisser tromper, mais non, Google n’est pas un moteur de recherche en langage naturel et ce n’est pas non plus un moteur de recherche sémantique. En revanche, ce genre de fonctionnalité est très intéressante et préfigure ce que seront les moteurs de demain : un accès encore plus précis et plus rapide à l’information recherchée.
Tout ce qu’on n’a pas eu le temps de traiter en détail cette semaine…
Emilie :
Jérôme :
Jérôme : Comme dans tous les domaines, plus il y aura de concurrence, plus l’utilisateur en aura les bénéfices. La progression de Yahoo! et d’AOL sont donc de très bonnes nouvelles, d’autant plus que Yahoo! le mérite, il prend des risques, il innove et explore de nouveaux horizons.
Les tribulations de la semaine du monde fascinant des moteurs de recherche que nous n’avons pas eu le temps de couvrir en détail :
Emilie (c’est un peu people cette semaine) :
Emilie : Jérôme a parlé des principales infos de la semaine, qui méritaient d’être mentionnées. Mais voici aussi deux autres petites infos.
Deux nouvelles de taille aujourd’hui dans le monde des moteurs de recherche :
Wikia, le moteur de recherche lancé par Jimmly Wales (fondateur de Wikipedia) se Monkéise : à la manière de Yahoo! Search Monkey, Wikia propose WISE (Wikia Intelligent Search Extensions), une API permettant aux développeurs d’enrichir les résultats du moteur. Je crois que c’est une très bonne chose et en tout cas une bonne piste à explorer pour se démarquer des moteurs traditionnels. Mais avec ses quelques 50000 requêtes par jour, le chemin sera encore long pour Wikia (source : Techcrunch US).
Emilie : Des questions… Pourquoi Jimmy Wales parle t-il de « Facebook apps for search » pour désigner Wise ? Et sinon, quelles sont les motivations de ce lancement ? Attirer davantage l’attention sur Wikia ? Améliorer les résultats ? Pour Jimmy Whales, les capacités de Wikia Search seraient proches de celles de Google. Ah bon ?
Live Search intégré à Facebook. Un deal intéressant pour Microsoft, et plutôt une bonne nouvelle pour le monde des moteurs de recherche : plus la concurence sera serrée, plus la qualité des outils augmentera. Bien sûr, certains ronchonnent, car l’intégration de Live search n’est pas assez facebookienne, mais laissons le temps au temps, c’est un premier pas (source : Techcrunch FR).
Emilie : Oui, un deal très intéressant. Je suis d’accord avec ceux qui ronchonnent. Live Search + Facebook, ça ne me paraissait pas l’association idéale en terme d’image, de culture, etc.
Avec la recherche universelle, Google se portalise (la première future erreur de Google) et Olivier Andrieu s’interroge : après avoir été un générateur de traffic, Google ne va t’il pas devenir un avaleur de traffic ? (source : Abondance)
Emilie : un retour en arrière ?
Souvenez-vous, il l’avait annoncé et nous en parlions sur motrech en décembre 2005 dans un billet intitulé « La concurrence n’a pas encore commencé ». Il ? C’est Bill Gates qui donnait une excellente interview à Vnunet.be qui se terminait par ces mots : « Si je vous ai bien compris, les utilisateurs vont recevoir de l’argent pour se servir de moteurs de recherche ? » – Bill Gates: « Oui, c’est effectivement ce que je dis ».
Je ne sais pas si quelqu’un a pris les propos de Billou au sérieux à l’époque (j’en doute), mais deux ans plus tard, et après le rachat de Jellyfish il y a six mois, Microsoft Live Search rémunère les internautes effectuant des achats à partir de son moteur de recherche. Rien de bien révolutionnaire, juste de l’affiliation.
Je suis un peu déçu, je m’attendais à plus percutant, un peu comme lorsque Microsoft a voulu rattraper ses erreurs face à Mozilla en inondant le marché avec Internet Explorer. J’imaginais que Microsoft taperais vraiment un grand coup et tenterait de mettre une forte pression à Google en rémunérant les internautes directement sur les recherches (ce qui aurait également l’avantage d’obliger les internautes à être identifié pour effectuer des recherches). Mais rien de tout cela. Encore une approche très (trop!) timide : les résultats ne sont pas directement intégrés à Live Search mais accessible à partir d’une URL particulière : http://search.live.com/cashback/ qui finalement n’a pas grand chose à voir avec Live Search.
Emilie : Que penser de ce système de rémunération ? Ma foi, je suis comme toi Jérôme. J’ai un avis très mitigé. D’un côté, je me dis que les internautes vont y gagner (seulement un peu, mais un peu tout de même). Mais d’un autre côté, je ne vois rien de « transcendant » ! Pas de quoi se précipiter et je ne suis pas certaine que ça va attirer beaucoup plus de nouveaux visiteurs. iGraal propose des choses autrement plus intéressantes et l’internaute n’a pas besoin d’utiliser un moteur de recherche en particulier (en l’occurrence Microsoft Live Search). Dernière remarque : si Microsoft veut vraiment concurrencer Google, il va falloir innover davantage, être plus « révolutionnaire » et ne pas se contenter de s’aligner sur les pratiques et les usages existants, non ? Je me trompe peut-être mais c’est l’impression que j’ai aujourd’hui.