Mashable propose des face à face, qui prennent la forme de sondages. Se sont déjà vus affronter Mozilla Firefox et Google Chrome ou encore Tumblr et Posterous. Cette semaine, combat des titans entre Google et Bing. Là, comme ça, je me dis que c’est gagné d’avance pour Google. J’ai voté et les résultats, ce matin, étaient les suivants :
Bing a encore une chance de l’emporter ?
Jérôme : Oui, Bing a encore une chance de l’emporter. Nous n’en avons malheureusement qu’une vision encore partielle en Europe où le moteur Bing est fortement dégradé par rapport à la version U.S. Bing est vraiment un bon moteur avec derrière de grandes compétences et une entreprise solide. Le plus compliqué sera certainement de nous faire perdre notre GoogleReflex…
Dans une présentation réalisée par Google et intitulée « Google, Competition and Openness », (que nous pourrions traduire par « Google, Compétition et Ouverture »), la société de Mountain View tente de nous convaincre (enfin surtout la justice) que Google n’est pas un monopole, que la société a de nombreux concurrents sur tous les domaines auxquels elle touche, et qu’elle est la seule à avoir un tel esprit d’ouverture (première présentation ci-dessous).
En parallèle, une organisation du nom de Consumer Watchdog fournit le même document avec de nombreuses annotations prenant à défaut, avec parfois beaucoup de mauvaise fois, les arguments de Google (deuxième présentation ci-dessous).
On imagine bien sûr, que la vérité n’est ni dans la 1ère de ces présentations, ni dans la seconde ; mais ces deux points de vue contradictoires permettent de se faire une meilleure idée de la position de Google sur le marché d’Internet.
La présentation originale :
La présentation commentée :
Alors ? Google, monopole ou pas monopole ?
Emilie : merci pour cette belle trouvaille ! On peut reconnaître à Google qu’ils savent rester modestes, mais à trop vouloir bien faire… :) Non, en fait, c’est un discours avantageux bien sûr. Ils en font trop je trouve. Inversement, l’auteur de la présentation annotéé a vraiment une dent contre Google, connaît bien la société et s’est bien renseigné. Il a pris le temps de trouver les bonnes citations, les bons chiffres… Mais j’ai sincèrement l’impression d’être en face d’une thèse et d’une anti-thèse. Par contre, pas de synthèse. Alors ? Google, monopole ou pas monopole. Pour certains, ce sera clair. Pour moi, j’avoue que ça ne l’est pas même si j’ai tendance à penser que Google a le monopole.
Petite anecdote de la vie courante à propos de Bing et de Google.
Hier, Leeloo, ma fille de 9 ans voulais rechercher des informations et plus particulièrement des vidéos sur la pêche à la baleine.
Elle lance son navigateur (Internet Explorer car son Firefox n’est pas très stable depuis quelques temps), et lance sa recherche.
Elle se retrouve sur Bing.
Leeloo : « Papa, où est-ce que je peux avoir des vidéos ? »
Moi : « Bah tu cliques sur Vidéos en haut à gauche… » (pensant qu’elle était sur Google)
- Silence -
Leeloo : « Ah oui, c’est bon j’ai trouvé »
Leeloo : « Mais je trouve rien de bien… »
Je me déplace, constate qu’elle est sur Bing. Je vais sur Google et dès l’affichage de la homepage de Google …
Leeloo : « Ah ouais, Google, c’est mieux, je connais, c’est bon, je vais chercher. Merci papa »
Bing Is Not Google et la route sera encore longue pour Microsoft.
Emilie : très amusante, intéressante et instructive anecdote. On constate deux choses en la lisant : la première, c’est que nous sommes habitués à utiliser Google, les adultes et les enfants aussi semble t-il ; la seconde, c’est que ce n’est pas avec des expériences « négatives » comme celle-ci qu’on aura envie de passer à Bing. :)
Pour le savoir, Jean-Noël Anderruthy de GoogleXXL a fait une sélection de 10 questions qu’il est possible de poser à un moteur de recherche en langage naturel, et les a testées sur plusieurs moteurs : Google donc, mais aussi Powerset, Live Search, Hakia, Yahoo, Ask et TrueKnowledge.
Les questions :
Show me a map of France List some large cities in France When was einstein born? What movies has Alain Delon been in? Give me the GDP of China How many languages are spoken in Pakistan? Who was the eighth president of the United States? How many ethnic groups exist in cameroon? What is TCP/IP? How hot will it be in Paris tomorrow?
Résultat des courses : Google et Ask obtiennent la note de 10/10 et Powerset arrive en dernier avec juste la moyenne (5/10). Les autres moteurs se débrouillent plutôt bien : 8/10 ou 9/10.
Pour une description des moteurs de recherche et l’analyse, c’est ici.
Quelques questions :
Jérôme : Le billet est intéressant : étudier et comparer les réponses de différents moteurs à un ensemble de recherches exprimées en langage naturel (tout de même assez factuelles), pourquoi pas. La méthodologie un peu légère à mon goût : ne prendre que le premier résultat, reformuler les requêtes selon les moteurs, ne décider de la pertinence (facteur très subjectif) des réponses sans prendre ne serait-ce qu’un mini panel ne donne pas des résultats significatifs et exploitables. Il ne faut donc pas comme nous serions tenté de la faire prendre ce billet comme une étude détaillée, mais comme une expérimentation. Il y a déjà un petit moment, suite à ce billet de ReadWriteWeb que je voulais aborder le sujet des « recherches sémantiques » de Google. Ce sera donc aujourd’hui l’occasion d’en parler. ça semble magique. Vous recherchez « Quelle est la devise de la France » et Google vous retourne « France – Monnaie : Euro (EUR) ». Pas mal, non ? Amusez-vous donc avec des recherches du style « qui est le président de la france » ou encore « quelle est la superficie de la france ». Pour ceux qui ne connaissaient pas, vous êtes bluffés, non ? De là à parler de recherche en langage naturel, il ne faut tout de même pas aller trop vite. Essayez par exemple « quelle est la taille de la france », « qui est le chef d’état de la france » ou « j’aimerais connaitre la superficie de la france » et vous verrez que Google ne sait plus nous répondre (directement). D’autres vous dirons que Google devient un moteur de recherche sémantique. Soit, mais qu’est-ce que la sémantique et plus particulièrement l’analyse sémantique ? D’après la définition de Wikipedia, c’est une analyse qui établit la signification d’un message en utilisant le sens des éléments du texte. Pensez-vous sérieusement que Google face une telle analyse ? Non du tout. Voici comment se déroule très probablement ce processus à l’heure actuelle. Le moteur utilise une base de données structurée (comme dbpedia) ou pseudo-structurée (comme Wikipedia). Prenons l’exemple de Wikipedia. Allez sur la page France. Que remarquez-vous sur la droite ? Un tableau structuré de données factuelles sur la France (superficie, devise, etc). Google récupère donc ces données en conservant le triplet France/devise/euro. Ensuite lors d’une recherche, si Google retrouve le terme France associé au terme devise (ou superficie, etc) et que le reste des termes sont des termes vides ou peu discriminant alors il propose une réponse exacte issue de la base de données structurée. Nous pouvons au premier abord nous laisser tromper, mais non, Google n’est pas un moteur de recherche en langage naturel et ce n’est pas non plus un moteur de recherche sémantique. En revanche, ce genre de fonctionnalité est très intéressante et préfigure ce que seront les moteurs de demain : un accès encore plus précis et plus rapide à l’information recherchée.
Jérôme : Le billet est intéressant : étudier et comparer les réponses de différents moteurs à un ensemble de recherches exprimées en langage naturel (tout de même assez factuelles), pourquoi pas. La méthodologie un peu légère à mon goût : ne prendre que le premier résultat, reformuler les requêtes selon les moteurs, ne décider de la pertinence (facteur très subjectif) des réponses sans prendre ne serait-ce qu’un mini panel ne donne pas des résultats significatifs et exploitables. Il ne faut donc pas comme nous serions tenté de la faire prendre ce billet comme une étude détaillée, mais comme une expérimentation.
Il y a déjà un petit moment, suite à ce billet de ReadWriteWeb que je voulais aborder le sujet des « recherches sémantiques » de Google. Ce sera donc aujourd’hui l’occasion d’en parler. ça semble magique. Vous recherchez « Quelle est la devise de la France » et Google vous retourne « France – Monnaie : Euro (EUR) ». Pas mal, non ? Amusez-vous donc avec des recherches du style « qui est le président de la france » ou encore « quelle est la superficie de la france ». Pour ceux qui ne connaissaient pas, vous êtes bluffés, non ? De là à parler de recherche en langage naturel, il ne faut tout de même pas aller trop vite. Essayez par exemple « quelle est la taille de la france », « qui est le chef d’état de la france » ou « j’aimerais connaitre la superficie de la france » et vous verrez que Google ne sait plus nous répondre (directement).
D’autres vous dirons que Google devient un moteur de recherche sémantique. Soit, mais qu’est-ce que la sémantique et plus particulièrement l’analyse sémantique ? D’après la définition de Wikipedia, c’est une analyse qui établit la signification d’un message en utilisant le sens des éléments du texte. Pensez-vous sérieusement que Google face une telle analyse ? Non du tout. Voici comment se déroule très probablement ce processus à l’heure actuelle. Le moteur utilise une base de données structurée (comme dbpedia) ou pseudo-structurée (comme Wikipedia). Prenons l’exemple de Wikipedia. Allez sur la page France. Que remarquez-vous sur la droite ? Un tableau structuré de données factuelles sur la France (superficie, devise, etc). Google récupère donc ces données en conservant le triplet France/devise/euro. Ensuite lors d’une recherche, si Google retrouve le terme France associé au terme devise (ou superficie, etc) et que le reste des termes sont des termes vides ou peu discriminant alors il propose une réponse exacte issue de la base de données structurée.
Nous pouvons au premier abord nous laisser tromper, mais non, Google n’est pas un moteur de recherche en langage naturel et ce n’est pas non plus un moteur de recherche sémantique. En revanche, ce genre de fonctionnalité est très intéressante et préfigure ce que seront les moteurs de demain : un accès encore plus précis et plus rapide à l’information recherchée.
Comment les enfants de 7 à 11 ans recherchent-ils de l’information sur Internet ? Des chercheurs du Human-Computer interaction Lab de l’université du Maryland, associés à Hilary Hutchinson du département « Expérience utilisateurs » de Google, ont réalisé une étude (remarquée là).
Ils se sont intéressés aux points suivants :
L’autre partie intéressante de l’étude, c’est qu’à partir de ces résultats des suggestions d’amélioration des interfaces de recherche sont suggérées
Jérôme : Je me suis délecté à la lecture de ce papier. Tout d’abord, parce que j’y ai retrouvé divers comportements de mes enfants face à un ordinateur et face à Internet. Mais également parce qu’il formalise certains lieux communs qui semblent des évidences, mais qu’il était nécessaire d’observer et de mesurer. Enfin, parce que cela fait déjà plusieurs années que je « bassine » certains de mes interlocuteurs avec l’idée de créer un moteur de recherche segmenté par âge. Cela m’a semblé évident lorsque mes enfants ne sachant pas encore lire ont commencé à utiliser un ordinateur, Internet et Google : les outils ne sont pas adaptés, puisqu’ils se basent sur une présentation uniquement textuelle, inaccessible aux enfants de moins de 7 ans. Nous pouvons alors assez facilement segmenter les moteurs de recherche suivant notre niveau d’accès à l’information à partir d’un ordinateur. A première vue, nous pourrions dégager les segments (avec quelques pistes basiques de spécificités à chaque segment) : non-lecteur : navigation/recherche exclusivement iconographique lecteur-débutant : navigation/recherche mêlant iconographie et texte simple ado : navigation/recherche textuelle instantanée (type keyboardr) adulte : navigation/recherche textuelle telle que nous la connaissons aujourd’hui avec Google senior : navigation/recherche offrant un contenu textuel plus riche que les autres versions, avec une présentation claire et reposante. Pour chacun de ces segments, il faut bien évidemment des sources différentes et des pondérations différentes de ces sources. Le but utlime serait alors de mettre en place un seul et même moteur de recherche évolutif qui s’adapterait à l’âge de ses utilisateurs, à son niveau d’accès à l’information.
Le but utlime serait alors de mettre en place un seul et même moteur de recherche évolutif qui s’adapterait à l’âge de ses utilisateurs, à son niveau d’accès à l’information.
J’aimerais rebondir sur l’article du blog Les Infostratèges, qui a souligné plusieurs fois le manque de formation des internautes, des plus jeunes aux moins jeunes, et quel que soit leur profil, concernant la recherche d’informations sur Internet :
« les richesses et la puissance des outils de l’Internet restent fermées au plus grand nombre, faute d’une bonne formation, sans parler des préventions naturelles de beaucoup contre l’outil informatique, vécu comme magique ou barbare… »
Cet article est lui-même une réaction à l’article de François Jeanne-Beylot : « Google n’est plus un moteur de recherche » mais un navigateur. L’auteur se réfère au fait que l’on tape de plus en plus les noms d’un service (par exemple YouTube ou Facebook) dans le champ requête de Google pour retrouver l’URL, au lieu de saisir directement celui-ci dans la barre d’adresse.
On parle souvent de fracture numérique quand il s’agit de l’accès au haut débit ou à un ordinateur dans sa vie quotidienne. Il semble que cette facture numérique concerne également des « secteurs » plus spécifiques comme la recherche d’informations. On n’y pense pas, nous, les geeks, les pro d’Internet qui passons une grande partie de notre journée à surfer sur le Web. Mais il y a un réel besoin de former les utilisateurs. S’il n’est pas foncièrement utile de connaître le fonctionnement d’un moteur de recherche, il est important :
Ceci dit, je pense qu’il ne s’agit pas seulement d’un besoin de formation. Il y a aussi une évolution des usages. Personnellement, il m’arrive de taper le nom d’un service dans Google pour trouver l’URL (qui est en général en tête des résultats). J’ai l’impression que c’est plus rapide. Il m’arrive aussi de taper directement le nom du site recherché dans la barre d’adresse. Faut-il s’inquiéter ? Est-ce grave docteur ?
Jérôme : Je n’aime pas trop qu’on mette un peu tout et n’importe quoi dans le terme fracture numérique. La facture numérique, c’est ne pas avoir accès au haut-débit, ne pas avoir accès à une ligne dégroupée (c’est mon cas par exemple), c’est ne pas avoir les moyens de s’offrir un ordinateur. Les usages d’Internet sont à mon sens une autre chose. Utiliser un moteur de recherche, comme je l’ai déjà dit, est une commodité. Et si l’utilisateur passe par Google pour aller sur le site de la SNCF (quand celui-ci n’est pas en grève) c’est que les outils ne sont pas adaptés. L’utilisateur va naturellement vers le chemin le plus court, le plus pratique pour lui, le plus simple. Nulle question de formation ici, mais simplement d’adapter les outils aux usages de l’Internanute et non le contraire. Pourquoi par exemple Firefox redirige vers Google lorsqu’on tape SNCF dans la barre d’adresse ? Pourquoi ne pas directement linker sur le site de la SNCF ou bien utiliser la recherche Google « J’ai de la chance » ? Pour des raisons d’accords entre Firefox et Google ? (Google perd beaucoup d’argent lorsque les internautes cliquent sur « J’ai de la chance », car c’est une recherche qui ne lui rapporte rien). Il serait aujourd’hui facilement possible, de créer une liste des principales recherches navigationnelles et que le navigateur ou le moteur redirigent automatiquement vers le site en question. Deuxième point que nous avons déjà abordé ici : L’utilisateur doit-il savoir comment fonctionne un moteur de recherche, doit-il savoir comment l’utiliser, et quelles types de sources il contient ? Encore une fois, je ne suis pas d’accord. Un documentaliste ou un professionnel de la recherche se doit de connaître ça, mais pas un Internaute. Pourquoi exiger une telle implication de l’Internaute dans la connaissance interne des moteurs de recherche alors qu’on ne demande pas le même niveau d’implication lors de l’utilisation d’un téléviseur, d’un lecteur de DVD ou d’une console de jeux? Les moteurs de recherche s’ils sont mal utilisés, c’est qu’ils ne sont alors pas adapté à l’usage des Internautes, non ?
Jérôme : Je n’aime pas trop qu’on mette un peu tout et n’importe quoi dans le terme fracture numérique. La facture numérique, c’est ne pas avoir accès au haut-débit, ne pas avoir accès à une ligne dégroupée (c’est mon cas par exemple), c’est ne pas avoir les moyens de s’offrir un ordinateur.
Les usages d’Internet sont à mon sens une autre chose. Utiliser un moteur de recherche, comme je l’ai déjà dit, est une commodité. Et si l’utilisateur passe par Google pour aller sur le site de la SNCF (quand celui-ci n’est pas en grève) c’est que les outils ne sont pas adaptés. L’utilisateur va naturellement vers le chemin le plus court, le plus pratique pour lui, le plus simple. Nulle question de formation ici, mais simplement d’adapter les outils aux usages de l’Internanute et non le contraire. Pourquoi par exemple Firefox redirige vers Google lorsqu’on tape SNCF dans la barre d’adresse ? Pourquoi ne pas directement linker sur le site de la SNCF ou bien utiliser la recherche Google « J’ai de la chance » ? Pour des raisons d’accords entre Firefox et Google ? (Google perd beaucoup d’argent lorsque les internautes cliquent sur « J’ai de la chance », car c’est une recherche qui ne lui rapporte rien). Il serait aujourd’hui facilement possible, de créer une liste des principales recherches navigationnelles et que le navigateur ou le moteur redirigent automatiquement vers le site en question.
Deuxième point que nous avons déjà abordé ici : L’utilisateur doit-il savoir comment fonctionne un moteur de recherche, doit-il savoir comment l’utiliser, et quelles types de sources il contient ? Encore une fois, je ne suis pas d’accord. Un documentaliste ou un professionnel de la recherche se doit de connaître ça, mais pas un Internaute. Pourquoi exiger une telle implication de l’Internaute dans la connaissance interne des moteurs de recherche alors qu’on ne demande pas le même niveau d’implication lors de l’utilisation d’un téléviseur, d’un lecteur de DVD ou d’une console de jeux? Les moteurs de recherche s’ils sont mal utilisés, c’est qu’ils ne sont alors pas adapté à l’usage des Internautes, non ?
« Selon une étude de la société anglaise FastHosts, un quart des participants ne savent pas que les sites web peuvent influencer leur positionnement dans les moteurs de recherche. C’est ce que nous appelons le SEO. » (Digimedia)
Question : est-ce important de le savoir ou pas pour les utilisateurs finaux que nous sommes ?
Qu’en pensez-vous ?
Jérôme : Pour ma part, je pense qu’il n’est pas important pour l’utilisateur de savoir comment fonctionne un moteur de recherche. Dans l’idéal, ce doit être une simple commodité, comme peut l’être une voiture (qui sait encore comment fonctionne un voiture ? Même les garagistes ont du mal aujourd’hui) : on utilise des moteurs de recherche, ils nous apportent un service, et ça s’arrête là. Bien sûr qu’un utilisateur sera plus performant s’il connaît le fonctionnement des moteurs de recherche, tout comme un pilote automobile sera plus performant s’il connaît parfaitement le fonctionnement de son engin.
Petit récapitulatif sur notre série de billets à propos de la vision de Google sur le futur de la recherche :
Que pouvons-nous en penser maintenant que nous avons une vision plus globale ? Ce qui me frappe ? Tout d’abord qu’il reste effectivement beaucoup de chemin à parcourir. Mais également que plus le temps passe et plus les nouveaux venus auront des difficultés à s’imposer :
Les modes de recherche
La présentation des résultats
La personnalisation
Emilie : une remarque très pertinente. On en dit des choses sur Google, il génère débats et inquiétudes (voir le cas de GoogleHealth, le système de collecte des données personnelles, la durée de conservation des données personnelles malgré des efforts, etc.) quand il s’agit de la sécurité des données personnelles mais finalement, nous n’avons jamais eu d’échos d’abus ou de non-respect de la vie privée.
La recherche interlingue
Il ne sera donc pas facile de s’imposer et de lancer de nouveaux moteurs pouvant concurrencer Google, Yahoo ou Microsoft. L’histoire récente nous le prouve, aussi bien avec Cuil qu’avec Accoona. Nous n’avons évoqué ici que la vision à long terme de Google, il y a certainement d’autres pistes à creuser et même certainement certaines qui pourraient rompre avec les solutions actuelles et parvenir à s’imposer.
Vous avez des pistes, des idées ? N’hésitez pas à nous en faire part en commentaire.
Emilie : je note qu’il n’est pas du fait allusion dans The Future of Search de Google à la recherche sociale. A l’heure où on ne cesse de nous parler de Web 2.0, je m’interroge !
Je me rappelle avoir effleuré ce thème de recherche au contact d’une amie également thésarde dont je partageais le bureau et dont Jean était le co-directeur de thèse (Jean connait donc bien le sujet et pourra commenter/compléter ce billet à loisir).
Qu’est-ce que la recherche interlingue (cross lingual information retrieval, CLIR pour les intimes) ? La recherche interlingue est la possibilité de s’affranchir des barrières linguistiques. Elle consiste, à partir d’une requête dans une langue donnée à proposer des résultats pertinents dans la même langue mais aussi dans d’autres langues. Ainsi, si vous effectuez une recherche en français, le moteur est capable de retrouver aussi bien des documents français, anglais, ou espagnols répondant à la recherche.
Mais comment ça marche ? « Tout simplement » en reformulant la question vers les différentes langues cibles et en interrogeant le moteur avec ces différentes versions de la même question (par reformulation de la question, aujourd’hui les moteurs font une « simple » traduction).
Emilie : je vois très peu de choses à ajouter en fait. Tout est dit. Je laisse la parole à Jean. Juste une question, peut-être : pour que ça marche (mieux) : il faudrait faire plus qu’une traduction ?
Comme pour la mobilité, la personnalisation et le profiling étaient déjà annoncés un peu avant 2000. Et depuis, pas de grandes nouveautés. Mais la situation globale a évoluée et elle devient beaucoup plus propice.
Le premier axe de la personalisation sera la localisation. Elle devrait permettre (dans certains cas) de proposer des réponses plus pertinentes en fonction de l’endroit où se trouve l’utilisateur. Un exemple simple consisterait par exemple à afficher en résultat supplémentaire (grâce à la recherche universelle ?) le concessionnaire Jaguar le plus proche de votre localisation actuelle lors d’une recherche sur le terme jaguar. C’est l’exemple le plus simple que nous puissions imaginer de recherche enrichie grâce à la localisation. Mais nous pouvons en imaginer bien d’autres et de bien plus complexes (grâce notamment aux enrichissements déjà proposés sur Google Maps ou Google Earth).
Emilie : comme par exemple le fait de se faire suggérer une liste de restaurants ou de lieux touristiques en fonction de l’endroit où on se trouve ?
Le deuxième axe concernera l’utilisation du graphe social de l’utilisateur. Et sur ce point, la situation a fortement évolué depuis quelques temps. Avec Facebook, LinkedIn, Twitter, ou encore OpenSocial API il devient relativement facile de reconstruire le réseau social d’un individu. A partir de ce réseau, on peut imaginer de multiples utilisations pour améliorer la pertinence des recherches. La première pourrait consister à utiliser l’historique des recherches de vos amis (et même de leur navigation avec Chrome) pour affiner vos résultats.
Emilie : un historique constitué de manière collaborative et reposant sur une micro-communauté… intéressant tout ça. Encore faut-il que la communauté soit suffisamment active et aussi centrée sur des centres d’intérêt identiques.
Comme toujours dans ce domaine sensible de la personnalisation (et du profiling, car pas de personnalisation sans profiling préalable), le frein essentiel sera le respect de la vie privée des individus. Ce qui ne sera pas un obstacle majeur pour Google, tant il sait parfaitement bien comment, petit à petit, délicatement, insinueusement, se glisser dans notre vie et suivre notre vie numérique (pour rebondir sur un récent billet d’Olivier Ertzscheid qui retraçait les 10 moments clés de l’histoire de Google, pour ma part, je n’en conserverais qu’un : le lancement de Gmail. En effet, c’est à partir de ce moment précis que le compte Google est né, et qu’il s’est petit à petit étendu aux autres services, afin de pouvoir centraliser notre vie numérique).