Vous rêvez de créer votre propre moteur de recherche? Outre les solutions proposées par Yahoo! et Google qui ne vous permettent pas de vraiment contrôler l’analyse des documents, vous pouvez tout faire vous-même, ou encore utiliser un moteur open source comme Nutch. Mais dans ces derniers cas se posera alors le problème des ressources matérielles. Il existe une solution intermédiaire : 80legs.
80legs est une solution bien pensée. A l’aide d’une interface simple, vous allez créer un job dans lequel vous spécifiez :
Vous lancez le job et vous avez ensuite accès aux documents crawlés et analysés. Bien sûr 80legs propose également une API permettant de gérer vos crawls mais aussi de récupérer les données crawlées. Le format des données récupérées est propriétaire et il faudra tout de même être développeur pour pouvoir les exploiter.
C’est là à mon avis où 80legs ne va pas assez loin : son API devrait également permettre d’indexer et d’interroger les crawls effectués.
Mais c’est déjà une approche intéressante que de pouvoir effectuer des crawls à un moindre coût :
Emilie : pour moi, 80legs présente 3 intérêts. Tout d’abord, il offre un nouveau moyen à l’internaute de créer son propre moteur de recherche. Plus on a de choix, mieux c’est. C’est ensuite un service complètement personnalisable ; le nombre d’options est assez important. Enfin, il est, d’après ses créateurs, facile à utiliser. Que peut-on demander de plus ? Et pour ceux qui veulent savoir quelles différences il existe entre Yahoo Boss et 80legs, c’est ici.
Découvert sur Outils Froids, Spezify est un moteur de recherche dans la lignée de Kosmix, dont l’objectif est d’offrir à l’utilisateur une vue synthétique des différentes ressources disponibles pour une recherche donnée.
J’ai été très impressionné par la présentation et la navigation dans les résultats de recherche : très en rupture avec ce que nous connaissons aujourd’hui. Un approche originale et efficace. Bien sûr, ce genre de moteur de heurte au problème des recherches hyper spécialisées pour lesquelles il n’est pas adapté. Mais pour des recherches plus généralistes et particulièrement sur des entités nommées, il se révèle plein de surprises. Il nous fait redécouvrir une facette du web que nous oublions souvent, la découverte.
Une des recherches les plus significatives lors de mes recherches fut celle à propos de « jean veronis » (sans accent, car pour le moment Spezify ne gère pas les requêtes accentuées). En un écran dont chaque type de ressource est illustré de manière distincte, je découvre que Jean s’intéresse aux technologies du langage, qu’il a publié divers papiers sur le « parallel text processing », qu’il s’intéresse à la politique, qu’il travaille sur les nuages de tags et les graphes, et finalement qu’il doit avoir un côté un peu épicurien. Pas mal non, car il me semble que ça colle assez bien à ce que nous connaissons de Jean.
Un moteur à découvrir pour redécouvrir le web sous un autre angle !
Emilie : merci Christophe pour la découverte et merci Jérôme pour cette analyse. J’aime beaucoup et en particulier la mise en scène des informations qui alterne photos, textes, vidéos… avec harmonie. Le choix des couleurs, les polices de caractères… tout me plaît. On a l’impression de se retrouver devant un mur sur lequel on a posé plein de post-it. Et la navigation au clavier ne fait que rendre encore plus agréable l’utilisation de ce moteur de recherche. Sinon, le petit truc qui me séduit, c’est la prise en compte de Twitter. C’est le premier moteur de recherche de ce type qui le fait il me semble. Ce qui m’intéresse aussi dans ce moteur, c’est qu’il pourrait bien remplacer des outils comme 123people.fr pour se faire une idée d’une personne.
Comment les enfants de 7 à 11 ans recherchent-ils de l’information sur Internet ? Des chercheurs du Human-Computer interaction Lab de l’université du Maryland, associés à Hilary Hutchinson du département « Expérience utilisateurs » de Google, ont réalisé une étude (remarquée là).
Ils se sont intéressés aux points suivants :
L’autre partie intéressante de l’étude, c’est qu’à partir de ces résultats des suggestions d’amélioration des interfaces de recherche sont suggérées
Jérôme : Je me suis délecté à la lecture de ce papier. Tout d’abord, parce que j’y ai retrouvé divers comportements de mes enfants face à un ordinateur et face à Internet. Mais également parce qu’il formalise certains lieux communs qui semblent des évidences, mais qu’il était nécessaire d’observer et de mesurer. Enfin, parce que cela fait déjà plusieurs années que je « bassine » certains de mes interlocuteurs avec l’idée de créer un moteur de recherche segmenté par âge. Cela m’a semblé évident lorsque mes enfants ne sachant pas encore lire ont commencé à utiliser un ordinateur, Internet et Google : les outils ne sont pas adaptés, puisqu’ils se basent sur une présentation uniquement textuelle, inaccessible aux enfants de moins de 7 ans. Nous pouvons alors assez facilement segmenter les moteurs de recherche suivant notre niveau d’accès à l’information à partir d’un ordinateur. A première vue, nous pourrions dégager les segments (avec quelques pistes basiques de spécificités à chaque segment) : non-lecteur : navigation/recherche exclusivement iconographique lecteur-débutant : navigation/recherche mêlant iconographie et texte simple ado : navigation/recherche textuelle instantanée (type keyboardr) adulte : navigation/recherche textuelle telle que nous la connaissons aujourd’hui avec Google senior : navigation/recherche offrant un contenu textuel plus riche que les autres versions, avec une présentation claire et reposante. Pour chacun de ces segments, il faut bien évidemment des sources différentes et des pondérations différentes de ces sources. Le but utlime serait alors de mettre en place un seul et même moteur de recherche évolutif qui s’adapterait à l’âge de ses utilisateurs, à son niveau d’accès à l’information.
Le but utlime serait alors de mettre en place un seul et même moteur de recherche évolutif qui s’adapterait à l’âge de ses utilisateurs, à son niveau d’accès à l’information.
J’ai participé la semaine dernière au SEO Campus. J’y parlais de e-réputation mais ce n’était pas le seul sujet, ni le sujet principal de cet événement. On y a bien sûr parlé de référencement, mais aussi de linguistique statistique, de droit de l’Internet… et de moteurs de recherche.
Vous trouverez ici une présentation de Philippe Yonnet, Directeur du Pôle Métier Agence Aposition Isobar, dans laquelle il décortique un moteur de recherche.
Vous pouvez aussi tout simplement cliquer sur l’image ci-dessous :
Jérôme : Back to basics. Une présentation, simple et claire qui permettra au néophyte de mieux comprendre ce qu’est un moteur de recherche et comment il fonctionne dans ses grandes lignes.
Jérôme : Nous avons plusieurs fois échangé nos points de vue sur la nécessité d’éduquer et de former l’internaute à l’utilisation de smoteurs de recherche (ici ou encore ici) . Cette vidéo, très simple (simpliste pour les experts) est vraiment très bien fait et très claire. Elle permet en quelques minutes de montrer de manière drôle et pertinente l’utilisation de quelques opérateurs de base des moteurs de recherche. Bravo à l’auteur de la vidéo. Merci à Emilie de l’avoir dénichée. Ne reste plus qu’à faire un doublage français de la vidéo (un volontaire? Jean-Marie, au hasard ?) et à la diffuser le plus largement possible.
Merci au site Actualitté qui nous propose une petite liste de moteurs de recherche d’ebooks gratuits. Mais je ne ferai ici qu’un focus sur PDF Search Engine.
Ce moteur de recherche, basé sur Google, offre la possibilité d’avoir accès aux fichiers .pdf circulant librement sur le Web. Ce qui est intéressant avec ce moteur de recherche c’est qu’on n’a pas besoin de passer par un site intermédiaire pour accéder aux documents. On y accède directement.
Le site est simple, sobre et disponible en plusieurs langues.
Jérôme : Encore une belle trouvaille d’Emilie les bons tuyaux! ;) J’aime également ce genre de service qui se donne une mission bien définie et la remplit simplement mais efficacement. J’aurais tout de même quelques critiques et interrogations sur ce service.. sinon, je servirais à quoi sur ce blog ? Tout d’abord au niveau de la disponibilité du service en plusieurs langues : C’est une escroquerie! Uniquement la home est internationalisée. Toutes les autres pages sont en anglais, même lorsque vous sélectionnez une langue spécifique. Dommage, car ça n’est pas très compliqué à faire, et ça fait beaucoup plus sérieux. De plus, le choix d’une langue devrait/pourrait permettre de restreindre ses recherches en fonction de cette langue, mais ce n’est pas le cas, c’est bien dommage également! Un très bon point en revanche : la possibilité de naviguer par mots-clés dans l’ensemble des PDFs : http://www.pdf-search-engine.com/book/ (attention le filtre SafeSearch n’est pas activé). Pour un service qui se positionne comme un moteur de recherche d’ebooks, il est dommage de ne pas afficher la taille des documents. En effet, je vais avoir tendance à télécharger des ebooks lorsque je suis en situation de mobilité, donc en général avec un débit limité, donc j’aimerais bien savoir dans quoi je me lance avant de télécharger un PDF de 2000 pages sur mon mobile! Enfin, et ce sera ma plus grosse critique… Qu’apporte réellement PDF Search Engine par rapport à une recherche avancée Google ? Quelques exemples : Roméo et Juliette sur PDF Search Engine et Roméo et Juliette sur Google, Natural Language Processing sur PDF Search Engine et Natural Language Processing sur Google. Plus j’utilise et plus je teste PDF Search Engine et moins j’y vois un quelconque intérêt (surtout à l’heure où Google commence à scanner les documents papier). Pire, comme ils le soulignent dans la rubrique SEO, j’ai l’impression que PDF Search Engine est avant tout une expérimentation réussie de référencement. Et vous, qu’en pensez-vous ?
Jérôme : Encore une belle trouvaille d’Emilie les bons tuyaux! ;) J’aime également ce genre de service qui se donne une mission bien définie et la remplit simplement mais efficacement. J’aurais tout de même quelques critiques et interrogations sur ce service.. sinon, je servirais à quoi sur ce blog ?
Tout d’abord au niveau de la disponibilité du service en plusieurs langues : C’est une escroquerie! Uniquement la home est internationalisée. Toutes les autres pages sont en anglais, même lorsque vous sélectionnez une langue spécifique. Dommage, car ça n’est pas très compliqué à faire, et ça fait beaucoup plus sérieux. De plus, le choix d’une langue devrait/pourrait permettre de restreindre ses recherches en fonction de cette langue, mais ce n’est pas le cas, c’est bien dommage également!
Un très bon point en revanche : la possibilité de naviguer par mots-clés dans l’ensemble des PDFs : http://www.pdf-search-engine.com/book/ (attention le filtre SafeSearch n’est pas activé).
Pour un service qui se positionne comme un moteur de recherche d’ebooks, il est dommage de ne pas afficher la taille des documents. En effet, je vais avoir tendance à télécharger des ebooks lorsque je suis en situation de mobilité, donc en général avec un débit limité, donc j’aimerais bien savoir dans quoi je me lance avant de télécharger un PDF de 2000 pages sur mon mobile!
Enfin, et ce sera ma plus grosse critique… Qu’apporte réellement PDF Search Engine par rapport à une recherche avancée Google ? Quelques exemples : Roméo et Juliette sur PDF Search Engine et Roméo et Juliette sur Google, Natural Language Processing sur PDF Search Engine et Natural Language Processing sur Google. Plus j’utilise et plus je teste PDF Search Engine et moins j’y vois un quelconque intérêt (surtout à l’heure où Google commence à scanner les documents papier). Pire, comme ils le soulignent dans la rubrique SEO, j’ai l’impression que PDF Search Engine est avant tout une expérimentation réussie de référencement.
Et vous, qu’en pensez-vous ?
Petit récapitulatif sur notre série de billets à propos de la vision de Google sur le futur de la recherche :
Que pouvons-nous en penser maintenant que nous avons une vision plus globale ? Ce qui me frappe ? Tout d’abord qu’il reste effectivement beaucoup de chemin à parcourir. Mais également que plus le temps passe et plus les nouveaux venus auront des difficultés à s’imposer :
Les modes de recherche
La présentation des résultats
La personnalisation
Emilie : une remarque très pertinente. On en dit des choses sur Google, il génère débats et inquiétudes (voir le cas de GoogleHealth, le système de collecte des données personnelles, la durée de conservation des données personnelles malgré des efforts, etc.) quand il s’agit de la sécurité des données personnelles mais finalement, nous n’avons jamais eu d’échos d’abus ou de non-respect de la vie privée.
La recherche interlingue
Il ne sera donc pas facile de s’imposer et de lancer de nouveaux moteurs pouvant concurrencer Google, Yahoo ou Microsoft. L’histoire récente nous le prouve, aussi bien avec Cuil qu’avec Accoona. Nous n’avons évoqué ici que la vision à long terme de Google, il y a certainement d’autres pistes à creuser et même certainement certaines qui pourraient rompre avec les solutions actuelles et parvenir à s’imposer.
Vous avez des pistes, des idées ? N’hésitez pas à nous en faire part en commentaire.
Emilie : je note qu’il n’est pas du fait allusion dans The Future of Search de Google à la recherche sociale. A l’heure où on ne cesse de nous parler de Web 2.0, je m’interroge !
A la fin des années 90, les stars étaient Altavista, Lycos, Webcrawler, etc. Le blog AxeNet propose un petit visionage des pages d’accueil… La première est en-dessous et les autres ici.
Jérôme : Pfou… Toute ma jeunesse et mes années de thèse à la Direction de L’information Scientifique et Technique du CEA. Je suis content de constater que grâce à la Wayback Machine on peut encore consulter mon dossier qui avait pour titre « Les principaux problèmes de la recherche d’information sur Internet ». Les moteurs étudiés à l’époque sont AliWeb, AltaVista, EuroFerret, Excite, Galaxy, Harvest, HotBot, etc … pas de trace de Google! Je verse une larme de nostalgie à ces tendres années…
Google nous propose sur son blog officiel un très bon billet de Amit Singhal intitulé « Technologies behind Google ranking ».
Ce billet expose de manière claire et simple et illustrée, les principales problématiques de la recherche d’information sur internet. On y retrouve trois axes majeurs :
Une bonne lecture pour s’initier à la recherche d’information sur internet et aux moteurs de recherche.
Emilie : je trouve toujours bien que les éditeurs de solutions, quelles qu’elles soient, fassent un effort de vulgarisation pour mettre à la portée de tous des concepts, des processus… qui ne sont pas faciles d’accès. Bravo Google !
De quel podium s’agit-il ? De celui des usages d’Internet. La recherche d’information arrive juste derrière l’e-mail ! Ce résultat ressort de l’enquête de Gartner, réalisée à la fin de l’année 2007 dans 18 pays sur un échantillon de 4 779 internautes.
Jérôme : Ce qui ne fait que renforcer mon rêve d’un Search Engine Consortium…