»
S
I
D
E
B
A
R
«
Crawlez le web avec 80legs
oct 1st, 2009 by jerome

Vous rêvez de créer votre propre moteur de recherche? Outre les solutions proposées par Yahoo! et Google qui ne vous permettent pas de vraiment contrôler l’analyse des documents, vous pouvez tout faire vous-même, ou encore utiliser un moteur open source comme Nutch. Mais dans ces derniers cas se posera alors le problème des ressources matérielles. Il existe une solution intermédiaire : 80legs.

80legs

80legs est une solution bien pensée. A l’aide d’une interface simple, vous allez créer un job dans lequel vous spécifiez :

  • la fréquence de crawl
  • la liste des URLs de départ du crawl
  • un filtre sur les liens à suivre
  • la profondeur d’exploration
  • la stratégie de crawl
  • le nombre maximum d’URLs à crawler
  • le type des documents à crawler
  • l’analyse des documents à effectuer (filtrage par mot clé, par expression régulière ou même en utilisant votre propre code)
  • un filtre sur les documents à analyser
  • les type des documents à analyser
  • la taille maximale des données finales

Vous lancez le job et vous avez ensuite accès aux documents crawlés et analysés. Bien sûr 80legs propose également une API permettant de gérer vos crawls mais aussi de récupérer les données crawlées. Le format des données récupérées est propriétaire et il faudra tout de même être développeur pour pouvoir les exploiter.

C’est là à mon avis où 80legs ne va pas assez loin : son API devrait également permettre d’indexer et d’interroger les crawls effectués.

Mais c’est déjà une approche intéressante que de pouvoir effectuer des crawls à un moindre coût :

  • Crawl : $2 pour 1 million de pages
  • Analyse : $0,03 par heure CPU utilisée
  • Récupération des résultats : entre $0 et $0,10 par en fonction du volume

Emilie : pour moi, 80legs présente 3 intérêts. Tout d’abord, il offre un nouveau moyen à l’internaute de créer son propre moteur de recherche. Plus on a de choix, mieux c’est. C’est ensuite un service complètement personnalisable ; le nombre d’options est assez important. Enfin, il est, d’après ses créateurs, facile à utiliser. Que peut-on demander de plus ? Et pour ceux qui veulent savoir quelles différences il existe entre Yahoo Boss et 80legs, c’est ici.

Avec Spezify partez à la découverte du web
mai 13th, 2009 by jerome

Découvert sur Outils Froids, Spezify est un moteur de recherche dans la lignée de Kosmix, dont l’objectif est d’offrir à l’utilisateur une vue synthétique des différentes ressources disponibles pour une recherche donnée.

Spezify

J’ai été très impressionné par la présentation et la navigation dans les résultats de recherche : très en rupture avec ce que nous connaissons aujourd’hui. Un approche originale et efficace. Bien sûr, ce genre de moteur de heurte au problème des recherches hyper spécialisées pour lesquelles il n’est pas adapté. Mais pour des recherches plus généralistes et particulièrement sur des entités nommées, il se révèle plein de surprises. Il nous fait redécouvrir une facette du web que nous oublions souvent, la découverte.

Une des recherches les plus significatives lors de mes recherches fut celle à propos de « jean veronis » (sans accent, car pour le moment Spezify ne gère pas les requêtes accentuées). En un écran dont chaque type de ressource est illustré de manière distincte, je découvre que Jean s’intéresse aux technologies du langage, qu’il a publié divers papiers sur le « parallel text processing », qu’il s’intéresse à la politique, qu’il travaille sur les nuages de tags et les graphes, et finalement qu’il doit avoir un côté un peu épicurien. Pas mal non, car il me semble que ça colle assez bien à ce que nous connaissons de Jean.

Un moteur à découvrir pour redécouvrir le web sous un autre angle !

Emilie : merci Christophe pour la découverte et merci Jérôme pour cette analyse. J’aime beaucoup et en particulier la mise en scène des informations qui alterne photos, textes, vidéos… avec harmonie. Le choix des couleurs, les polices de caractères… tout me plaît. On a l’impression de se retrouver devant un mur sur lequel on a posé plein de post-it. Et la navigation au clavier ne fait que rendre encore plus agréable l’utilisation de ce moteur de recherche. Sinon, le petit truc qui me séduit, c’est la prise en compte de Twitter. C’est le premier moteur de recherche de ce type qui le fait il me semble. Ce qui m’intéresse aussi dans ce moteur, c’est qu’il pourrait bien remplacer des outils comme 123people.fr pour se faire une idée d’une personne.

Les enfants et les moteurs de recherche
mar 16th, 2009 by emilie

Comment les enfants de 7 à 11 ans recherchent-ils de l’information sur Internet ? Des chercheurs du Human-Computer interaction Lab de l’université du Maryland, associés à Hilary Hutchinson du département « Expérience utilisateurs » de Google, ont réalisé une étude (remarquée là).

Ils se sont intéressés aux points suivants :

  • Interaction dans l’utilisation du clavier et de l’écran (direction du regard, utilisation de l’auto-complétion) : les enfants regardent peu l’écran quand ils tapent leurs requêtes sauf quand elles deviennent trop complexes. Le plus souvent, ils ne remarquent pas, et n’utilisent pas la recommandation de requête.
  • La connaissance et l’usage de Google par les enfants (fonctionnalités, perception générale) : la majorité des enfants sélectionnés utilisent Google et en ont une image positive (facile à utiliser, site cool…). Leur connaissance du moteur se limite en général au champ de saisie de la requête, pas du tout aux filtres de recherche (images, vidéos…) ni aux résultats.
  • La frappe et l’orthographe (erreurs de frappe, outils d’assistance) :
  • Utilisation et compréhension des boîtes de recherche : les enfants savent utiliser indifféremment le bloc de recherche central (sur la page d’accueil de Google) / celui qui apparaît suite à une première requête et les blocs de recherche de la barre d’outils.
  • Requêtes à plusieurs étapes (complétion des requêtes, changement de stratégie de recherche, recherche par mots-clés ou en langage naturel) : la question comme « Which day of the week will the Vice-President’s birthday be on next year? » a posé des soucis aux enfants. Plus difficile qu’avec l’utilisation de mots-clés.

L’autre partie intéressante de l’étude, c’est qu’à partir de ces résultats des suggestions d’amélioration des interfaces de recherche sont suggérées

  • Consider alternative input methods : il serait intéressant de proposer plusieurs alternatives de recherche aux enfants.
  • Explore alternate auto-complete algorithms : l’auto-suggestion devrait peut-être apparaître dans un second temps vu que les enfants ne regardent pas l’écran au moment où ils saisissent une requête.
  • Limit or expand the search results : aller vers des pages avec moins de textes, de liens… ne nécessitant pas de scroller.
  • Age the interface : changer occasionnellement d’interface.
Jérôme : Je me suis délecté à la lecture de ce papier. Tout d’abord, parce que j’y ai retrouvé divers comportements de mes enfants face à un ordinateur et face à Internet. Mais également parce qu’il formalise certains lieux communs qui semblent des évidences, mais qu’il était nécessaire d’observer et de mesurer. Enfin, parce que cela fait déjà plusieurs années que je « bassine » certains de mes interlocuteurs avec l’idée de créer un moteur de recherche segmenté par âge. Cela m’a semblé évident lorsque mes enfants ne sachant pas encore lire ont commencé à utiliser un ordinateur, Internet et Google : les outils ne sont pas adaptés, puisqu’ils se basent sur une présentation uniquement textuelle, inaccessible aux enfants de moins de 7 ans. Nous pouvons alors assez facilement segmenter les moteurs de recherche suivant notre niveau d’accès à l’information à partir d’un ordinateur. A première vue, nous pourrions dégager les segments (avec quelques pistes basiques de spécificités à chaque segment) :
  • non-lecteur : navigation/recherche exclusivement iconographique
  • lecteur-débutant : navigation/recherche mêlant iconographie et texte simple
  • ado : navigation/recherche textuelle instantanée (type keyboardr)
  • adulte : navigation/recherche textuelle telle que nous la connaissons aujourd’hui avec Google
  • senior : navigation/recherche offrant un contenu textuel plus riche que les autres versions, avec une présentation claire et reposante.
Pour chacun de ces segments, il faut bien évidemment des sources différentes et des pondérations différentes de ces sources.

Le but utlime serait alors de mettre en place un seul et même moteur de recherche évolutif qui s’adapterait à l’âge de ses utilisateurs, à son niveau d’accès à l’information.

Anatomie d’un moteur de recherche (par Philippe Yonnet)
fév 10th, 2009 by emilie

J’ai participé la semaine dernière au SEO Campus. J’y parlais de e-réputation mais ce n’était pas le seul sujet, ni le sujet principal de cet événement. On y a bien sûr parlé de référencement, mais aussi de linguistique statistique, de droit de l’Internet… et de moteurs de recherche.

Vous trouverez ici une présentation de Philippe Yonnet, Directeur du Pôle Métier Agence Aposition Isobar, dans laquelle il décortique un moteur de recherche.

Vous pouvez aussi tout simplement cliquer sur l’image ci-dessous :

Jérôme : Back to basics. Une présentation, simple et claire qui permettra au néophyte de mieux comprendre ce qu’est un moteur de recherche et comment il fonctionne dans ses grandes lignes.

Web Search Strategies in Plain English
jan 30th, 2009 by emilie

Jérôme : Nous avons plusieurs fois échangé nos points de vue sur la nécessité d’éduquer et de former l’internaute à l’utilisation de smoteurs de recherche (ici ou encore ici) . Cette vidéo, très simple (simpliste pour les experts) est vraiment très bien fait et très claire. Elle permet en quelques minutes de montrer de manière drôle et pertinente l’utilisation de quelques opérateurs de base des moteurs de recherche. Bravo à l’auteur de la vidéo. Merci à Emilie de l’avoir dénichée. Ne reste plus qu’à faire un doublage français de la vidéo (un volontaire? Jean-Marie, au hasard ?) et à la diffuser le plus largement possible.

PDF Search Engine pour la recherche de PDF
nov 4th, 2008 by emilie

Merci au site Actualitté qui nous propose une petite liste de moteurs de recherche d’ebooks gratuits. Mais je ne ferai ici qu’un focus sur PDF Search Engine.

Ce moteur de recherche, basé sur Google, offre la possibilité d’avoir accès aux fichiers .pdf circulant librement sur le Web. Ce qui est intéressant avec ce moteur de recherche c’est qu’on n’a pas besoin de passer par un site intermédiaire pour accéder aux documents. On y accède directement.

Le site est simple, sobre et disponible en plusieurs langues.

Jérôme : Encore une belle trouvaille d’Emilie les bons tuyaux! ;)
J’aime également ce genre de service qui se donne une mission bien définie et la remplit simplement mais efficacement. J’aurais tout de même quelques critiques et interrogations sur ce service.. sinon, je servirais à quoi sur ce blog ?

Tout d’abord au niveau de la disponibilité du service en plusieurs langues : C’est une escroquerie! Uniquement la home est internationalisée. Toutes les autres pages sont en anglais, même lorsque vous sélectionnez une langue spécifique. Dommage, car ça n’est pas très compliqué à faire, et ça fait beaucoup plus sérieux. De plus, le choix d’une langue devrait/pourrait permettre de restreindre ses recherches en fonction de cette langue, mais ce n’est pas le cas, c’est bien dommage également!

Un très bon point en revanche : la possibilité de naviguer par mots-clés dans l’ensemble des PDFs : http://www.pdf-search-engine.com/book/ (attention le filtre SafeSearch n’est pas activé).

Pour un service qui se positionne comme un moteur de recherche d’ebooks, il est dommage de ne pas afficher la taille des documents. En effet, je vais avoir tendance à télécharger des ebooks lorsque je suis en situation de mobilité, donc en général avec un débit limité, donc j’aimerais bien savoir dans quoi je me lance avant de télécharger un PDF de 2000 pages sur mon mobile!

Enfin, et ce sera ma plus grosse critique… Qu’apporte réellement PDF Search Engine par rapport à une recherche avancée Google ?
Quelques exemples : Roméo et Juliette sur PDF Search Engine et Roméo et Juliette sur Google, Natural Language Processing sur PDF Search Engine et Natural Language Processing sur Google.
Plus j’utilise et plus je teste PDF Search Engine et moins j’y vois un quelconque intérêt (surtout à l’heure où Google commence à scanner les documents papier). Pire, comme ils le soulignent dans la rubrique SEO, j’ai l’impression que PDF Search Engine est avant tout une expérimentation réussie de référencement.

Et vous, qu’en pensez-vous ?

La recherche en 2018 : « The future of Search »
oct 13th, 2008 by jerome

Petit récapitulatif sur notre série de billets à propos de la vision de Google sur le futur de la recherche :

Que pouvons-nous en penser maintenant que nous avons une vision plus globale ? Ce qui me frappe ? Tout d’abord qu’il reste effectivement beaucoup de chemin à parcourir. Mais également que plus le temps passe et plus les nouveaux venus auront des difficultés à s’imposer :

Les modes de recherche

  • Pouvoir adapter son moteur sur tous les terminaux imaginables (téléphone, tv, voitures, vêtements, réfrigérateurs, …) demande des ressources conséquentes et surtout de très nombreux partenariats : Il faut être un ‘gros’ pour pouvoir se le permettre.
  • Effectuer des rechercher à partir de sons, d’images ou de vidéos nécessite également des ressources conséquentes (humaines, machines, énergie).

La présentation des résultats

La personnalisation

  • Qui dit personnalisation, dit tracking, et pour un tracking efficace, il faut une authentification. Et à moins de demander une authentification pour des services annexes (comme l’a fait Google avec GMail ou Picasa ou Google Documents), il n’est pas facile de légitimer la nécessité de s’authentifier pour tirer le meilleur d’un moteur de recherche. Bref, il faut authentifier l’utilisateur de manière détournée. Comment un nouveau moteur flambant neuf pourrait-il justifier ce besoin ? Et même s’il y parvenait, il n’aurait que peu de choses à tracker, comparé à Google ou Yahoo! qui peuvent, eux, utiliser l’activité de leurs utilisateurs sur les différents services qu’ils proposent (agenda, messagerie, messagerie instantanée, cartographie, partage de bookmarks, stockage de photos, …)
  • L’autre point important de la personnalisation est la confiance : Même si l’utilisateur est d’accord pour fournir quelques informations personnelles afin qu’un moteur lui offre des résultats plus profilés, il le fera d’autant plus qu’il a confiance dans le service en question. Et là, encore une fois, Google, Yahoo! et Microsoft ont un indice de confiance bien plus élevé qu’un nouveau venu. Car finalement, avouons-le, même si nous crions bien souvent au loup, il n’y a jamais eu de preuve d’une utilisation abusive des données personnelles par les principaux moteurs.

Emilie : une remarque très pertinente. On en dit des choses sur Google, il génère débats et inquiétudes (voir le cas de GoogleHealth, le système de collecte des données personnelles, la durée de conservation des données personnelles malgré des efforts, etc.) quand il s’agit de la sécurité des données personnelles mais finalement, nous n’avons jamais eu d’échos d’abus ou de non-respect de la vie privée.

La recherche interlingue

  • Tout comme la présentation des résultats, c’est un domaine assez ouvert, dans lequel un outsider pourrait se démarquer. Mais la recherche interlingue ne sera, à mon sens, pas un élément suffisant (pas assez visible pour l’utilisateur) pour espérer concurrencer Google et les autres.

Il ne sera donc pas facile de s’imposer et de lancer de nouveaux moteurs pouvant concurrencer Google, Yahoo ou Microsoft. L’histoire récente nous le prouve, aussi bien avec Cuil qu’avec Accoona. Nous n’avons évoqué ici que la vision à long terme de Google, il y a certainement d’autres pistes à creuser et même certainement certaines qui pourraient rompre avec les solutions actuelles et parvenir à s’imposer.

Vous avez des pistes, des idées ? N’hésitez pas à nous en faire part en commentaire.

Emilie : je note qu’il n’est pas du fait allusion dans The Future of Search de Google à la recherche sociale. A l’heure où on ne cesse de nous parler de Web 2.0, je m’interroge !

« Ils ont bien changé ces moteurs de recherche ! »
juil 25th, 2008 by emilie

A la fin des années 90, les stars étaient Altavista, Lycos, Webcrawler, etc. Le blog AxeNet propose un petit visionage des pages d’accueil… La première est en-dessous et les autres ici.

Jérôme : Pfou… Toute ma jeunesse et mes années de thèse à la Direction de L’information Scientifique et Technique du CEA. Je suis content de constater que grâce à la Wayback Machine on peut encore consulter mon dossier qui avait pour titre « Les principaux problèmes de la recherche d’information sur Internet ». Les moteurs étudiés à l’époque sont AliWeb, AltaVista, EuroFerret, Excite, Galaxy, Harvest, HotBot, etc … pas de trace de Google! Je verse une larme de nostalgie à ces tendres années…

Introduction à la recherche d’information par Google
juil 17th, 2008 by jerome


Google nous propose sur son blog officiel un très bon billet de

Ce billet expose de manière claire et simple et illustrée, les principales problématiques de la recherche d’information sur internet. On y retrouve trois axes majeurs :

Emilie : je trouve toujours bien que les éditeurs de solutions, quelles qu’elles soient, fassent un effort de vulgarisation pour mettre à la portée de tous des concepts, des processus… qui ne sont pas faciles d’accès. Bravo Google !

La recherche d’information sur la deuxième marche du podium
mai 7th, 2008 by emilie

De quel podium s’agit-il ? De celui des usages d’Internet. La recherche d’information arrive juste derrière l’e-mail ! Ce résultat ressort de l’enquête de Gartner, réalisée à la fin de l’année 2007 dans 18 pays sur un échantillon de 4 779 internautes.

Jérôme : Ce qui ne fait que renforcer mon rêve d’un Search Engine Consortium

»  Substance: WordPress   »  Style: Ahren Ahimsa