Prog

Prog

3 programmes tournent indépendamment :

  • le programme d'accès aux résultats de recherche (la page web de recherche) ;
  • le serveur qui fait le lien entre les demandes (page web de recherche) et le réseau d'ordinateurs qui détiennent les bases de données relatives au web exploré ;
  • le programme du robot explorateur, depuis les ordinateurs du réseau.

Ces programmes sont en cours de développement.

Principe

Exploration du web francophone

Il y a d'une part ces mini-serveurs individuels qui tournent en continu (ou quand ils sont allumés). Ces ordinateurs ne font que de l'exploration de sites, stockent la totalité des résultats sur leur disque dur (base de données) puis transmettent certaines informations au serveur central (ces données ne sont que l'identifiant de cet ordi individuel + la liste des mots-clé scannés et trouvés, pas de liste d'adresse web).

Cette opération sert à lier mots-clés avec "ordinateurs qui ont une réponse" (mais dont certaints pourront être éteints plus tard, ce n'est pas si grave, s'ils sont en quantité).

Ces mini-serveurs, des ordinateurs individuels, ne seront que ceux des membres du GIE (structure juridique un peu restrictive), c'est-à-dire que tout le monde ne pourra pas s'inscrire. C'est un choix volontaire.

Moteur de recherche

Recherche d'adresses webs ouverte à tout le monde, comme un moteur de recherche classique. Une fois la phrase ou les mots-clés saisis, ils sont envoyés par un formulaire classique au serveur central qui lui retourne après une requête MySql les adresses IP correspondantes aux ordinateurs allumés des mini-serveurs qui avaient aupréalable indiqué qu'ils avaient une réponse pour ces mots-clés.

Là intervient l'Ajax : à partir des IP retournées de nouvelles questions sont envoyées à ces mini-serveurs qui retournent les adresses webs recherchées. Ces résultats sont mis à jour de manière asynchrone au fur et à mesure des réceptions de résultats (plusieurs résultats similaires font remonter un site web).

Détails

Programme d'accès aux résultats

Page web en PHP et Ajax.

Base de données du serveur central

Remarque :
Plusieurs moteurs de recherche actuel font appel à des centaines ou des milliers de serveurs pour traîter le flux de requêtes. Dans un premier temps, nous pensons n'utiliser qu'un seul serveur, en renvoyant la majeure partie de la charge au réseau.

Le moteur étant francophone, la base de données sera de taille réduite (par rapport à des moteurs internationaux) et ne contiendra qu'à très forte majorité des termes simples français. Cette base pourra provenir du wiktionnaire (dictionnaire associé à Wikipédia).

Chaque terme sera relié à plusieurs adresses IP correspondant aux serveurs individuels personnels (le simple triplet Apache/Mysql/Php tournant sous windows, linux ou mac), et y renvoit par Ajax (invisible pour l'utilisateur).

Robot explorateur

La base de données contient plusieurs tables :

  • table des termes, identique à celle du serveur,
  • table des pages webs référencées,
  • table des pages webs à visiter éventuellement (option qui peut intéresser des webmestres souhaitant un site mieux référencé, mais aussi des surfeurs qui ont repéré des pages webs de qualité, etc.).

La base de données est en MySql.

Informations générales

Proposition

Autres informations

tumblr hit tracking tool

Blix theme adapted by David Gilbert, powered by PmWiki