LE TOUR DU NET EN QUESTIONS
Web

Accès DSL	Autres accès	Fournisseurs d'accès	Backbone	Adresses IP	Protocoles
ADSL Dégroupage Réseau France Télécom xDSL	Réseaux d'accès Câble Fibre optique Sans fil Équipements Mesure de débits	Choix d'un FAI Offres "Multiple play" Cas particuliers	Structure d'Internet Backbones Points d'échange Internet (IX) Mesure de trafic	Outils Localisation d'une adresse IP Allocation des adresses Échange de trafic entre FAI et backbones	Protocoles réseau et transport Outils de test réseau

Noms de domaine	DNS	Applications	Web	Statistiques	Gouvernance
Domaines génériques Nouveaux domaines génériques Enregistrement de noms Domaines nationaux Domaine .FR Outils de recherche Aspects juridiques	Outils DNS Serveurs DNS Serveurs racines	Numéros de port Mail Transfert de fichiers Gestion de réseau Autres usages Sécurité	Protocole HTTP Contenus Web Hébergement Analyse d'audience Moteurs de recherche Archivage	Accès Internet FAI Internautes Adresses IP Noms de domaine DNS Mail Web	Gouvernance Normalisation Historique Auto-évaluation

Cliquer sur les liens ci-dessus pour visualiser les différentes pages du site.

Cette page est consacrée aux applications Web, qui sont parmi les plus utilisées sur le réseau Internet.
Nous commençons par traiter du protocole HTTP, permettant le dialogue entre clients et serveurs Web.
Nous nous intéressons ensuite aux contenus Web : langage HTML, accessibilité des sites Web.
Nous décrivons également les solutions d'hébergement, nécessaires pour mettre en ligne un site Web.
Nous détaillons les différentes techniques permettant de réaliser l'analyse d'audience d'un site Web : analyse des fichiers log et services en mode ASP.
Nous traitons ensuite des moteurs de recherche utilisables sur le Web : le fonctionnement des robots d'indexation et le classement des résultats des recherches par les moteurs.
Enfin, les techniques d'archivage du Web seront abordées.

PROTOCOLE HTTP
Le dialogue entre navigateurs et serveurs Web...
Comment se passe le dialogue HTTP entre un navigateur et un serveur Web ?
L'Université Technique de Darmstadt a développé une applet Java permettant de simuler graphiquement un échange HTTP :
http://www.kom.e-technik.tu-darmstadt.de/projects/iteach/itbeankit/Applets/HTTP/ihttp.html
Afficher la fenêtre de l'applet en plein écran pour plus de confort visuel. Cliquer sur le bouton "Start" en haut de page pour lancer la simulation, et modifier si nécessaire le curseur de vitesse (entre "Slow" et "Fast").
L'échange commence par une ouverture de connexion TCP, suivie d'une requête et d'une réponse HTTP, puis de la fermeture de connexion TCP. Les messages TCP sont affichés en jaune et ceux de HTTP en vert. Le code HTML de la page obtenue est affichée dans le cadre en haut à gauche, et la partie de l'écran en bas à gauche permet de visualiser la page obtenue comme le ferait un navigateur Web.
La page HTML contenant une image, l'échange se poursuit par une 2ème ouverture de connexion TCP, la requête et la réponse sur l'image, et enfin la fermeture de cette connexion TCP. La partie gauche de l'écran est mise à jour avec le cadre de l'image.
Quitter l'applet en utilisant la commande "Exit" du menu "Applet".
Puis-je observer plus précisément le contenu des messages HTTP échangés entre un navigateur et un serveur Web ?
On peut utiliser l'outil en ligne Web-Sniffer, qui affiche le dialogue HTTP avec un serveur Web :
http://web-sniffer.net/
Entrer une URL telle que "http://www.google.com" puis valider.
L'outil affiche successivement la requête HTTP émise vers le serveur Web (commande GET avec ses en-têtes), puis la réponse HTTP reçue de ce serveur (en-têtes avec le code de réponse "200 OK" et contenu de la page demandée). Les symboles [CRLF] affichés dans les en-têtes indiquent les fins de ligne (Carriage Return - Line Feed).
Quelle information dans la requête permet à Google d'afficher une page en Français ? Quelles autres informations permettent au serveur Web de savoir quel est le navigateur utilisé et quel lien a mené à la page demandée ?
Inversement, quelle information dans la réponse permet au navigateur de savoir quel est le logiciel serveur utilisé ? Le serveur positionne-t-il des cookies sur le client ?
Essayer avec une URL inexistante telle que "http://www.google.com/toto" et observer le code de réponse "404 Not Found".
Quel est le système d'exploitation et le serveur Web utilisés par le site www.int-edu.eu ? Et par les sites des constructeurs informatiques (www.apple.com, www.microsoft.com, www.sun.com...) ?
Sur le site de Netcraft, entrer le nom du site souhaité dans la zone de saisie "What's that site running?" en haut de la page :
http://uptime.netcraft.com/
Lorsqu'elles sont disponibles, les courbes "Samples of system uptime" permettent de déterminer quand ces serveurs Web ont été redémarrés. Netcraft mémorise les serveurs qui sont demandés par les internautes. Les courbes "uptime" ne sont générées que pour les serveurs qui ont été demandés récemment.

CONTENUS WEB
Concevoir le contenu de son site Web...
J'ai créé une page HTML. Comment puis-je vérifier si elle est conforme aux standards W3C ?
On peut utiliser l'outil "Markup Validation Service" du W3C :
http://validator.w3.org/
Entrer l'URL de la page à vérifier et valider.
Il existe également des outils de vérification des feuilles de style en cascade (CSS) et du code XML.

On trouve sur certains sites Web des icônes telles que celles-ci :

(Attention : les liens associés s'ouvrent dans la fenêtre courante, et non pas dans une nouvelle fenêtre)
En cliquant sur ces icônes, on effectue la vérification de la page où elles se trouvent (ceci ne fonctionnera cependant pas si vous avez un pare-feu ou un proxy Web configurés pour filtrer l'en-tête "Referer:" dans les requêtes HTTP).
Les pages de ce site devraient normalement être conformes aux standards XHTML 1.0 Transitional et CSS.
Noter que de nombreux sites Web ne sont pas conformes à 100% aux standards du W3C, bien qu'ils soient affichés correctement par la plupart des navigateurs Internet.

Un autre outil très intéressant proposé par le W3C, le vérificateur de liens :
http://validator.w3.org/checklink/
Entrer l'URL de la page à vérifier et valider.
L'outil vérifie à la fois la syntaxe et l'existence des ancres et des liens de la page, en émettant des commandes HTTP "HEAD" vers les pages destinations des liens. Bien utile pour les pages avec beaucoup de liens, comme celles de ce site...
Comment puis-je contribuer à rendre mon site Web accessible aux personnes handicapées ?
L'inventeur du Web, Tim Berners-Lee, s'était donné pour objectif de "mettre le Web et ses services à la disposition de tous les individus, quels que soient leur matériel ou logiciel, leur infrastructure réseau, leur langue maternelle, leur culture, leur localisation géographique, ou leurs aptitudes physiques ou mentales".
Afin de promouvoir l'accessibilité du Web, le W3C (World Wide Web Consortium) a créé en 1996 le projet WAI (Web Accessibility Initiative). Ce projet émet des recommandations à l'attention des concepteurs de sites Internet, en particulier les règles WCAG (Web Content Accessibility Guidelines). Les créateurs de sites sont invités à adopter ces recommandations, classées selon différents niveaux de priorité (par exemple : utilisation d'un texte alternatif pour les images, de légendes et transcriptions pour les documents audio, de descriptions pour les vidéos, d'énoncés pertinents pour les liens hypertextes...).

Plusieurs sites proposent des outils de validation des règles d'accessibilité des sites Web. Par exemple, la société française Ocawa (France Télécom) permet de tester gratuitement, en ligne, jusqu'à 10 pages d'un même site :
http://www.ocawa.com/Accueil_1_fr/
Entrer l'adresse d'un site Web (par exemple : www.int-edu.eu) et valider. Ou bien cliquer sur l'un des 5 derniers audits d'accessibilité Ocawa listés à droite.
L'audit repose sur un système expert qui intègre différentes règles d'accessibilité (WCAG, France Télécom, ADAE, Accessiweb, Section 508 américaine).
Le rapport d'audit liste un ensemble de remarques sur le contenu du site, avec des liens hypertextes vers le code HTML incriminé (surlignement jaune).

Un outil analogue est le logiciel Bobby proposé par la société Watchfire :
http://bobby.watchfire.com/
Entrer une URL et valider. Le rapport de résultat indique les erreurs par niveau de priorité décroissant, et précise également que certains tests ne peuvent pas être effectués automatiquement mais doivent l'être manuellement (User Checks).

Le GIE "Confort de Lecture" a développé des solutions d'accessibilité à intégrer sur un site Web existant. Cette solution est par exemple utilisée sur le portail Internet de l'association HandiCaPZéro :
http://www.handicapzero.org/
Les pages du site ont été conçues de manière à être accessibles via un afficheur braille ou vocal pour les internaute aveugles. Pour les internautes malvoyants, la solution "Confort de Lecture" permet de définir des paramètres visuels personnalisés.
Observer le portail en affichage normal, puis cliquer sur l'onglet "CONFORT DE LECTURE" en haut à droite. Choisissez successivement la couleur du fond d'écran, la taille et la couleur des caractères. Cliquer enfin sur "Entrez sans enregistrer".
Le site est affiché avec les nouveaux paramètres sélectionnés. Il est également possible de créer un "profil visuel" qui sera utilisé automatiquement à chaque connexion de l'internaute.

HÉBERGEMENT
Mettre en ligne son site Web...
Je souhaite faire héberger un site Web. À qui dois-je m'adresser et combien cela me coûtera-t-il ?
Une liste de sociétés d'hébergement en France (catégorie Hébergement du répertoire Google) : http://directory.google.com/Top/World/Fran%C3%A7ais/Informatique/Internet/Conception_et_d%C3%A9veloppement/H%C3%A9bergement/

Des exemples de tarifs d'hébergement :
- i(france) : http://www.ifrance.com/heberg/accueil
- NFrance Conseil : http://www.nfrance.com/hebergement_mutualise.php
- Online.net : http://www.online.fr/info.pl?lg=fr
ANALYSE D'AUDIENCE
Mesurer la fréquentation de son site Web...
Quelles informations peut-on obtenir à partir des logs d'un serveur Web ?
Voici à titre d'exemple un extrait de fichier log (journal) du serveur Web de l'Université de Strasbourg :
http://www-ipst.u-strasbg.fr/pat/internet/cours-reseau/logs.htm
Chaque ligne correspond à une requête reçue par le serveur. Observer les éléments suivants, de gauche à droite :
- L'adresse IP ou le nom de la station ayant émis la requête.
- La date et l'heure.
- Le type de requête (GET en général).
- Le nom du fichier demandé.
- La version du protocole HTTP.
- Le code de réponse (200 en général).
- Le nombre d'octets retournés dans la réponse.
- L'URL d'où provient la requête (en-tête "Referer:" dans les requêtes HTTP).
- La version du navigateur et du système d'exploitation.
À la ligne 3, l'URL de provenance est "http://www.google.fr", et les paramètres suivants permettent de déterminer les mots-clés utilisés lors de la recherche sur Google.

Ces fichiers logs sont peu lisibles dans leur forme brute. Il existe des logiciels d'analyse permettant d'en extraire les données importantes et de les présenter sous une forme plus conviviale. Voici les statistiques du serveur Web de l'INT obtenues par le logiciel Analog :
http://www.int-edu.eu/stats/ ACCESSIBLE UNIQUEMENT AU PERSONNEL DE L'INT
Observer par exemple les statistiques mensuelles du mois précédent le mois en cours.

Un autre exemple fourni par la société Analog elle-même :
http://www.chiark.greenend.org.uk/~sret1/stats/

On peut également utiliser le logiciel commercial Wusage, dont voici un exemple de résultats :
http://www.boutell.com/wusage/example/monthly/2002/02/01/index.html
Cliquer sur les liens à droite pour visualiser les différents types d'informations obtenues.
Comment analyser l'audience d'un site Web si je n'ai pas accès au serveur Web qui l'héberge ?
Une méthode d'analyse d'audience, plus précise que l'analyse des fichiers logs, consiste à utiliser les services de sociétés spécialisées telles que eStat, Nedstat ou XiTi (version professionnelle et version gratuite pour particuliers). La technique consiste à marquer les pages à observer au moyen d'un code JavaScript, éventuellement associé à une icône de la société (voir en bas à droite de cette page). Lorsqu'un internaute visualise l'une de ces pages, le code JavaScript est exécuté et les informations pertinentes sont envoyées au serveur de la société pour analyse ultérieure.

Voici la partie publique des statistiques XiTi pour cette page (visiteurs, visites et pages vues pour la journée d'hier) :
http://v50.xiti.com/stats/frequentation/publique.asp?site=155062
Cliquer sur le lien "Mois précédent" à droite pour visualiser ces mêmes mesures sur l'intégralité du mois dernier.

Les statistiques privées sont beaucoup plus complètes. En voici des démonstrations pour les versions Pro :
- eStat : http://www.estat.com/cgi-bin/readstat.cgi?serial=1330358873
- XiTi : http://v50.xiti.com/stats/demopro.asp
Cliquer sur les menus déroulants en haut de la fenêtre pour afficher les diverses informations obtenues : trafic/fréquentation (pages vues/visites/visiteurs uniques), comportement/navigation (pages d'entrée et de sortie), provenance/affluents (liens, moteurs de recherche, mots-clés), localisations géographiques, équipements des internautes...

MOTEURS DE RECHERCHE
Google, MSN, Yahoo! et les autres...
Les moteurs de recherche indexent le Web grâce à des robots. Combien de robots existe-t-il ? Lesquels indexent mon site et à quelle fréquence ?
Le site "The Web Robots Pages" donne la liste des principaux robots de moteurs de recherche (aussi appelés spiders ou crawlers) :
http://www.robotstxt.org/wc/active/html/index.html
Cliquer sur un robot pour avoir plus d'information, par exemple GoogleBot (le robot de Google). Observer en particulier le champ "HTTP User-Agent"
que les robots utilisent dans leurs requêtes HTTP pour s'identifier.

Le site WebRankInfo propose un outil de surveillance de l'activité des robots sur les sites Web, nommé RobotStats (logiciel Open Source gratuit). Cet outil analyse le champ "User-Agent" ou les adresses IP dans les requêtes HTTP de manière à analyser la fréquentation du site par les robots (alors que les outils d'analyse d'audience analysent la fréquentation du site par les internautes, hors robots).
Voici un exemple de résultats générés par RobotStats, pour le site "Webmaster eXpérience" :
http://www.webmaster-experience.net/robotstats/
Cliquer sur le nom du mois en cours dans le calendrier pour afficher les statistiques de visite des robots sur ce mois, puis sur la double flèche gauche sous le calendrier pour obtenir les mois précédents. Le camembert indique les pourcentages de visite de chacun des robots, et la liste en-dessous signale les adresses IP utilisées par le moteur sélectionné à gauche (GoogleBot par défaut). Cliquer sur l'onglet Graphique pour obtenir des historiques de visite pour le moteur sélectionné, sur différentes durées d'observation.
Sous quelle forme un moteur de recherche voit-il une page Web ?
Le portail "Search Engine World" propose un simulateur de robot de moteur de recherche :
http://www.searchengineworld.com/cgi-bin/sim_spider.cgi
Entrer l'URL souhaitée, par exemple pour le site de l'INT : http://www.int-edu.eu/
Cliquer sur "Spider it".
L'outil présente les différentes informations qui sont recueillies par les robots au cours de leurs visites sur cette page : les balises META (title, description, keywords), le texte indexé, ainsi que les liens contenus dans la page et qui seront indexés à leur tour par les robots. Les autres données contenues dans la page (images, codes JavaScript...) ne sont en général pas indexées.
Une icône permet également d'obtenir la densité des mots-clés dans les liens (pour des termes de recherche composés de 1, 2 et 3 mots). De manière générale, un site a plus de chance d'être bien positionné dans les résultats des moteurs de recherche sur un mot-clé donné, lorsque la densité de ce mot-clé est élevée.
Comment Google classe-t-il les résultats issus d'une recherche ?
Les moteurs de recherche utilisent pour classer leurs réponses différents paramètres, tel que la fréquence d'apparition des termes de recherche, ou encore leur position dans la page (en-tête, titres...). Google utilise également un paramètre mesurant la "notoriété" d'un site, appelé "PageRank" (PR). Pour une page donnée, la valeur de PR, comprise entre 0 et 10, est calculée en fonction du nombre de pages qui pointent vers celle-ci, ainsi que de leurs PR respectifs (le calcul est donc itératif).

Le maintien d'une valeur de PR élevée est parfois une véritable obsession pour certains webmasters. Ils utilisent d'ailleurs un langage un peu sybillin. On trouve sur leurs forums de discussion des messages du type : "Je passe de 181 à 345 BL, mon PR devrait grimper à 5 lors de la prochaine GD"... Quelques indices : BL = BackLinks (liens entrants), PR = PageRank, GD = Google Dance (phase de calcul des PR).

L'outil "PageRank Search" du site "SEO Chat" permet d'effectuer une recherche Google, et d'afficher les valeurs de PR correspondant aux pages résultats :
http://www.seochat.com/seo-tools/pagerank-search/
Entrer par exemple le terme de recherche "Télécommunications" (avec les accents, positionner au préalable l'affichage du navigateur en Unicode) et valider.
Le PageRank est affiché juste en dessous du nom des pages Web. Vous pourrez ainsi obtenir les PageRanks pour les sites Web de l'INT, l'ENST, l'ENST Bretagne, le GET, l'ARCEP, l'UIT etc.
Le lien "View META Data" permet d'afficher les méta-tags d'une page (titre, description, mots-clés). Ces méta-tags sont considérés comme très importants pour l'indexation d'un site par les moteurs de recherche.
Le lien "View Inbound Links" permet d'afficher les pages pointant vers une page donnée (donc celles qui participent au calcul de son PR). Cette fonctionnalité utilise la notation "link:" de Google (par exemple : "link:http://www.int-edu.eu/").
Le lien "Analyze Links" affiche les liens présents sur la page, internes ou externes au site (texte et URL).
Enfin, on peut classer les pages résultats d'une recherche Google par PageRank au lieu du classement Google standard (choisir "Order by: PageRank" et "Results: 100" en haut de page, puis valider).

On peut également obtenir le PR d'une page Web directement avec l'outil "PageRank Lookup" de "SEO Chat" :
http://www.seochat.com/seo-tools/pagerank-lookup/
Entrer une ou plusieurs URLs et valider.

On peut aussi obtenir le PageRank des pages Web directement avec la barre d'outils Google si on utilise Internet Explorer ("Google Toolbar" à télécharger), ou avec l'outil "pagerankstatus" si on utilise Firefox ou Mozilla.
Voici une copie d'écran illustrant l'utilisation de l'outil "pagerankstatus" : http://pagerankstatus.mozdev.org/screenshots.html
Le PR de la page courante est visualisé dans la barre de statut du navigateur.

Pour les webmestres, il est également possible d'afficher directement sur son site Web la valeur du PageRank, en insérant une simple image dans le code HTML de la page. C'est par exemple le cas du service proposé par la société "PRChecker.info". L'icône suivante permet ainsi de visualiser le PR de cette page :

Lors du chargement de l'image, le site "PRChecker.info" obtient l'URL de la page Web concernée au moyen de l'en-tête "Referer:" dans la requête HTTP, et renvoie une image conforme à la valeur du PageRank associée à cette URL. Ce mécanisme ne fonctionnera donc pas si l'internaute utilise un pare-feu qui bloque les referers, auquel cas l'icône affichera un PR par défaut de 0/10.

Enfin, pour les sites présents dans l'annuaire ODP (utilisé par Google), on peut obtenir une estimation de leur PR dans la catégorie correspondante de l'annuaire Google. Les sites y sont classés selon la valeur de PageRank (ou par ordre alphabétique). En voici quelques exemples:
- Secteur des télécommunications en France :
  http://directory.google.com/Top/World/Fran%C3%A7ais/R%C3%A9gional/Europe/France/Commerce_et_%C3%A9conomie/T%C3%A9l%C3%A9communications/?il=1
- Fournisseurs d'accès Internet en France :
  http://directory.google.com/Top/World/Fran%C3%A7ais/R%C3%A9gional/Europe/France/Commerce_et_%C3%A9conomie/Informatique/Internet/Fournisseurs_d%27acc%C3%A8s/
- Écoles d'ingénieurs en France :
  http://directory.google.com/Top/World/Fran%C3%A7ais/R%C3%A9gional/Europe/France/Enseignement_et_formation/Enseignement_sup%C3%A9rieur/Ecoles_d%27ing%C3%A9nieurs/
Les barres à gauche des URL donnent une idée de la notoriété des sites Web en question.

Le site PR10 liste les sites Web qui obtiennent un PageRank de 10, c'est-à-dire la note maximale attribuée par Google :
http://www.pr10.fr/
On y trouve classiquement les grands moteurs de recherche et les sites les plus renommés. Les informations à droite de la page précisent la date de la dernière Google Dance, la date de dernière actualisation des BackLinks, et le nombre de pages recensées par Google.

ARCHIVAGE
L'archéologie du Web...
À quoi ressemblait le site Web de l'INT en 1997 ?
Il faut utiliser une machine à remonter le temps... ou l'outil "Wayback Machine" du site "Internet Archive", qui archive les sites Web depuis 1996 :
http://www.archive.org/web/web.php
Entrer une URL, par exemple http://www.int-edu.eu et cliquer sur "Take Me Back". Sélectionner ensuite la date souhaitée : la téléportation commence...
Noter que certains liens et images peuvent ne pas avoir été archivés.
Cette impressionnante bibliothèque numérique (30 milliards de pages, 1 Peta-octets = 1000 Tera-octets de données) suppose des batteries de serveurs à la hauteur :
http://www.archive.org/web/hardware.php