Accueil | Références | Remerciements |
Accès DSL | Autres accès | Fournisseurs d'accès | Backbone | Adresses IP | Protocoles |
Noms de domaine | DNS | Applications | Web | Statistiques | Gouvernance |
Cette page est consacrée aux applications Web, qui sont parmi les
plus utilisées sur le réseau Internet.
Nous commençons par traiter du protocole HTTP,
permettant le dialogue entre clients et serveurs Web.
Nous nous intéressons ensuite aux contenus Web :
langage HTML, accessibilité des sites Web.
Nous décrivons également les solutions d'hébergement,
nécessaires pour mettre en ligne un site Web.
Nous détaillons les différentes techniques permettant de
réaliser l'analyse d'audience
d'un site Web : analyse des fichiers log et services en mode ASP.
Nous traitons ensuite des moteurs de recherche
utilisables sur le Web : le fonctionnement des robots d'indexation et le
classement des résultats des recherches par les moteurs.
Enfin, les techniques d'archivage du Web
seront abordées.
|
L'Université Technique de Darmstadt a développé
une applet Java permettant de simuler graphiquement un échange
HTTP :
http://www.kom.e-technik.tu-darmstadt.de/projects/iteach/itbeankit/Applets/HTTP/ihttp.html
Afficher la fenêtre de l'applet en plein écran pour plus de
confort visuel. Cliquer sur le bouton "Start" en haut de page pour lancer
la simulation, et modifier si nécessaire le curseur de vitesse
(entre "Slow" et "Fast").
L'échange commence par une ouverture de connexion TCP, suivie
d'une requête et d'une réponse HTTP, puis de la fermeture de
connexion TCP. Les messages TCP sont affichés en jaune et ceux de
HTTP en vert. Le code HTML de la page obtenue est affichée dans le
cadre en haut à gauche, et la partie de l'écran en bas
à gauche permet de visualiser la page obtenue comme le ferait un
navigateur Web.
La page HTML contenant une image, l'échange se poursuit par une
2ème ouverture de connexion TCP, la requête et la
réponse sur l'image, et enfin la fermeture de cette connexion TCP.
La partie gauche de l'écran est mise à jour avec le cadre
de l'image.
Quitter l'applet en utilisant la commande "Exit" du menu "Applet".
On peut utiliser l'outil en ligne Web-Sniffer, qui affiche le dialogue
HTTP avec un serveur Web :
http://web-sniffer.net/
Entrer une URL telle que "http://www.google.com" puis
valider.
L'outil affiche successivement la requête HTTP émise vers le
serveur Web (commande GET avec ses en-têtes), puis la
réponse HTTP reçue de ce serveur (en-têtes avec le
code de réponse "200 OK" et contenu de la page demandée).
Les symboles [CRLF] affichés dans les en-têtes indiquent les
fins de ligne (Carriage Return - Line Feed).
Quelle information dans la requête permet à Google
d'afficher une page en Français ? Quelles autres informations
permettent au serveur Web de savoir quel est le navigateur utilisé
et quel lien a mené à la page demandée ?
Inversement, quelle information dans la réponse permet au
navigateur de savoir quel est le logiciel serveur utilisé ? Le
serveur positionne-t-il des cookies sur le client ?
Essayer avec une URL inexistante telle que "http://www.google.com/toto" et observer
le code de réponse "404 Not Found".
Sur le site de Netcraft, entrer le nom du site souhaité dans la
zone de saisie "What's that site running?" en haut de la page :
http://uptime.netcraft.com/
Lorsqu'elles sont disponibles, les courbes "Samples of system uptime"
permettent de déterminer quand ces serveurs Web ont
été redémarrés. Netcraft mémorise les
serveurs qui sont demandés par les internautes. Les courbes
"uptime" ne sont générées que pour les serveurs qui
ont été demandés récemment.
|
On peut utiliser l'outil "Markup Validation Service" du W3C :
http://validator.w3.org/
Entrer l'URL de la page à vérifier et valider.
Il existe également des outils de vérification des feuilles
de style en cascade (CSS) et du code XML.
On trouve sur certains sites Web des icônes telles que celles-ci
:
(Attention : les liens associés s'ouvrent dans la fenêtre
courante, et non pas dans une nouvelle fenêtre)
En cliquant sur ces icônes, on effectue la vérification de
la page où elles se trouvent (ceci ne fonctionnera cependant pas
si vous avez un pare-feu ou un proxy Web configurés pour filtrer
l'en-tête "Referer:" dans les requêtes HTTP).
Les pages de ce site devraient normalement être conformes aux
standards XHTML 1.0 Transitional et CSS.
Noter que de nombreux sites Web ne sont pas conformes à 100% aux
standards du W3C, bien qu'ils soient affichés correctement par la
plupart des navigateurs Internet.
Un autre outil très intéressant proposé par le
W3C, le vérificateur de liens :
http://validator.w3.org/checklink/
Entrer l'URL de la page à vérifier et valider.
L'outil vérifie à la fois la syntaxe et l'existence des
ancres et des liens de la page, en émettant des commandes HTTP
"HEAD" vers les pages destinations des liens. Bien utile pour les pages
avec beaucoup de liens, comme celles de ce site...
L'inventeur du Web, Tim Berners-Lee, s'était donné pour
objectif de "mettre le Web et ses services à la disposition de
tous les individus, quels que soient leur matériel ou logiciel,
leur infrastructure réseau, leur langue maternelle, leur culture,
leur localisation géographique, ou leurs aptitudes physiques ou
mentales".
Afin de promouvoir l'accessibilité du Web, le W3C (World Wide Web
Consortium) a créé en 1996 le projet WAI (Web Accessibility
Initiative). Ce projet émet des recommandations à
l'attention des concepteurs de sites Internet, en particulier les
règles WCAG (Web Content Accessibility Guidelines). Les
créateurs de sites sont invités à adopter ces
recommandations, classées selon différents niveaux de
priorité (par exemple : utilisation d'un texte alternatif pour les
images, de légendes et transcriptions pour les documents audio, de
descriptions pour les vidéos, d'énoncés pertinents
pour les liens hypertextes...).
Plusieurs sites proposent des outils de validation des règles
d'accessibilité des sites Web. Par exemple, la
société française Ocawa (France
Télécom) permet de tester gratuitement, en ligne,
jusqu'à 10 pages d'un même site :
http://www.ocawa.com/Accueil_1_fr/
Entrer l'adresse d'un site Web (par exemple : www.int-edu.eu) et valider. Ou bien
cliquer sur l'un des 5 derniers audits d'accessibilité Ocawa
listés à droite.
L'audit repose sur un système expert qui intègre
différentes règles d'accessibilité (WCAG, France
Télécom, ADAE, Accessiweb, Section 508
américaine).
Le rapport d'audit liste un ensemble de remarques sur le contenu du site,
avec des liens hypertextes vers le code HTML incriminé
(surlignement jaune).
Un outil analogue est le logiciel Bobby proposé par la
société Watchfire :
http://bobby.watchfire.com/
Entrer une URL et valider. Le rapport de résultat indique les
erreurs par niveau de priorité décroissant, et
précise également que certains tests ne peuvent pas
être effectués automatiquement mais doivent l'être
manuellement (User Checks).
Le GIE "Confort de Lecture" a développé des solutions
d'accessibilité à intégrer sur un site Web existant.
Cette solution est par exemple utilisée sur le portail Internet de
l'association HandiCaPZéro :
http://www.handicapzero.org/
Les pages du site ont été conçues de manière
à être accessibles via un afficheur braille ou vocal pour
les internaute aveugles. Pour les internautes malvoyants, la solution
"Confort de Lecture" permet de définir des paramètres
visuels personnalisés.
Observer le portail en affichage normal, puis cliquer sur l'onglet
"CONFORT DE LECTURE" en haut à droite. Choisissez successivement
la couleur du fond d'écran, la taille et la couleur des
caractères. Cliquer enfin sur "Entrez sans enregistrer".
Le site est affiché avec les nouveaux paramètres
sélectionnés. Il est également possible de
créer un "profil visuel" qui sera utilisé automatiquement
à chaque connexion de l'internaute.
|
Une liste de sociétés d'hébergement en France (catégorie Hébergement du répertoire Google) : http://directory.google.com/Top/World/Fran%C3%A7ais/Informatique/Internet/Conception_et_d%C3%A9veloppement/H%C3%A9bergement/
Des exemples de tarifs d'hébergement :
|
Voici à titre d'exemple un extrait de fichier log (journal) du
serveur Web de l'Université de Strasbourg :
http://www-ipst.u-strasbg.fr/pat/internet/cours-reseau/logs.htm
Chaque ligne correspond à une requête reçue par le
serveur. Observer les éléments suivants, de gauche à
droite :
À la ligne 3, l'URL de provenance est "http://www.google.fr",
et les paramètres suivants permettent de déterminer les
mots-clés utilisés lors de la recherche sur
Google.
Ces fichiers logs sont peu lisibles dans leur forme brute. Il existe
des logiciels d'analyse permettant d'en extraire les données
importantes et de les présenter sous une forme plus conviviale.
Voici les statistiques du serveur Web de l'INT obtenues par le logiciel
Analog :
http://www.int-edu.eu/stats/
ACCESSIBLE
UNIQUEMENT AU PERSONNEL DE L'INT
Observer par exemple les statistiques mensuelles du mois
précédent le mois en cours.
Un autre exemple fourni par la société Analog
elle-même :
http://www.chiark.greenend.org.uk/~sret1/stats/
On peut également utiliser le logiciel commercial Wusage, dont
voici un exemple de résultats :
http://www.boutell.com/wusage/example/monthly/2002/02/01/index.html
Cliquer sur les liens à droite pour visualiser les
différents types d'informations obtenues.
Une méthode d'analyse d'audience, plus précise que l'analyse des fichiers logs, consiste à utiliser les services de sociétés spécialisées telles que eStat, Nedstat ou XiTi (version professionnelle et version gratuite pour particuliers). La technique consiste à marquer les pages à observer au moyen d'un code JavaScript, éventuellement associé à une icône de la société (voir en bas à droite de cette page). Lorsqu'un internaute visualise l'une de ces pages, le code JavaScript est exécuté et les informations pertinentes sont envoyées au serveur de la société pour analyse ultérieure.
Voici la partie publique des statistiques XiTi pour cette page
(visiteurs, visites et pages vues pour la journée d'hier) :
http://v50.xiti.com/stats/frequentation/publique.asp?site=155062
Cliquer sur le lien "Mois précédent" à droite pour
visualiser ces mêmes mesures sur l'intégralité du
mois dernier.
Les statistiques privées sont beaucoup plus complètes.
En voici des démonstrations pour les versions Pro :
Cliquer sur les menus déroulants en haut de la fenêtre
pour afficher les diverses informations obtenues :
trafic/fréquentation (pages vues/visites/visiteurs uniques),
comportement/navigation (pages d'entrée et de sortie),
provenance/affluents (liens, moteurs de recherche, mots-clés),
localisations géographiques, équipements des
internautes...
|
Le site "The Web Robots Pages" donne la liste des principaux robots de
moteurs de recherche (aussi appelés spiders ou crawlers) :
http://www.robotstxt.org/wc/active/html/index.html
Cliquer sur un robot pour avoir plus d'information, par exemple GoogleBot
(le robot de Google). Observer en particulier le champ "HTTP
User-Agent"
que les robots utilisent dans leurs requêtes HTTP pour
s'identifier.
Le site WebRankInfo propose un outil de surveillance de
l'activité des robots sur les sites Web, nommé RobotStats
(logiciel Open Source gratuit). Cet outil analyse le champ "User-Agent"
ou les adresses IP dans les requêtes HTTP de manière
à analyser la fréquentation du site par les robots (alors
que les outils d'analyse d'audience analysent la fréquentation du
site par les internautes, hors robots).
Voici un exemple de résultats générés par
RobotStats, pour le site "Webmaster eXpérience" :
http://www.webmaster-experience.net/robotstats/
Cliquer sur le nom du mois en cours dans le calendrier pour afficher
les statistiques de visite des robots sur ce mois, puis sur la double
flèche gauche sous le calendrier pour obtenir les mois
précédents. Le camembert indique les pourcentages de visite
de chacun des robots, et la liste en-dessous signale les adresses IP
utilisées par le moteur sélectionné à gauche
(GoogleBot par défaut). Cliquer sur l'onglet Graphique pour
obtenir des historiques de visite pour le moteur
sélectionné, sur différentes durées
d'observation.
Le portail "Search Engine World" propose un simulateur de robot de
moteur de recherche :
http://www.searchengineworld.com/cgi-bin/sim_spider.cgi
Entrer l'URL souhaitée, par exemple pour le site de l'INT :
http://www.int-edu.eu/
Cliquer sur "Spider it".
L'outil présente les différentes informations qui sont
recueillies par les robots au cours de leurs visites sur cette page : les
balises META (title, description, keywords), le texte indexé,
ainsi que les liens contenus dans la page et qui seront indexés
à leur tour par les robots. Les autres données contenues
dans la page (images, codes JavaScript...) ne sont en
général pas indexées.
Une icône permet également d'obtenir la densité des
mots-clés dans les liens (pour des termes de recherche
composés de 1, 2 et 3 mots). De manière
générale, un site a plus de chance d'être bien
positionné dans les résultats des moteurs de recherche sur
un mot-clé donné, lorsque la densité de ce
mot-clé est élevée.
Les moteurs de recherche utilisent pour classer leurs réponses différents paramètres, tel que la fréquence d'apparition des termes de recherche, ou encore leur position dans la page (en-tête, titres...). Google utilise également un paramètre mesurant la "notoriété" d'un site, appelé "PageRank" (PR). Pour une page donnée, la valeur de PR, comprise entre 0 et 10, est calculée en fonction du nombre de pages qui pointent vers celle-ci, ainsi que de leurs PR respectifs (le calcul est donc itératif).
Le maintien d'une valeur de PR élevée est parfois une
véritable obsession pour certains webmasters. Ils utilisent
d'ailleurs un langage un peu sybillin. On trouve sur leurs forums de
discussion des messages du type : "Je passe de 181 à 345 BL, mon
PR devrait grimper à 5 lors de la prochaine GD"... Quelques
indices : BL = BackLinks (liens entrants), PR = PageRank, GD = Google
Dance (phase de calcul des PR).
L'outil "PageRank Search" du site "SEO Chat" permet d'effectuer une
recherche Google, et d'afficher les valeurs de PR correspondant aux pages
résultats :
http://www.seochat.com/seo-tools/pagerank-search/
Entrer par exemple le terme de recherche
"Télécommunications" (avec les accents, positionner au
préalable l'affichage du navigateur en Unicode) et valider.
Le PageRank est affiché juste en dessous du nom des pages Web.
Vous pourrez ainsi obtenir les PageRanks pour les sites Web de l'INT,
l'ENST, l'ENST Bretagne, le GET, l'ARCEP, l'UIT etc.
Le lien "View META Data" permet d'afficher les méta-tags d'une
page (titre, description, mots-clés). Ces méta-tags sont
considérés comme très importants pour l'indexation
d'un site par les moteurs de recherche.
Le lien "View Inbound Links" permet d'afficher les pages pointant vers
une page donnée (donc celles qui participent au calcul de son PR).
Cette fonctionnalité utilise la notation "link:" de Google (par
exemple : "link:http://www.int-edu.eu/").
Le lien "Analyze Links" affiche les liens présents sur la page,
internes ou externes au site (texte et URL).
Enfin, on peut classer les pages résultats d'une recherche Google
par PageRank au lieu du classement Google standard (choisir "Order by:
PageRank" et "Results: 100" en haut de page, puis valider).
On peut également obtenir le PR d'une page Web directement avec
l'outil "PageRank Lookup" de "SEO Chat" :
http://www.seochat.com/seo-tools/pagerank-lookup/
Entrer une ou plusieurs URLs et valider.
On peut aussi obtenir le PageRank des pages Web directement avec la
barre d'outils Google si on utilise Internet Explorer ("Google Toolbar"
à télécharger), ou avec l'outil "pagerankstatus" si
on utilise Firefox ou Mozilla.
Voici une copie d'écran illustrant l'utilisation de l'outil
"pagerankstatus" : http://pagerankstatus.mozdev.org/screenshots.html
Le PR de la page courante est visualisé dans la barre de statut du
navigateur.
Pour les webmestres, il est également possible d'afficher
directement sur son site Web la valeur du PageRank, en insérant
une simple image dans le code HTML de la page. C'est par exemple le cas
du service proposé par la société "PRChecker.info".
L'icône suivante permet ainsi de visualiser le PR de cette page
:
Lors du chargement de l'image, le site "PRChecker.info" obtient l'URL de
la page Web concernée au moyen de l'en-tête "Referer:" dans
la requête HTTP, et renvoie une image conforme à la valeur
du PageRank associée à cette URL. Ce mécanisme ne
fonctionnera donc pas si l'internaute utilise un pare-feu qui bloque les
referers, auquel cas l'icône affichera un PR par défaut de
0/10.
Enfin, pour les sites présents dans l'annuaire ODP (utilisé par Google), on peut obtenir une estimation de leur PR dans la catégorie correspondante de l'annuaire Google. Les sites y sont classés selon la valeur de PageRank (ou par ordre alphabétique). En voici quelques exemples:
Les barres à gauche des URL donnent une idée de la notoriété des sites Web en question.
Le site PR10 liste les sites Web qui obtiennent un PageRank de 10,
c'est-à-dire la note maximale attribuée par Google :
http://www.pr10.fr/
On y trouve classiquement les grands moteurs de recherche et les sites
les plus renommés. Les informations à droite de la page
précisent la date de la dernière Google Dance, la date de
dernière actualisation des BackLinks, et le nombre de pages
recensées par Google.
|
Il faut utiliser une machine à remonter le temps... ou l'outil
"Wayback Machine" du site "Internet Archive", qui archive les sites Web
depuis 1996 :
http://www.archive.org/web/web.php
Entrer une URL, par exemple http://www.int-edu.eu et cliquer sur
"Take Me Back". Sélectionner ensuite la date souhaitée : la
téléportation commence...
Noter que certains liens et images peuvent ne pas avoir été
archivés.
Cette impressionnante bibliothèque numérique (30 milliards
de pages, 1 Peta-octets = 1000 Tera-octets de données) suppose des
batteries de serveurs à la hauteur :
http://www.archive.org/web/hardware.php
|
Contact : Patrick
Maigron Dernière mise à jour : 2006-05-28 |
|