La lettura di questa pagina risulterà utile a:

  • gli utenti Professional che hanno installato un "HTTP Analyze 2.0", per interpretare i risultati delle statistiche di accesso ai loro siti web, effettuate dal programma (è disponibile anche il documento originale in lingua inglese);

  • tutti gli altri navigatori che desiderano scoprire i segreti della tecnologia che lavora "dietro le quinte" del mondo di Internet

COS'E' UN SERVER WEB?

Un server web è un programma installato su un computer che lavora in rete, che attende connessioni dal mondo esterno per fornire documenti su richiesta dei browser.

Per comunicare, il server e il browser usano un metodo di comunicazione asincrona chiamato HTTP (hyper text transaction protocol). Questo protocollo lavora nella seguente maniera:

1) l'utente accende il browser e digita un URL
2) il browser si collega all'host cercato e richiede un documento specifico.

3) Il server web si occupa di soddisfare la richiesta e spedisce indietro una risposta:

A) se questo documento esiste, il server web lo invia,

B) se invece esso non esiste o se l'accesso non è permesso, il server web spedisce indietro un messaggio di errore.

Il documento inviato come risposta alla richiesta del browser può contenere oggetti inclusi. Gli oggetti inclusi sono semplici URL che puntano ad altre risorse, come un documento, un'immagine, un applet, uno stream video/audio, o qualsiasi altro oggetto HTML indicabile con un indirizzo.

Il browser allora richiede tutti gli oggetti inclusi della corrente pagina dal server utilizzando i punti 2 e 3 indicati sopra, prima di mostrare il contenuto di quella pagina.
Questo metodo di comunicazione è chiamato asincrono, perchè il browser spedisce molte richieste per i documenti inclusi, senza attendere una risposta dal server prima di spedire la nuova richiesta), usando diversi canali di comunicazione.

Poichè le richieste del browser sono spesso gestite da differenti processi del server o da differenti flussi di un processo server, non c'è assolutamente relazione tra le linee del logfile (il file che tiene traccia degli eventi) causate dalle risposte dal server a seguito della richiesta di un documento e dei suoi oggetti inclusi.
Per esempio, l'ordine con cui il server registra la trasmissione, avvenuta con successo, del documento stesso e delle immagini in esso contenute non è prevedibile e dipende dal tipo di documento, oggetto, dalla velocità del server, dal sistema operativo, dalla rete e da molti altri parametri.



COSA VIENE REGISTRATO?

Ciascuna risposta del server - che essa indichi successo, un errore o persino un timeout (cioè nessuna risposta) - viene registrata in un logfile del server. Le risposte del server si chiamano "Hits". Il numero totale di hits deve essere uguale al totale numero di linee nel logfile meno il numero di linee corrotte o vuote. Una tipica linea di un logfile nel Common Logfile Format appare così:

hostname - - [01/Feb/1998:10:10:00 +0100] "GET /index.html HTTP/1.0" 200 4839

Il campo hostname contiene il nome di dominio completo (FQDN ovvero Full Qualified Domain Name) del sito che accede al tuo server (si veda "Casi Particolari" sotto). I successivi due campi di solito contengono un meno (`-') per indicare che quei campi sono vuoti. La data è circondata da parentesi quadrate ('[' e ']'). Il campo che segue contiene la richiesta. Esso contiene il metodo di richiesta o request method (GET per esempio), il nome del documento richiesto (URI), e la specificazione del protocollo (HTTP/1.0). Il campo successivo contiene il codice di risposta del server (200 sta per un "OK", mentre 404 significherebbe "Documento non trovato", per esempio). L'ultimo campo contiene la dimensione del documento (alcuni server registrano il numero di byte trasferiti effettivamente, mentre altri servers registrano la dimensione del documento, il che fa differenza se l'utente interrompe il trasferimento prima che il documento possa essere trasmesso completamente.

Ci sono altri due formati di logfile; il Combined e l'Extended. Questi formati aggiungono alla linea del logfile il tipo di browser o user-agent e il referrer URL (la pagina che contiene un link al documento richiesto se la richiesta per quel documento è stata generata seguendo un link) . I formati Combined o Extended aggiungono i seguenti due campi al Common Logfile Format (CLF) in una delle due seguenti modalità:

	CLF Mozilla/2.0 (X11; IRIX 6.3; IP22) http://foo/bar.html	
	CLF "http://foo/bar.html" "Mozilla/2.0 (X11; IRIX 6.3; IP22)"

Si noti che nella seconda form, lo user-agent ed il referrer URL sono circondati da virgolette, che li rendono ambigui in certi casi come URL errati, i quali contengono virgolette. Ne consegue che la prima forma dovrebbe essere preferita.

Le linee mostrate sopra sono le sole informazioni che il server registra nel logfile. Ci potrebbero essere molte più informazioni che vengono trasferite dal browser al server, ma sebbene queste informazioni addizionali siano disponibili attraverso gli script CGI che vengono eseguiti nel tuo server, esse non vengono registrate nel logfile. Pertanto, http-analyze può mostrare solo un riassunto delle informazioni nel logfile - niente di più, niente di meno.



CASI PARTICOLARI

MEMORIZZAZIONE NEL BROWSER:

Dal momento in cui una pagina è stata salvata nella cache del browser, il browser può inviarci richieste condizionali per documenti o oggetti inclusi. Questa richiesta condizionale chiede al web server solo di spedire un documento/oggetto se esso è stato modificato dall'ultima volta che la pagina è stata richiesta (se la pagina è ancora nella cache del browser). In questo modo il traffico di rete viene ridotto molto poichè i documenti devono essere trasferiti solo se sono stati modificati recentemente. Se una richiesta condizionale arriva, il server risponderà con un Code 304 (Not Modified) per indicare che il documento non è stato cambiato o con un Code 200 (OK) se esso è stato cambiato nel frattempo. Poichè il browser può essere configurato (e di solito lo è) per spedire solo richieste condizionali una per sessione e altrimenti incondizionatamente usa la copia dalla chache, tu potrai non vedere una risposta Code 304 se questi utenti visitano il tuo sito di nuovo nella stessa sessione. Le richieste condizionali vengono poi spedite solo se l'utente termina la sessione del browser e più tardi riaccende il browser.

MEMORIZZAZIONE IN UN SERVER PROXY:

Organizzazioni con un largo numero di utenti - come le grandi aziende, le università, o i providers - spesso usano un cosiddetto proxy server principalmente per due motivi:

1) Spesso tali organizzazioni hanno un firewall per proteggere la loro rete interna da intrusioni. Questo significa che le loro reti sono logicamente separate dal resto del mondo, dunque essi devono usare un proxy server perchè esso permette la comunicazione tra la loro rete locale e l'esterno.

2) Per ridurre il carico di rete il proxy server agisce come una macchina di copia locale. Quando una pagina è caricata in un browser attraverso un proxy server, il proxy salva una copia di questa pagina nella sua cache, come fa il browser nell'esempio precedentemente descritto. In questo modo, un documento che viene richiesto molto spesso dagli utenti della stessa rete locale, ha bisogno di essere trasferito al proxy solo una volta, che poi risponderà alle future richieste delle stessa pagina dalla sua cache locale invece che connettersi al server web da cui il documento è originariamente stato tratto.

Entrambe le forme di memorizzazione rendono tecnicamente impossibile tenere il conto dei visitatori o tracciare le loro venute nel tuo sito web. Tutto quello che vedi nel logfile del tuo server sono solo pochi iniziali Hit dal proxy o dal browser e probabilmente alcuni Code 304 risultanti da richieste condizionali spedite dal proxy o dal browser, dipendenti dalle configurazioni prescelte per il proxy ed il browser.



DEFINIZIONE DEI TERMINI

Il rapporto della statistica contiene, insieme ad altre, le seguenti informazioni:

  • il numero di Hit, 304, file, pageview, sessioni, dati spediti (in KB)
  • l'ammontare dei dati richiesti, trasferiti, e salvati dalla cache (in KB)
  • il numero di URL, siti, e sessioni per mese
  • il numero di tutti i codici di risposta diversi da 200 (OK)
  • la media di Hit per giorno della settimana e nell'ultima settimana
  • la media più alta di Hit in un giorno ed in un'ora
  • il numero di Hit, file, 304, siti, dati spediti ogni giorno
  • gli ultimi 5 giorni, 24 ore, 5 minuti e 5 secondi del periodo di osservazione
  • gli ultimi 30 tra gli URL più comunemente visitati (Hit, 304, dati spediti)
  • i dieci URL meno frequentemente visitati (Hit, 304, dati spediti)
  • gli ultimi 30 domini client che hanno visitato il tuo server più spesso
  • gli ultimi 30 tipi di browser
  • gli ultimi 30 host cui si è fatto riferimento
  • la lista dettagliata e sintetica di tutti i file richiesti
  • la lista dettagliata e sintetica di tutti i siti per dominio (numerico e letterale)
  • la lista dettagliata e sintetica di tutti i tipi di browser
  • la lista dettagliata e sintetica di tutti gli URL cui si è fatto riferimento
  • La seguente tabella riassume il significato di tutti i termini nella relazione di statistica che non si spiegano da soli:

    TERMINE COLORE SIGNIFICATO
    Hit green

    Hit è qualsiasi risposta del server a seguito di una richiesta del browser. Questo include qualsiasi risposta del server, non solo file di testo o documenti. Se per esempio una pagina HTML comprende due immagini, il server genera tre Hit quando la pagina viene richiamata, uno per la pagina HTML stessa e due per le due immagini incluse.

    File green

    Se l'utente richiede un documento, la richiesta è corretta e il server resituisce un file, questo è contato come una risposta Code 200 (OK). Di nuovo, "file" qui significa qualsiasi tipo di file.

    Code 304 yellow

    Una risposta Code 304 (Not Modified) è generato dal server se il documento non è stato aggiornato dall'ultima volta che è stato richiesto dall'utente e perciò non c'è bisogno effettivamente di rispedirlo. Questo accade quando il browser (o il server proxy tra il browser e il tuo server web) ha ancora una copia aggiornata della pagina nella sua cache e può mostrare la pagina senza richiederne l'attuale contenuto. Questa tecnica è usata per ridurre il traffico di rete, ma essa genera dei risultati nelle relazioni di statistica riguardo al numero di visitatori non veritieri. Comunque, la percentuale tra file e codici 304 riflette l'efficenza generale del meccanismo di memorizzazione, almeno per quegli Hit che hanno raggiunto il server.

    Pageview yellow

    Pageview sono tutti quei file che o hanno un suffisso di file di testo (.html, .text) o che sono file di indice di cartella. Questo numero permette di stimare il numero di "reali" documenti trasmessi dal tuo server. Se definito correttamente , l'analizzatore classifica file di testo (documenti) come pageviews. Queste pageview non includono immagini, CGI scripts, Applet Java o qualsiasi altro oggetto HTML tranne tutti i file che terminano con uno dei suffissi predefiniti per pageview, come .html o .text.

    Altre risposte yellow ¹

    Ci sono molte altre risposte oltre aCode 200 (OK) e Code 304 (Not Modified), specialmente nello standard, il protocollo HTTP 1.1. Per esempio, il server può generare una risposta Code 302 (Redirezionato) se una pagina è stata spostata, un Code 401 (Richiesta non autorizzata) se l'accesso al documento è vietato o un Code 404 (Non trovato) se la pagina richiesta non esiste su quel server. Si vedano le specifiche HTML per informazioni circa tutte le risposte valide da un server web. Si noti che l'http-analyze non riconosce le risposte dell'HTTP/1.1 in accordo con l'RFC2068.

    KByte trasferiti yellow

    Questo è l'ammontare dei dati spedito durante l'intero periodo di osservazione come riportato dal server. Si noti che alcuni server registrano la dimensione di un documento invece che il numero effettivo dei byte trasferiti. Mentre in molti casi questo è lo stesso, se un utente interrompe la trasmissione premendo il pulsante "Termina" del browser prima che la pagina sia stata ricevuta completamente, alcuni server (per esempio tutti i Netscape web server) non registrano l'ammontare dei dati trasferiti ma l'ammontare dei dati che sarebbero stati trasferiti se l'utente avesse caricato completamente la pagina.

    KByte richiesti yellow ¹

    Questo è l'ammontare di dati durante l'intero periodo di osservazione. http-analyze ricava questo numero sommando i valori dei KByte trasferiti e dei KByte salvati mediante la cache (si veda sotto).

    KByte salvati mediante la cache yellow ¹

    L'ammontare dei dati salvati con svariati metodi di caching come in un proxy server o in un browser. Questo valore si ricava moltiplicando il numero diCode 304 (Not Modified) per file con la dimensione del corrispondente file. Nota: considerato che http-analyze può determinare la dimensione di un file solo se esso è stato richiesto almeno una volta nello stesso periodo di osservazione, il valore per KBytes salvati mediante la cache e KBytes richiesti sono proprio approssimazioni dei valori reali.

    Unique URLs  

    Unique URLs sono il numero di tutti i singoli, validi URL richiesti in un dato periodo di osservazione. Questo mostra il numero di tutti i diversi file richiesti almeno una volta nel corrispondente periodo di osservazione.

    Unique sites  

    Questa è la somma di tutti i singoli host che accedono al server durante un dato intervallo di tempo. L'intervallo di tempo è strettamente collegato alla lunghezza del mese corrente. Questo significa che se un host accede al tuo server molto spesso, esso viene contato solo una volta durante l'intero mese.

    Sessions yellow

    Simile a unique sites, questo è il numero di unique hosts che accedono al server durante una dati intervallo di tempo. Questo intervallo di tempo è generalmnte pari ad un giorno, ma può essere cambiato con l'opzione -u o le direttive riguardo a Session nel file di configurazione. Per esempio, se la finestra di tempo è di due ore, tutti gli accessi da un certo host in meno di due dopo il primo accesso vengono riuniti insieme in una sessione. Tutti gli accessi seguenti a più di due ore dal primo saranno contati come una nuova sessione. In questo modo tu puoi fare una stima di quante sessioni vengono aperte su un differente sito per accedere al tuo server.

    ¹ indicato solo nella pagina riassuntiva.



       Protec Snc - Sede legale: Via della Croce Rossa, 56/9 I - 35129 - Padova - P.IVA 00130380280 - © 1995 - 2009 All Right Reserved