23/12/2009

Les résultats d'une solution de veille indéxé par Google ?


C'est tout à fait par hasard, en feuilletant mon Google Reader, que je n'est pas consulté depuis une semaine environs, que je me retrouve devant une information classé "tourisme en Algérie" qui me renvois vers un extranet de la plateforme Digimind "la rolls royce des outils de veilles".



J'essaye le lien, et après trois tentatives je réussie a accéder.


cliquez pour agrandir l'image

Et normalement, le vrai lien est celui du centre national de documentation du Maroc, mais qui se retrouve sous cette url normalement, sans parler de la balise title qui ne change pas.


cliquez pour agrandir l'image


Voyons maintenant les en-têtes renvoyées par : http://www.digimind-evolution.com/maraacid

HTTP/1.1 302 Object Moved
Location: http://www.digimind-evolution.com/maraacid/
Server: Microsoft-IIS/5.0
Content-Type: text/html
Content-Length: 170
HTTP/1.1 302 Object moved
Server: Microsoft-IIS/5.0
Date: Wed, 23 Dec 2009 05:28:42 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0,pre-check=0, max-age=0, private, no-transform, proxy-revalidate, s-maxage=0
Expires: Fri, 30 Oct 1998 14:19:41 GMT
Last-modified: Fri, 30 Oct 1998 14:19:41 GMT
Pragma: no-cache
Location: /maraacid/login.asp?redirect=default%2Easp%3F
Connection: Keep-Alive
Content-Length: 203
Content-Type: text/html
Set-Cookie: ASPSESSIONIDQASRTRCQ=PLPJAEMANMJKPIAJEDCGAJIL; path=/
Cache-control: private
HTTP/1.1 302 Object moved
Server: Microsoft-IIS/5.0
Date: Wed, 23 Dec 2009 05:28:43 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0,pre-check=0, max-age=0, private, no-transform, proxy-revalidate, s-maxage=0
Expires: Fri, 30 Oct 1998 14:19:41 GMT
Last-modified: Fri, 30 Oct 1998 14:19:41 GMT
Pragma: no-cache
Location: loginSE.asp?redirect=default%2Easp%3F
Connection: Keep-Alive
Content-Length: 195
Content-Type: text/html
Set-Cookie: ASPSESSIONIDQASRTRCQ=AMPJAEMAENKDJIDJCJPEEELJ; path=/
Cache-control: private
HTTP/1.1 200 OK
Server: Microsoft-IIS/5.0
Date: Wed, 23 Dec 2009 05:28:43 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0,pre-check=0, max-age=0, private, no-transform, proxy-revalidate, s-maxage=0
Expires: Fri, 30 Oct 1998 14:19:41 GMT
Last-modified: Fri, 30 Oct 1998 14:19:41 GMT
Pragma: no-cache
Connection: Keep-Alive
Content-Length: 2032
Content-Type: text/html
Set-Cookie: ASPSESSIONIDQASRTRCQ=BMPJAEMAMLFEBEGCOAAGBDAD; path=/
Cache-control: private



 Et les en-têtes renvoyées par: http://maraacid.cnd.hcp.ma/maraacid/

HTTP/1.1 302 Object moved
Server: Microsoft-IIS/5.0
Date: Wed, 23 Dec 2009 05:33:57 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0,pre-check=0, max-age=0, private, no-transform, proxy-revalidate, s-maxage=0
Expires: Fri, 30 Oct 1998 14:19:41 GMT
Last-modified: Fri, 30 Oct 1998 14:19:41 GMT
Pragma: no-cache
Location: /maraacid/login.asp?redirect=default%2Easp%3F
Connection: Keep-Alive
Content-Length: 203
Content-Type: text/html
Set-Cookie: ASPSESSIONIDQASRTRCQ=LMPJAEMAJDHEDKDCNFAPCJHJ; path=/
Cache-control: private
HTTP/1.1 302 Object moved
Server: Microsoft-IIS/5.0
Date: Wed, 23 Dec 2009 05:33:58 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0,pre-check=0, max-age=0, private, no-transform, proxy-revalidate, s-maxage=0
Expires: Fri, 30 Oct 1998 14:19:41 GMT
Last-modified: Fri, 30 Oct 1998 14:19:41 GMT
Pragma: no-cache
Location: loginSE.asp?redirect=default%2Easp%3F
Connection: Keep-Alive
Content-Length: 195
Content-Type: text/html
Set-Cookie: ASPSESSIONIDQASRTRCQ=MMPJAEMAMKKCFINHPEHPMHDP; path=/
Cache-control: private
HTTP/1.1 200 OK
Server: Microsoft-IIS/5.0
Date: Wed, 23 Dec 2009 05:33:58 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0,pre-check=0, max-age=0, private, no-transform, proxy-revalidate, s-maxage=0
Expires: Fri, 30 Oct 1998 14:19:41 GMT
Last-modified: Fri, 30 Oct 1998 14:19:41 GMT
Pragma: no-cache
Connection: Keep-Alive
Content-Length: 2032
Content-Type: text/html
Set-Cookie: ASPSESSIONIDQASRTRCQ=NMPJAEMAKLNBOCADOFHODBKJ; path=/
Cache-control: private



Le code renvoyé est 302 "en déménagement momentané" et non un 200 ?

Donc, si je suis pas bête à ce point, il s'agit tout bonnement d'une simple redirection, et que la plateforme est ailleur qu'au Maroc, bon je commence à délirer....

La question que je me pose, pourquoi Google Reader index les fichiers de l'extranet d'une solution de veille et non celle qui doit être visible sur le web ?

parce que , normalement, la première des choses dans une application de veille de type SaaS ou cloud ou ce que vous voulez mais qui transite par une serveur web, c'est de bloquer les Robots des moteurs de recherches.
Je suis sure que j'aurais une réponse, cette matinée.
Merci de m'éclairer.

1 commentaire:

Anonyme a dit…

Bonjour,

Le site indéxé est le portail Maracid du Centre National de Docmentation. C'est un portail public c'est pour cela qu'il est indexé. Il est en effet basé sur la solution que vous avez mentioné.

C'est juste une question de Meta qu'ils devrient changer pour les titres. Sinon cette indexation est normale :)