
Lors du développement en cours d’une plateforme de veille automatisée, je me suis trouvé devant un grand problème de traitement des textes récoltés sur les pages web.
Du point de vue sémantique, y a pleins de mots et surtout leurs liens qui se trouvaient êtres des publicités « ad sens ».
Primo, ils me faussaient les résultats, et secundo la profondeur des recherches alourdissait significativement le processus de traitement.
Ma plateforme marche sous Windows, le seul moyen d’agir était d’interdire l’affichage des iframes provenant des programmes ad sens de google.

Pour interdire des url bien précise je passe par le fichier "HOSTS". Que nous trouvons normalement suivant cette arborescence :
C:\windows\system32\drivers\etc\
Il fallait trouver maintenant l’url précise à introduire à l’intérieur du fichier, et qui correspond exactement aux programmes ad sens.
J’ai trouvé (02) deux url sous forme de sous domaines:
pagead.googlesyndication.com
pagead2.googlesyndication.com
pagead2.googlesyndication.com
En ajoutant, celles-ci au fichier "Hosts", sous forme de :
127.0.0.1 pagead.googlesyndication.com
127.0.0.1 pagead2.googlesyndication.com
127.0.0.1 pagead2.googlesyndication.com
Mon problème est résolu.

Si vous voulez le faire, vous pouvez soit éditer le fichier hosts avec notepad, mais de préférence utilisez un logiciel pour ça, en l’occurrence « Hostman ».
Si vous trouvez une méthode pour reconnaître les nuages de tag présents sur les blogs et les éliminer, laissez moi un petit commentaire, parce que là….je sèche encore. ;)
Merci d'avance