Dans ce modèle, deux vecteurs qui sont orientés de la même façon (ils ont donc un angle nul entre eux) représentent deux documents dont les coordonnées dans l'espace "sémantique" sont réparties de la même façon. Ce sont probablement des documents parlant d'un thème commun.
Par contre ces deux vecteurs n'ont pas forcément la même longueur... La projection de cette "longueur" sur chaque axe mesure le poids de chaque terme dans ce document.
Sauf qu'il y'a plusieurs manières de calculer le poids d'un terme dans un document. Mais en règle générale, on pondère le poids d'un terme dans un document donné par la fréquence des documents contenant ce terme. Ce qui permet d'éliminer le "bruit de fond" dû aux mots les plus courants.
Déjà, le fait de savoir cela permet de comprendre pourquoi la notion de densité normale est variable : elle varie d'un document à un autre, et d'une requête à une autre.
Le terme "globicéphale" est présent dans un faible nombre de documents rapporté au nombre de pages web. La présence de deux fois le terme globicéphale dans une page en fait un document pour lequel le poids "globicéphale" va être très important. Si on rajoute une fois baleine, et une fois cétacé, cela oriente la page dans une direction qui la fera "matcher" plutôt avec une requête sur les cétacés que sur autre chose. A l'inverse, la présence d'une seule occurrence du mot "web" sera quasiment sans effet, car le poids de ce terme va être jugé ridicule.
La longueur du vecteur permet de classer les documents entre eux. Le seul problème c'est qu'entre deux documents "orientés" de la même façon, celui qui a le vecteur le plus long n'est pas forcément le plus pertinent. C'est juste celui dont le poids des termes projeté dans une direction donnée est le plus élevé (cela fait longtemps qu'on ne confond plus similarité et pertinence)
Donc ceux qui fabriquent les moteurs de recherche ont appris à pondérer les critères liés au poids des termes avec d'autres critères (comme le pagerank, mais aussi tous les subtils critère "in page") qui eux sont là pour augmenter la pertinence des réponses telle qu'elle est attendue par l'internaute.
Bref pour résumer :
1°) Le keyword stuffing a plus ou moins d'effet en fonction de la requête ciblée. Cela dépend, non pas du caractère concurrentiel ou non de la requête, mais de la rareté ou non des documents contenant les termes ciblés (ceci dit, si la requête est concurrentielle, les pages contenant ces termes se multiplient rapidement)
2°) Dans la plupart des cas, les méthodes "bourrines" de keyword stuffing rendent la page moins pertinente sur les requêtes à plusieurs mots (dommage...). Les méthodes "scientifiques" étant par ailleurs plus difficiles à utiliser que la rédaction en langage naturel, cette dernière méthode est préférable. Je rappelle au passage que cela rend aussi vos sites plus intéressants
Citation
il ne serait pas surprenant qu'ils prennent leur "normalité" non sur le web, mais off-line, sur des revues, livres, etc... l'OCR étant très pratique.
Et pourtant ! Non partir de statistiques faites à partir de la langue des livres donne des résultats terriblement mauvais sur le web.
Ce qui est analysé c'est bien le contenu des pages web indexées, pas autre chose.