Jump to content

dams41

Webmaster Régulier
  • Content Count

    66
  • Joined

  • Last visited

Posts posted by dams41

  1. Ca dépend beaucoup de la façon dont les sites sont programmés. Si tu as un site qui se contente de récupérer des infos dans mysql, mais qui n'opère que peu de traitement, c'est normal que ta charge CPU soit réduite. Je crois que ton optimisation (si elle est possible) passerait d'abord par une optimisation des scripts côté serveur. Essaye de nous poster un exemple de requête SQL appelée depuis le script, histoire de voir comment c'est construit...

  2. La différence entre un script avec ou sans base est principalement la performance (avec base est beaucoup plus rapide). De ce fait, je te conseillerai d'installer un script avec base. Ensuite, va voir du côté des scripts nommés dans le topic et fis toi aux instructions d'installation pour mettre en place le moteur.

  3. Mon problème viens de la façon dont imap construit ses structures de données pour l'email. La SDD est différente selon l'emetteur, donc j'arrive pas à récupérer les pièces joints dans tout les cas.

    Je pense donc utiliser imap_fetchbody pour récupérer le corps du mail, puis je vais parser le contenu à coup de regexp pour récupérer les infos...

    Voilà, si ça interresse quelqu'un ...

  4. Bonjour,

    proposant sur un site l'envoi de MMS pour poster du contenu, je m'échine à importer des MMS venant des 3 plateformes (bouygues, SFR et orange). Pour bouygues et SFR, c'est OK, mais pour orange, c'est pas aussi simple. En fait, le message contient un titre bien particulier (aucun problème de ce côté), et une image, le tout formant un "post". Pour B et S, je récupère correctement l'image, mais pour O, la structure de l'email (le MMS) semble complètement différente, expliquant les erreus d'importation. Je souhaite donc connaître la structure de cet email, mais je n'ai pas trouvé d'outils permettant de la connaître...

    Auriez-vous une idée ?

    PS : j'ai essayé avec thunderbird, mais pas moyen d'accéder au message en texte brut. Pour lire les emails, j'utilise la lib imap de PHP.

  5. Depuis Apache 2, le paramétrage des sites ne s'effectue pas dans le httpd.conf, mais dans des fichiers séparés, dans le répertoire /etc/apache2/vhosts.d/. Par défaut (sans virtual host), le site par défaut est paramétré dans /etc/apache2/vhosts.d/00_default_vhost.conf . Est-ce que tu pourrais nous montrer ce fichier ? J'ai l'impression que le mod_rewrite fonctionne bien (c'est un module par défaut dans apache 2), donc il doit y avoir un problème dans la conf des vhosts. (si il y a plusieurs fichiers dans /etc/apache2/vhosts.d/, mets les tous)

  6. Relis les posts depuis le début du thread et tu comprendras mieux.

    Je viens de tout bien relire, c'est fait. J'ai réexpliqué mon point de vue dans le post précédent, en me basant sur une théorie un peu différente de celle de cariboo (encore que pas si eloignée que ça) des réseaux d'apprentissage. Mon truc est donc simpliste au possible reseaux neuroniques et bayésiens, sauf que ce n'est pas "mon" truc, mais un sujet de recherche fondamentale qui permettra peut-être à long terme de faire comprendre un texte à un robot.

    Depuis le début je m'échine à dire que la longueur du texte ne compte pas

    Je suis désolé d'avoir osé penser différement de toi :(. Si j'avais sû que ce forum ne permettait pas de s'exprimer, je me serais contenté de m'abreuver de tes profondes paroles... (ie : je suis d'accord, je ne suis pas d'accord, j'aime pas le mot "densité")

    tu n'apportes rien au débat

    Je tiens à m'en excuser auprès des membres du forum.

    A ta place, il valait mieux s'abstenir

    C'est ce que je compte faire...

  7. Belle leçon de reverse engineering à la petite semaine que voilà !

    J'émet simplement une idée, un principe de fonctionnement, pas une vérité, et encore moins du "reverse engineering". Ce que je sais c'est qu'un robot ne peux as comprendre les phrases telles qu'elles sont. Il peut simplement compter des mots clés, leur accorder une importance selon différents critères, ce qui forme l'algorithme de google. Comment savoir si on effectue beacoup de répétition dans un texte ? un nombre absolue ? Bien sûr que non, sinon nous ne pourrions utiliser la plupart des déterminants / articles etc... La répétition abusive de mots dépend donc du type de mot ciblé. Ainsi google ne considère pas les déterminants / articles etc... comme des mots clés.

    Pour le reste ? pour qu'un robot puisse savoir si un mot est trop utilisé, il doit se baser sur un échantillon non ? Ou tu considères qu'un programme du type

    int nb_max = random(1000);
    if(nombre_mot_clé > nb_max){
    sandbox();
    }

    peut s'avérer suffisant ?

    Pour se baser sur un échantillion, il existe plusieurs méthodes d'apprentissages, les réseaux bayésien et les réseaux de neuronnes principalement. Mais ils se servent d'un échantillion d'observation pour déterminer la classe (un texte dans notre cas). Ainsi, une bonne méthode serait de classer un texte donné dans une classe en fonction du nombre d'occurence de mots clés trouvés par rapport à tous les autres textes disponibles (la base du réseau bayésien, utilisé notamment par thunderbird pour traiter les spams). Une fois qu'on connait la classe d'un texte (son thème), on peut observer le ratio "nombre d'occurence d'un mot clé / taille du texte" par rapport au même ratio pour les textes de la même classe, et ainsi déterminer (avec une marge d'erreur) si un texte est trop répétitif ou non.

    Voilà le principe de fonctionnement que je voulais évoquer, mais une fois de plus, je ne sais pas si ça fonctionne ainsi. J'expose simplement une méthode qui ne me semble pas tirée par les cheveux. Et quand bien même mes propos seraient totalement "idiots" (ce qui est peut-être le cas), nous pouvons en discuter, en débattre. N'est-ce pas là le but d'un forum ?

    Quoi qu'il en soit, rien ne t'autorises à te montrer injurieux vis a vis de mes pensées, d'autant que ma reflexion se base tout de même sur les cours de spécialistes de fouilles de texte que j'ai eu la chance de suivre récemment... Preuve que ça ne doit pas être si crétin que ça...

    Désolé, mais ton concept est trop simpliste pour me satisfaire...

    Tout d'abord, je dirai que je ne suis pas là pour te satisfaire. Ensuite, expliques pourquoi tu trouves le concept trop simpliste ! Car en ces termes, ta contribution ne sert à rien...

  8. réponse à affiner en fonction de tes paramètres, mais le principe est de modifier les paramètres d'apaches, avec des directives allow et deny. En gros, il faut interdire l'acces aux dossier contenant les wma pour tout le monde, et l'accepter uniquement pour les utilisateurs venant de ton nom de domaine

    <Directory /rep_wma>
    Order Deny,Allow
    Deny from all
    Allow from ton_domaine.com
    </Directory>

    Pour plus d'info :

    http://httpd.apache.org/docs/2.0/fr/mod/mo...cess.html#allow

  9. Un script sans base est très pratique à installé, mais beaucoup moins performant qu'un script avec une base. De plus, un script sans base ne va considérer lors d'une recherche que les pages liées directement ou indirectement (par des pages intermédiaires) à la racine du site (index.html ou index.php). Ce phénomène peut être génant si jamais tu possède des pages qui ne sont pas liés à l'instant de la recherche (ce qui est très rare, je te l'accorde :)).

    Pourquoi tiens-tu absolument à te passer d'une base ? Problème technique ou de connaissance ?

  10. Dans la fonction date() de PHP, il existe bien le paramètre W pour obtenir le numéro de la semaine à partir d'un timestamp, mais je n'ai pas trouvé de réciproque :(.

    Je pense donc que le plus simple est de partir du premier jour de l'année, d'avancer dans l'année pour obtenir le bon numéro de semaine. Une fois qu'on a une date appartenant à la semaine x, tu regardes de quel jour il s'agit (par exemple mercredi), et tu retranches les jours nécessaires pour obtenir le lundi précédent, et le dimanche suivant...

    C'est pas super comme solution, mais elle permet de profiter du calcul déjà implémenté de date(), mais en y allant à tâtons ...

  11. Pour une question de sécurité, on ne peut avoir accès à ces paramètres du navigateur.

    Mais si il ne s'agit que de "plus", ça ne doit pas être très grave si le javascript n'est pas activé. C'est plus génant lorsque la navigation est faite en javascript (ce qui est une très grave erreur niveau référencement).

  12. Je viens de soumettre mon sitemap à google, je vous tiendrai au courant pour le temps que ça prend...

    J'ai été un peu bête quand même de ne pas l'avoir fait plus tôt, car le spider de google est passé le 28 janvier sur mon site alors qu'il n'y avait pas de sitemap.xml. Si il y en avait eu un, l'ensemble de mon site aurait été crawlé immédiatement, alors qu'actuellement, il n'y a que la page d'accueil :(

×
×
  • Create New...