Animint

  Anime & manga

 
 
“Animint traite des dessins animés japonais et du manga. Outre ce blog, le site comporte plusieurs milliers de pages de texte illustré.”

Aggregator Sama entame sa troisième année

Par le :: Webmastering

mangas , aggregator_sama

Aggregator Sama, que tout le monde appelle Sama, a maintenant deux ans. Je profite de l'occasion pour effectuer un point sur ce site satellite d'Animint mais aussi pour apporter quelques précisions sur son fonctionnement technique, étant données les questions récurrentes qui reviennent sur le sujet.

Sama comporte à ce jour 56 blogs inscrits dans la table de sa base de données mais seuls 43 ont eu un article publié dans l'agrégateur ces 30 derniers jours. En fait, les sites peuvent avoir sorti des billets pendant cette période mais pas dans les catégories retenues par Sama.

Le trafic via le web a augmenté depuis l'année dernière, tout en restant modestement autour de 6 000 visites par mois. Je n'ai pas mis d'outil adéquat de statistiques sur le flux RSS généré par Sama – pour que l'ensemble reste le moins intrusif possible – mais les fichiers de log brutes indiquent une population équivalente  via les clients RSS.

Abordons maintenant la partie technique de l'article. J'ai opté pour développer ma propre application pour coller aux fonctionnalités ce que je souhaitais, tout en m'appuyant sur des bibliothèques de code, notamment pour analyser les flux RSS des blogs et en extraire les articles. Au début, j'ai utilisé Magpierss avant de basculer vers SimplePie, qui est quand même plus récent et complet.

Chaque blog a son entrée dans une base de données avec quelques éléments clefs: L'url de son flux RSS, le filtre sur les catégories, la date de dernière interrogation du flux et le délai d'attente entre deux mises à jour.

Quand un blog commence visiblement à se tarir et à avoir du plomb dans l'aile, j'espace la fréquence des mises à jour. Il est inutile d'aller interroger un flux RSS toutes les heures, quand son auteur publie seulement un article par mois.

C'est le visiteur lambda qui lance un cycle de mise à jour, en navigant sur Sama via le web. Pas à chaque fois mais suffisamment souvent pour  que le système fonctionne. Quand il est déclenché, le programme regarde les flux dont les heures de mise à jour sont les plus anciennes puis vérifie si le délai d'attente est dépassé. Si le temps est expiré, il lit le flux et rajoute les articles, s'il en trouve des nouveaux. Sinon, il passe au traitement du blog suivant.

Techniquement, le filtre associé au blog est une chaîne de caractères que je positionne manuellement au moment de l'inscription du site. Il faut que la catégorie d'un article corresponde à une partie de la chaîne pour être inclus dans le flux principal, sinon l'article est inséré mais marqué comme étant filtré. Il reste accessible via les flux personnalisés.

Le filtre procède d'un choix "éditoriale" pour écarter les articles sur le hentai et les jeux vidéo en général. En fait, la frontière n'est pas si nette et ce n'est pas uniquement une question de thèmes. Il m'arrive ainsi de ne retenir qu'un blog sur un sujet et de blacklister les catégories équivalentes chez les autres, pour éviter les billets multiples sur la même actualité, de manière récurrente. Sont particulièrement dans ce cas les actualités des éditeurs en France et les sorties de figurines.

Un petit mot aussi sur les votes et les points accordés aux articles et accumulés par les blogs. L'idée était d'avoir aussi un digg-like avec un système de notation auquel je n'ai pas touché depuis le début. Par défaut, chaque article importé dans le flux principal a un point. Le sous-produit du vote donne ainsi une idée de l'activité des blogs sur le mois et de repérer facilement les mort-vivants mais également ceux qui spamment plus qu'ils n'écrivent vraiment. Un e-penis quotidien ou des critiques bateau de six lignes sont rapidement synonymes de rajout de filtre, voir de dés inscription.
 
Sama continuera d'évoluer doucement. La première évolution est à destination des webmestres pour qu'ils sachent le contenu du filtre et qu'ils ne s'étonnent pas de voir un article absent de la liste. D'autre part, il est inutile de prévenir du changement de nom d'une catégorie si le filtre vérifie la présence d'un seul mot, du genre "manga" et que le mot est toujours dans le nouveau nom choisi. En revanche, sans connaître le contenu du filtre c'est difficile de deviner l'impact d'un changement de catégorie.

Une autre évolution devrait être le moteur de recherche pour retrouver des articles. Je pense également à une version web des flux personnalisés mais cela viendra plus tard par rapport à mes autres projets en cours et la maintenance d'Animint, qui reste le site principal à tenir à flot.


Sama deux ans

Discuter de ce billet sur le forum - - Laisser un commentaire »

Cet article vous a plu?

Faites-le connaître ou votez pour cet article sur les sites suivants :

  • anime manga aggregator sama
  • Partager sur del.li.cious
  • Partager sur Facebook
  • Partager sur Google

Commentaires sur ce billet:

  1. Le 21/06/2009 à 16:28
    Jack a dit

    Bon anniversaire Sama ! C'est toujours intéressant de savoir comment tout ça fonctionne, même si le langage technique propre au web et au codage m'est totalement inconnu :p

  2. Le 21/06/2009 à 16:35
    Amo a dit

    Bon anniversaire Sama !

    (En ce moment, y'a beaucoup d'anniversaire de blog ou de trucs divers et variés je trouve, la fin juin est une période faste pour la créativité ou quoi :p.)

  3. Le 21/06/2009 à 20:03
    Axel Terizaki a dit

    Article très sympa et intéressant qui permet de comprendre pourquoi certains articles n'apparaissent pas (exemple, celui sur le tournoi des seifuku qui a été zappé visiblement.)

    Par contre un truc que je pige pas, pourquoi tu ne fais pas un cron plutôt pour lancer ta mise à jour, par exemple toutes les heures ou toutes les deux heures? Ensuite selon la fréquence des MAJ des sites que tu as mises en place tu choisis d'updater certains flux ou pas, mais à mon avis un cron permet des msies à jour plus régulières que quand c'est quelqu'un qui visite Sama, surtout que je pense que beaucoup de gens ont mis Sama en flux RSS.

    En tous cas joyeux anniversaire à l'aggrégateur, c'est grâce à lui et Blogchan qu'on a pu former une jolie communauté :)

  4. Le 21/06/2009 à 21:22
    Suzu a dit

    Ah, je viens de comprendre quelques trucs à la lecture de cet article.
    Personnellement, j'étais parti sur la voie du spam, mais je me suis rattrapé.
    J'ai décidé de ne plus faire que des articles de fond.
    J'ai aussi réorganisé mes catégories.
    Par exemple, j'ai séparé anime et manga.
    J'espère que cette réorganisation n'est pas trop gênante.
    En tout cas elle est nécessaire.

    Bref, bon anniversaire Sama !

  5. Le 21/06/2009 à 23:33
    cdt a dit

    "Quand un blog commence visiblement à se tarir"
    Quel coup bas.

    Dommage que le système de notation reste si peu utilisé par les lecteurs à cause des abonnements au flux RSS. Bon anniv Sama.

  6. Le 22/06/2009 à 00:58
    FFenril a dit

    Joyeux anniversaire Sama ^^
    Impatient de voir les évolutions ^^

  7. Le 22/06/2009 à 17:14
    Kameyoko a dit

    Bon anniversaire Sama.

    Ce fut une vraie découverte (merci Pazu)que Sama et Blogchan. D'une part d'un point de vue purement matérialiste parce que ça permet de gagner un peu en trafic et donc plus de chances de fidéliser mais surtout parce que ça m'a permis de découvrir d'autres blogs que je lis assez régulièrement que je ne connaissais pas avant.

    Très bonne idée de départ. Bravo!

  8. Le 22/06/2009 à 17:52
    Pazu a dit

    @Jack/@Amo : Merci

    @Axel: Je n’ai pas accès facilement à la crontab dans la formule actuelle d’hébergement pour Sama. D’un autre côté, les visites sont suffisamment fréquentes – les robots comptent aussi - pour provoquer les mises à jour. C’est aussi une question d’habitude prise en entrant dans le code de phpbb qui use et abuse de ce système.

    @Suzu: J’avais intégré les changements. Du moment, que ce n’est pas tous les jours, cela reste dans mes cordes.

    @Cdt: Il faut le voir comme un lien gratuit voyons :)

    @Ffenril: Je me demande laquelle d’évolution ;)

    @Kameyoko: Cela fait partie des objectifs affichés de Sama. Content que cela fonctionne sur certains.

  9. Le 23/06/2009 à 16:46
    Garric a dit

    Joyeux anniversaire Sama. Il nous rend bien service, donc longue vie à lui.
    Ca a du être du boulot de concevoir cet aggregateur.

  10. Le 23/06/2009 à 21:29
    Enthousiaste a dit

    > écarter les articles sur le hentai
    est-ce que ça veut dire qu'un article NSFW est malvenu?

    > Une autre évolution devrait être le moteur de recherche pour retrouver des articles.
    Ce serait excellent.

    > L'idée était d'avoir aussi un digg-like
    Le problème c'est que l'aniblogosphère française n'a pas assez de débit pour donner un véritable intérêt à un Digg-like.

    Sinon, joyeux anniversaire. L'existence d'aggrégateurs comme Sama est très positive, ça permet aussi de faire connaître son blog très rapidement pour les débutant et c'est très motivant. Ensuite, il y a certains blogs dont je ne comprends pas vraiment la présence sur Sama, tout simplement parce qu'ils ne parlent pas de manga et d'animes. Le débit de ce type reste très faible, donc peu gênant, mais c'est toujours un peu étonnant.

  11. Le 25/06/2009 à 23:08
    Pazu a dit

    @Garric cela commence à devenir du boulot pour le maintenir surtout.

    @Enthousiaste Si un billet olé olé est bien dans une catégorie à part, il peut être filtré et je laisse aux gens la possibilité de l'intégrer via l'option de flux personnalisé.

    Les blogs sont en relations avec la japanimation, avec quelques digressions pour varier et encore une fois, un choix arbitraire.

  12. Le 26/06/2009 à 23:22
    Kao-chan a dit

    Contente que tu expliques comment marche le système de notation, parce que j'ai toujours cru que les lecteurs de sama étaient des éternels insatisfaits qui mettaient rarement plus d'un point à un article ^^; Ce serait pas mieux de partir de 0 étoiles ? Ou d'écrire une petite ligne pour l'expliquer dans la page à propos, histoire d'éviter ce genre de mauvaise interprétation que je ne suis sûrement pas la seule à avoir faite ?

  13. Le 27/06/2009 à 23:32
    Pazu a dit

    @Kao-chan: J'ai remis à jour la page "A propos" de Sama. Cela ne part pas de zéro pour avoir une trace de la publication dans le total de points associé à un blog, puis cela pondère la note pour tout le monde.

  14. Le 29/06/2009 à 01:36
    Ialda a dit

    Bon anniversaire Sama, et merci beaucoup pour le référencement dans l'agrégateur ! ^^

  15. Le 15/07/2009 à 19:14
    Lux a dit

    J'aime bien Sama, mais seul problème, je ne comprends pas bien le comportement du moteur de recherche. J'ai l'impression qu'il ne fonctionne pas toujours...

  16. Le 15/07/2009 à 19:57
    Pazu a dit

    @Ialda faut publier maintenant ;)

    @Lux : Aurais-tu un exemple particulier à signaler?

  17. Le 15/07/2009 à 20:06
    Lux a dit

    En fait, après une première recherche, il m'affiche à nouveau son résultat même si je change de keyword, problème du site ou de mon navigateur ?

  18. Le 15/07/2009 à 20:34
    Pazu a dit

    Ah ça, c'était un problème de cache qui s'effaçait pas. Maintenant, cela devrait mieux fonctionner.

Ajoutez votre commentaire:

Merci de bien vouloir soigner votre orthographe et de proscrire le style SMS.


Le code HTML est affiché comme du texte et les adresses web sont automatiquement transformées.

 

↑ Haut de page