We are your futur    —  Guybrush

Discussions

Vignettes accompagnant les billets

Guybrush 8349 Bob
Je sais que Tchou va hurler quand il va voir ça sur la page d'accueil, mais c'est un test actuellement, et uniquement un test ;-)

Partant du principe qu'il n'était pas toujours simple de s'y retrouver dans les billets proposés, notamment pour identifier en un coup d'oeil quels étaient les potentiels billets déjà lus et/ou intéressants, j'ai tenté une approche différente de la "petite icône trop discrète indiquant le type de billet proposé".

L'idée est ici d'aller récupérer un screenshot du site concerné par le billet et de l'afficher. Je trouve le résultat actuellement plutôt moyen (notamment parce que cela ne donne strictement rien pour les vidéo youtube, qui constituent pourtant une majorité des billets proposés). Je réfléchis encore à d'autres solutions, mais je laisse la page d'accueil avec ces vignettes le temps de réfléchir à tout cela, et d'avoir vos avis sur la question.

Soyez cependant rassurés : ça ne restera pas en l'état vu la "qualité" des vignettes...
Sysson 1402 Spammeur
J"ai eu peur aussi en me loguant, je me suis dit "ho mon dieu, Lexpage s'est fait deface!
Guybrush 8349 Bob
Ouais, c'est plutôt moche comme c'est pour l'instant :-D

Pour YouTube, on dirait que c'est le réseau OVH qui s'est fait blacklister. Vu que c'est le VPS qui s'occupe d'aller récupérer le rendu (via PhantomJS pour la petite histoire), je ne suis pas sûr de pouvoir contrôler le résultat...
Tchou 3556 Bob
Ouais, pour le moment c'est assez tragique, on ne voit que les pubs des sites ou les captcha ... autant dire que ça n'incite absolument pas à cliquer !

En fait, ce dont tu as besoin, c'est de l'image représentative de l'article principal de la page que tu demande. Le soucis c'est que c'est facile à faire pour des contenus qui sont à toi, là tu ne sais pas sur quel site tu vas donc t'as plus de chances de louper que d'être bon !

edit : je sais que ça ressemble à du rabachage, mais en fait la fonction existe chez reddit, du coup : github.com/reddit/reddit… ? Est-ce qu'il n'y aurai pas des idées à piocher là pour voir comment ils s'en sont sortis ? Le soucis étant qu'énormement de leurs topics dépendent d'une image ou d'une vidéo (et là c'est facile), quand c'est un article de journal ou un github, on a une image décrivant l'auteur plus que l'article. Et ils ont peut être plus de puissance de calcul qu'un VPS à deux euros pour le scrapping ! :D


Ce message a été modifié 1 fois. Dernière modification : 15 juin 2015 à 15:44 par Tchou.

Guybrush 8349 Bob
Je vais remettre l'ancienne page d'accueil. Pour ceux qui veulent voir l'étendue de l'horreur :


@Tchou> Je vais voir ce qu'ils proposent sur Reddit.
Merle 285 Jedi
À noter que Facebook a une fonctionnalité similaire quand on link un site qui contient des images, et ils proposent même de choisir quelle image afficher s'il y en a plusieurs. Ça a probablement été débattu sur le web ce genre d'outil :-)
Guybrush 8349 Bob
Tchouquand c'est un article de journal ou un github, on a une image décrivant l'auteur plus que l'article. Et ils ont peut être plus de puissance de calcul qu'un VPS à deux euros pour le scrapping ! :D
MerleÀ noter que Facebook a une fonctionnalité similaire quand on link un site qui contient des images, et ils proposent même de choisir quelle image afficher s'il y en a plusieurs. Ça a probablement été débattu sur le web ce genre d'outil :-)
L566 dans le code linké par Tchou, ça repose sur :
1. OpenGraph pour identifier une image "pertinente" selon l'auteur du contenu,
2. Un <link rel> dans l'entête,
3. La plus grosse image pas trop déformée disponible sur la page

C'est un poil plus efficace que l'algo de Facebook qui prend l'image la plus proche de ce qu'ils identifient comme étant le "contenu de la page" (par ex, sur Lexpage, ils prennent l'avatar de l'auteur du billet) mais ça reste encore un peu hasardeux. Notamment, pour Youtube, ça ne marchera pas (mais là, y a l'embed qu'on peut utiliser).

Je pense qu'il faudrait une solution hybride : identifier le div contenant l'information pertinente, et ne faire qu'un rendu de ce div via PhantomJS et s'en servir pour une prévisualisation. Dans tous les cas, vu qu'OVH semble avoir été "blacklisté" par YouTube, à moins de passer par un proxy, il ne me sera pas possible de faire du rendu de page (ou du parsing) sans traiter ce cas particulier "à la main".

Répondre

Vous devez être inscrit et identifié.