Python : apprentissage, ide, etc

Discussions

yaug 1656 Spammeur

5 septembre 2018 à 11:23

Reprise automatique du message précédent.

Pour la génération de pdf, je suis tombé sur ce lien où jinja est utilisé justement.
La solution proposé me plait pas mal.

Guybrush 8995 Bob

5 septembre 2018 à 12:15

Je ne connaissais pas Weasyprint. Mais ça a l'air d'être la même philosophie que ce que je propose ci-dessus : tu génères tes fichiers "sources" via Jinja2, et puis tu utilises un outil pour convertir le résultat en PDF (Latex pour les .tex, weasyprint pour les .html). Je pense que c'est en effet le plus simple (et Jinja2 est vraiment très simple et sympa à utiliser, une fois que tu y as gouté, tu as envie de l'utiliser un peu partout

yaug 1656 Spammeur

5 septembre 2018 à 14:02

Yeap jinja a l'air sympa.
Je garde cela sous le coude.

Pour le moment j'essaye de piger pandas car je vais m'en manger un max vu que mon taff se base sur des fichiers excel à la pelle.

Guybrush 8995 Bob

5 septembre 2018 à 14:27

Pandas est à la fois simple et complexe. C'est simple de créer/interroger un DataFrame, mais c'est complexe à utiliser "proprement" de sorte à avoir un code simple à lire, relire et modifier. Surtout si tu dois cumuler les transformations, et que tu dois produire des graphiques en sortie.

Une astuce sympa en terme d'écriture, et qui permet de garder un code relativement lisible est d'éviter la multiplication des variables/df autant que possible, par exemple en chainant les opérations.

Les méthodes pratiques pour ça, c'est .assign qui permet de créer/écraser des colonnes sur base d'autres colonnes à la volée, ou encore .pipe qui permet d'appliquer un traitement à la volée sur un dataframe. Les deux prennent un callable en paramètre :

df.assign(new_column=lambda df: df['old_column'] * 2) par exemple, ou encore df.pipe(lambda df: 2 * df (le premier crée une nouvelle colonne qui est le double d'une autre, le second crée un df où tout est doublé).

Une astuce sympa aussi est que l'indexation (via [....]) accepte aussi un callable qui, une fois appelé, doit retourner une série de booléens. Les "True" servent à indiquer quels indexes doivent être conservés. On peut donc assez facilement sélectionner des rows de façon avancée : df[lambda df: df['col'] >= 0]. Si on veut plus de lisibilité, il y a aussi .query qui permet d'écrire la requête sous forme de texte, par exemple df.query('col >= 0'). Dépendant de l'usage, l'un est plus approprié/lisible que l'autre.

Quand tu as ça, tu peux facilement cumuler des choses :

new_df = (
  old_df
  [lambda df: df['column'] >= 0]
  .assign(new_column=....)
  .pipe(lambda df: 
    df.merge(other_df, .....)
  )
  .assign(somme=lambda df: df.sum(axis=1))
  ....
)

Ainsi, toutes tes transformations/manipulations sont faites "d'une seule traite", et tu stockes juste le résultat fini dans une variable (et les opérations intermédiaires disparaissent de la mémoire et ne pourrissent pas le namespace). Avec cette approche (et l'indentation/retour à la ligne), tu peux même facilement intégrer des commentaires pour expliquer chaque "étape" intermédiaire :

new_df = (
  old_df
  # Keep positive values
  [lambda df: df['column'] >= 0]
  # Create a new column that is the result of...
  .assign(new_column=....)
  # Merge dataframe with ...
  .pipe(lambda df: 
    (2 * df).merge(other_df, .....)
  )
  # Sum everything line by line
  .assign(sum=lambda df: df.sum(axis=1))
  ....
)

Les commentaires peuvent paraître redondants avec le code dans cet exemple, mais la multiplication des fonctions lambda rend parfois la lecture du code difficile, alors un commentaire n'est jamais de trop dans ces cas-là

yaug 1656 Spammeur

5 septembre 2018 à 14:55

Pour en ce moment même étudier et comprendre un process de calcul financier et ne me basant juste sur le code produit (sans commentaires), oui c'est à la fois simple et compliqué pandas :D
Surtout quand tu n'as pas l'habitude des notations pythons du genre : df.assign(new_column=lambda df: df['old_column'] * 2)

ça a l'air d'être un outil puissant et les quelques blogs que je trouve là dessus me font penser qu'une fois passé le double gap de l'apprentissage de python et de pandas, je devrais pouvoir faire quelques trucs sympa.
Mais pour le moment je suis en cours de descente dans ces 2 gaps :d

Guybrush 8995 Bob

5 septembre 2018 à 16:24

yaugSurtout quand tu n'as pas l'habitude des notations pythons du genre : df.assign(new_column=lambda df: df['old_column'] * 2)

Bon, ça ne va pas fondamentalement t'aider, mais ça donne des pointeurs

df -> la variable (un dataframe, par convention "df")
.assign -> la méthode pour "assigner des nouvelles colonnes"
(new_column=) -> Python supporte le passage de paramètres par position ou par nom, et dans les deux cas, on peut récupérer tout ça sous forme de liste ou de mapping param->value, donc ici, "new_column" est récupéré comme clé du mapping et la lambda derrière est la valeur, ce qui permet à pandas de comprendre qu'il doit créer une nouvelle colonne du nom "new_column" dont la valeur est défini par la lambda (une fonction anonyme).
lambda .... -> fonction anonyme, dans le cas présent, la fonction reçoit un paramètre (le dataframe sur lequel on appelle .assign) et retourne une série de données (les valeurs de la colonne qu'on souhaite créer).
df['old_column'] -> le ['old_column'] est un "get index" en Python (en gros, ce que tu passes entre "[]" est donné en paramètre à une fonction définie sur le dataframe. Dans le cas présent, c'est une chaîne de caractères et pandas comprend que ça veut dire "j'veux toute la série de donnée dans la colonne 'old_column').

yaug 1656 Spammeur

6 septembre 2018 à 15:06

Nouvelle question.
Pour ce qui est d'Elasticsearch le client semble pas mal, donc je ne vais pas avoir trop de problèmes.

Je vais sans doute avoir aussi besoin d'utiliser une base MySQL, et du coup, je cherche un ORM valable. J'ai vu passer peewee notamment, mais avez vous des recommandations autres ?

Guybrush 8995 Bob

6 septembre 2018 à 16:26

Le plus complet/complexe est sans doute celui d'SQLAlchemy. Mais il est complexe (la lib est complexe, mais c'est la plus complète qu'on puisse trouver, quelque soit le langage).

Personnellement, j'ai pas mal aimé l'ORM de Django, mais je ne pense pas qu'il puisse être utilisé "facilement" en dehors du cadre de Django. A part ça, j'aime pas les ORM en général, mais je me suis beaucoup intéressé à Peewee pendant tout un moment parce que c'est plutôt élégant, bien pensé, et que le gars est sympa

Je me souviens qu'y avait un truc qui m'avait embêté c'était le fait de devoir passer la "database" lors de la création des modèles (donc en gros, tu devais avoir une ref vers la db en "static" dans le code). Je ne sais pas si ça a changé (le projet a évolué depuis que j'ai vu ça), mais je sais que ça peut se contourner (je n'ai jamais essayé, mais en gros, c'est une sorte d'injection de dépendance à faire, donc il doit y avoir moyen de s'en sortir très élégamment à coup de décorateurs ou autre).

TL;DR: Oui, je te conseille Peewee si tu ne peux pas te passer d'un ORM.

Dans les alternatives sympa (mais à nouveau, j'ai *pas* testé !!), y a PoneyORM qui utilise la syntaxe des générateurs en Python pour faire les requêtes. Ca avait l'air assez sympa mais ce qui m'avait un peu "refroidi", c'est le fait que la lib fait une introspection du code à la volée pour justement convertir ces expressions, ce qui donne un peu l'impression d'un "bricolage".

yaug 1656 Spammeur

6 septembre 2018 à 16:53

Pour peewee de ce que j'ai vu ouaip il faut toujours injecter la db dans ton model. Je n'aime pas trop non plus mais le reste a l'air sympa tout de même et je vais sans doute m'orienter vers ça.

Guybrush 8995 Bob

6 septembre 2018 à 17:00

Si mes souvenirs sont bons, il est possible de déclarer un proxy comme database afin de ne pas avoir à établir la connexion lors de la "création" des modèles (on se comprend), ce qui permet de changer la valeur de cette dernière au runtime.

La façon la plus simple de gérer la database est de simplement la déclarer dans un fichier (genre "conf.py"), et ensuite d'importer ce module dans chaque fichier où tu déclares un modèle. Dans ton "module principal" (où tu orchestres tout), tu charges conf et tu remplaces à la volée la db à utiliser (via le mécanisme de proxy ou autre) avant d'établir la connexion.

C'est juste "moche" qu'on ne puisse pas faire une vraie injection de dépendances dans Peewee (bon, on peut s'en sortir tout de même en utilisant des meta-classes ou des décorateurs, mais on a toujours besoin d'importer quelque chose systématiquement pour chaque modèle de données "juste pour ça").

yaug 1656 Spammeur

12 septembre 2018 à 16:42

Bon, je suis confronté à une erreur qui semble commune mais que je n'arrive tout de même pas à gérer.
J'ai un fichier excel que je suis en train d'importer en base.
J'ai une des colonnes qui s'appelle "20_Contract size for derivatives"

Au niveau des valeurs, cela va souvent être vide, et parfois j'aurais un chiffre : 1, 100000, 34561.8

Je lis mon fichier avec pandas et je boucle les lignes de mon dataframe pour utiliser les données.
Je pensais pouvoir faire un row['20_Contract size for derivatives'] mais il me sort toujours une erreur :
KeyError: '20_Contract size for derivatives'
Alors même que j'ai bien une entrée à ce nom si je fais un print(row) :
20_Contract size for derivatives NaN

Si je comprend bien ma problématique, c'est qu'il considère que je ne peux pas accéder à ma colonne si j'ai une valeur nulle.
Du coup je suis passé par row.get('20_Contract size for derivatives')
Cela me renvoie un None, parfait.

Sauf qu'en fait non.
Si dans mon tuple j'ai cette valeur :

20_Contract size for derivatives                                                            1

et que je cherche à afficher le contenu de la colonne, j'ai quand même un "None" et l'accès en mode tableau me renvoie tout de même une KeyError

Une idée ?
Cela doit être évident mais ça fait une heure que je patine juste sur cette colonne, du coup j'ai du mal comprendre un truc je pense.
Merci :)

Ce message a été modifié 1 fois. Dernière modification : 12 septembre 2018 à 16:43 par yaug.

page 3 sur 11

...

Répondre

Vous devez être inscrit et identifié.

Minichat

mardi 22 jul.

13h20 On a quand même notre petite polémique de fête nationale avec un premier ministre et le ministre de la défense qui refusent de dire

13h20 vive la Belgique

lundi 21 jul.

20h23 On va rester modeste et faire ça un 29 février

20h15 The Corbeille Sacrée Show Day le 24 décembre ?

09h45 Merci ! A quand la fête nationale lexpagienne ?

09h45 Avec jour férié évidemment !

09h11 Joyeuse fête nationale aux lexpagiens belges !

dimanche 20 jul.

14h16 Quitter la Normandie sous la pluie et rentrer en Belgique sous la pluie. Ça va, le dépaysement est gérable

vendredi 18 jul.

13h03 Les prix ne font qu'augmenter alors que la qualité ne suit pas toujours. Tu es vite à 30e pour une petite pièce de viande

13h03 Le vin en bouteille c'est vite 40e pour le premier prix, 30 pour un pichet

13h04 Par contre les apero et Irish sont souvent à 8e contre 10-12 en France

11h15 J'avoue que les prix de Belgique m'avaient fait bizarre, c'était les prix de Paris avec 10€ pour de l'eau comme tu dis

09h32 C'est qu'une fois par an, on se fait plaisir

08h23 C'est la belle vie dans la famille pirate 😘

jeudi 17 jul.

23h02 Pour le cidre ou même n'importe quoi hors de prix, c'est facile à trouver

23h03 Mais par contre, quel plaisir de se faire un resto sans se ruiner en vacances. Les prix en France sont facilement 25 à 50pc moins élevés qu'en

23h03 Belgique et la qualité des repas est en moyenne supérieure !

23h04 On tourne à 150e pour 4 incluant un apero, vin et dessert

23h05 Et aussi on paie pas 10e pour avoir de l'eau

18h48 Sinon, tu as Beuvron-en-Auge, c'est pas loin du tout (15km), on fait 2 photos et on y achète du cidre ou vinaigre hors de prix