teaching:progappchim:pandas

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révisionLes deux révisions suivantes
teaching:progappchim:pandas [2019/03/11 07:28] villersdteaching:progappchim:pandas [2019/03/25 12:17] – [Références] villersd
Ligne 14: Ligne 14:
  
 ===== Applications, exemples ===== ===== Applications, exemples =====
 +
 +==== Préambule : variable aléatoire et distributions ====
 +
 +De nombreuses grandeurs mesurées suivent une loi de distribution normale pour leur probabilité : //cf.// [[wp>fr:Loi_normale|Loi normale]]
 +
 +Voir aussi les documents de statistique élémentaire (niveau licence, France) sur le site [[http://wikistat.fr/|wikistat.fr]]
 +
 +  * **Variable aléatoire** : une variable aléatoire $X$ est définie sur l'espace des observables (espace des événements possibles). À chaque valeur possible $x$ correspond une probabilité $P(x)$ que $X$ soit égale à $x$
 +    * Variable aléatoire discrète : si $x_1, x_2, x_3, ...$ constitue l'ensemble discret des valeurs possibles de $X$, les $P(x_i)$ forment la **distribution de probabilité** de la variable aléatoire $X$
 +    * Variable aléatoire continue : si $x$ peut varier continûment, $P(x)$ est la densité de probabilité que la variable prenne une valeur comprise entre $x$ et $x+dx$. L'unité de $P(x)$ est donc en inverse de celle de l'espace des $x$ et seul $P(x) dx$ a la dimension d'une probabilité (nombre)  : $P(x) dx = P(x \le X < x+dx)$
 +    * Positivité :
 +      * $P(x_i) \ge 0$ pour tout $x_i$ (variable aléatoire discrète)
 +      * $P(x) \ge 0$ pour tout $x$ (variable aléatoire continue)
 +    * Normalisation :
 +      * $\sum_{x_i} P(x_i) =1$ (variable aléatoire discrète)
 +      * $\int_{\Omega} P(x) dx = 1$ (variable aléatoire continue)
 +  * Toute l'information sur une expérience est contenue dans la distribution $P(x)$}
 +  * Une description **équivalente** est donnée par l'ensemble de toutes les grandeurs caractéristiques appelées {\bf moments de la distribution} :
 +    * $<X^n> = \sum_i x_i^n P(x_i)$ (variable aléatoire discrète, avec n fini)
 +    * $<X^n> = \int_{\Omega} x^n P(x) dx$ (variable aléatoire continue, avec n infini)
 +  * Une description **simplifiée** est obtenue en ne tenant compte que de quelques plus petites valeurs de n :
 +    * Premier moment: moyenne $<X>$ (ou [[http://fr.wikipedia.org/wiki/Esp%C3%A9rance_math%C3%A9matique|espérance mathématique]])
 +    * Second moment: largeur de la distribution ([[http://fr.wikipedia.org/wiki/Variance_%28statistiques_et_probabilit%C3%A9s%29|variance]] $\sigma^2$)
 +    * Troisième moment : asymétrie ([[http://fr.wikipedia.org/wiki/Skewness|skewness]])
 +    * Quatrième moment : aplatissement ([[http://fr.wikipedia.org/wiki/Kurtosis|kurtosis]])
 +    * ...
 +  * Les deux premiers moments
 +    * **Valeur moyenne ou espérance**
 +      * $<X> = \sum_i x_i \ P(x_i)$ ou $<X> = \int_{{\Omega}} x \ P(x) dx$ avec ${\Omega}$ le volume de l'espace des phases/observables
 +    * **Variance**
 +      * La variance $Var(X)$ ou $\sigma^2$ caractérise la largeur de la distribution (ou l'écart à la moyenne) : $\sigma^2 = <(X - <X>)^2> = <X^2> - <X>^2$. La racine carrée est l'écart type, $\sigma$.
  
 ==== Statistiques sur les dimensions des humains (body dimensions) ==== ==== Statistiques sur les dimensions des humains (body dimensions) ====
 +
 Programme basé sur [[http://jse.amstat.org/v11n2/datasets.heinz.html|Exploring Relationships in Body Dimensions]]. Programme basé sur [[http://jse.amstat.org/v11n2/datasets.heinz.html|Exploring Relationships in Body Dimensions]].
  
Ligne 145: Ligne 177:
   * [[https://mubaris.com/2017-09-25/python-data-analysis-with-pandas|Python Data Analysis with pandas]]   * [[https://mubaris.com/2017-09-25/python-data-analysis-with-pandas|Python Data Analysis with pandas]]
   * [[https://www.edureka.co/blog/python-pandas-tutorial/|Python Pandas Tutorial : Learn Pandas for Data Analysis]]   * [[https://www.edureka.co/blog/python-pandas-tutorial/|Python Pandas Tutorial : Learn Pandas for Data Analysis]]
 +  * [[https://medium.com/dunder-data/minimally-sufficient-pandas-a8e67f2a2428|Minimally Sufficient Pandas]]
   * [[https://towardsdatascience.com/python-for-data-science-8-concepts-you-may-have-forgotten-i-did-825966908393|Python for Data Science: 8 Concepts You May Have Forgotten]]   * [[https://towardsdatascience.com/python-for-data-science-8-concepts-you-may-have-forgotten-i-did-825966908393|Python for Data Science: 8 Concepts You May Have Forgotten]]
   * [[https://towardsdatascience.com/23-great-pandas-codes-for-data-scientists-cca5ed9d8a38|23 great Pandas codes for Data Scientists]]   * [[https://towardsdatascience.com/23-great-pandas-codes-for-data-scientists-cca5ed9d8a38|23 great Pandas codes for Data Scientists]]
  • teaching/progappchim/pandas.txt
  • Dernière modification : 2022/11/15 10:08
  • de villersd