Chapitre 3 Comment utiliser la documentation utilitR
3.1 Contenu de la documentation
Cette documentation vise à aider les agents à réaliser des traitements statistiques usuels avec R
et à produire des sorties (graphiques, cartes, documents). Cette documentation présente succinctement les outils les plus adaptés à ces tâches, et oriente les agents vers les ressources documentaires pertinentes. Elle veille en outre à être cohérente avec les recommandations émises par le comité de certification des packages R
(COPS). En revanche, elle n’aborde pas les outils les plus avancés, notamment ceux utilisés dans un cadre de développement logiciel.
Trois points importants sont à noter :
-
Cette documentation recommande les outils et les packages les plus adaptés au contexte d’utilisation de
R
à l’Insee. Ces recommandations ne sont pas nécessairement adaptées à d’autres contextes, et pourront évoluer lorsque ce contexte évoluera. - Cette documentation ne prétend pas être exhaustive ou sans erreurs. Elle doit être vue comme une mise en commun des connaissances sur
R
que les agents de la statistique publique ont accumulées dans le cadre de leurs activités. -
Cette documentation recommande d’utiliser
R
avec RStudio, qui apparaît comme la solution la plus simple et la plus complète pour un usage courant deR
, et qui est par ailleurs le choix effectué par l’Insee.
3.2 Structure de la documentation
La documentation utilitR
est composée de fiches regroupées en deux grandes parties :
- La première partie explique comment utiliser
R
et RStudio et les outils associés (git
, Gitlab) dans les environnements informatiques proposés à l’Insee (AUSv3 et SSP Cloud). - La seconde partie est constituée de fiches thématiques expliquant comment réaliser des tâches standards avec
R
(importation et manipulation de données, exploitation d’enquêtes, réalisation de graphiques, rédaction de documents…).
3.3 Contenu des fiches
Chaque fiche porte sur une tâche précise, décrite dans le titre et éventuellement dans les premières lignes. Elle indique quels sont les packages adaptés pour réaliser la tâche en question, et en présente en détail les principales fonctions. Les fiches n’ont toutefois pas la prétention d’être exhaustives ; c’est pourquoi des références figurent à la fin de chaque fiche de façon à orienter le lecteur vers des ressources plus détaillées.
Par ailleurs, les fiches comportent trois types de paragraphes mis en évidence par une icône et une couleur, afin de faciliter la lecture et le repérage des informations importantes.
Nom | Symbole | Signification |
---|---|---|
Recommandation | Ce paragraphe présente succinctement les outils et les approches les plus adaptés à la tâche concernée. Chaque fiche ne comprend qu’un seul paragraphe de ce type, au début de la fiche. | |
Conseil | Ce paragraphe détaille les bonnes pratiques à adopter. | |
Remarque | Ce paragraphe donne des informations supplémentaires ou formule une mise en garde. | |
Spécificité Insee |
Ce paragraphe porte sur une spécificité de l’Insee qui a un impact sur l’usage de R .
|
3.4 Des exemples reproductibles
Même si certains lecteurs ont uniquement besoin de parcourir une fiche pour s’en imprégner, d’autres éprouveront le besoin d’exécuter des exemples de code pour se les approprier. C’est pourquoi la documentation utilitR
propose un grand nombre d’exemples reproductibles. Cela signifie qu’en chargeant les packages indiqués dans chaque fiche, le lecteur pourra exécuter le code des exemples présentés et reproduire le même résultat.
Les exemples sont facilement repérables par leur mise en page. Voici un exemple :
resultat <- 1 + 1
resultat
Le résultat de l’exécution d’un exemple est également facile à repérer. Voici le résultat de l’exemple précédent (qui s’affichera dans la console) :
## [1] 2
3.5 Le package doremifasolData
Afin de se rapprocher le plus possible des situations de travail rencontrées par les agents de l’Insee, la plupart des exemples de la documentation utilitR
reposent sur des données produites par l’Insee. Ces données sont soit directement disponibles sur le site de l’Insee, soit construites à partir de données disponibles sur le site de l’Insee.
Ces jeux de données sont mis à disposition par l’intermédiaire d’un package nommé doremifasolData
développé par les contributeurs du projet utilitR
. La documentation détaillée de ce package est disponible sur GitHub.
Voici la liste des tables disponibles dans doremifasolData
:
Table | Description |
---|---|
bpe_ens_2018 | Base Permanente des Équipements 2018 |
cog_com_2019 | Code Officiel Géographique 2019 |
data_iris_paris_2017 | Données sociales sur les IRIS de Paris 2017 |
filosofi_com_2016 | Données sur les revenus et la pauvreté en 2016, niveau communal |
filosofi_epci_2016 | Données sur les revenus et la pauvreté en 2016, niveau EPCI |
Le package tire son nom de son “grand frère”, le package doremifasol
. Ce package a pour finalité de charger dans R
des données disponibles sur le site de l’Insee, sans que l’utilisateur n’ait ni à naviguer sur ce site, ni à effectuer l’import des données. Tous les jeux de données présents dans doremifasolData
ont été téléchargés avec doremifasol
.
3.5.1 Comment installer le package
doremifasolData
Le package
doremifasolData
n’est pas disponible sur le répertoire central des packagesR
(le CRAN). Voici comment installer le package :Si vous utilisez
R
sur un autre ordinateur ou sur le SSP Cloud, il faut exécuter la commande suivante :Si vous utilisez
R
sur un poste Insee (y compris en télétravail) ou dans l’environnement de travail AUS, il faut exécuter la commande suivante :