Tutoriel de programmation R

Vous voulez pour débutant à expert R Programmer rapidement? R est l'un des meilleurs langages de programmation pour travailler avec les statistiques, les mathématiques et la science des données. Ce tutoriel vous aidera à apprendre R et à construire votre premier modèle de machine learning. Commençons.

Compiler et exécuter R à partir de la ligne de commande

Les deux façons d'exécuter des programmes R sont : un script R, qui est largement utilisé et est le plus préféré et le second est R CMD BATCH, ce n'est pas une commande couramment utilisée. Nous pouvons les appeler directement depuis la ligne de commande ou tout autre planificateur de tâches.

Vous pouvez éventuellement appeler ces commandes à partir d'un shell intégré à l'IDE et de nos jours, l'IDE RStudio est livré avec des outils qui améliorent ou gèrent le script R et les fonctions R CMD BATCH.

La fonction source() dans R est une bonne alternative à l'utilisation de la ligne de commande. Cette fonction peut également appeler un script, mais pour utiliser cette fonction, vous devez être dans l'environnement R.

Ensembles de données intégrés en langage R

Pour répertorier les ensembles de données intégrés à R, utilisez la commande data(), puis recherchez ce que vous voulez et utilisez le nom de l'ensemble de données dans la fonction data(). Comme les données (nom de la fonction).

Afficher les ensembles de données dans R

Le point d'interrogation (?) pourrait être utilisé pour demander de l'aide pour les ensembles de données.

Pour tout vérifier, utilisez le résumé ().

Plot () est également une fonction utilisée pour tracer des graphiques.

Créons un script de test et exécutons-le. Créer p1.R fichier et enregistrez-le dans le répertoire personnel avec le contenu suivant :

Exemple de code :

 # Code hello world simple dans R print("Hello World!") print("LinuxHint") print(5+6)

Courir Bonjour tout le monde

Trames de données R

Pour stocker des données dans des tables, nous utilisons une structure dans R appelée a Trame de données. Il est utilisé pour lister les vecteurs de longueur égale. Par exemple, la variable suivante nm est un bloc de données contenant trois vecteurs x, y, z :

x = c(2, 3, 5) y = c("aa", "bb", "cc") z = c(TRUE, FALSE, TRUE) # nm est une trame de données nm = data.cadre(n, s, b)

Il existe un concept appelé IntégréLes trames de données dans R aussi. mtcars est un tel cadre de données intégré dans R, que nous utiliserons comme exemple, pour notre meilleure compréhension. Voir le code ci-dessous :

 > mtcars mpg cyl disp hp drat wt… Mazda RX4 21.0 6 160 110 3.90 2.62… bus RX4 Wag 21.0 6 160 110 3.90 2.88… Datsun 710 22.8 4 108 93 3.85 2.32…

cadre de données bulitin mtcars

L'en-tête est la première ligne du tableau qui contient les noms de colonnes. Les lignes de données sont données par chaque ligne horizontale ; chaque ligne commence par le nom de la ligne, puis suivie des données réelles. Le membre de données d'une ligne est appelé une cellule.

Nous saisirions les coordonnées de la ligne et de la colonne dans un seul crochet '[]' pour récupérer les données dans une cellule. Pour séparer les coordonnées, nous utilisons une virgule. La commande est indispensable. La coordonnée commence par la ligne puis la virgule et se termine par la colonne. Valeur de cellule de 2^sd rangée et 1^st colonne est donnée par :

 > mtcars[2, 2] [1] 6

Nous pouvons également utiliser le nom de la ligne et de la colonne au lieu des coordonnées :

 > mtcars["Bus RX4", "mpg"] [1] 6

La fonction nrow est utilisée pour trouver le nombre de lignes dans le bloc de données.

 > nrow(mtcars) # nombre de lignes de données [1] 32

La fonction ncol est utilisée pour trouver le nombre de colonnes dans un bloc de données.

 > ncol(mtcars) # nombre de colonnes [1] 11

Boucles de programmation R

Dans certaines conditions, nous utilisons des boucles lorsque nous voulons automatiser une partie du code, ou nous voulons répéter une séquence d'instructions.

Boucle for dans R

Si nous voulons imprimer les informations de ces années plus d'une fois.

 print(paste("L'année est", 2000)) "L'année est 2000" print(coller("L'année est", 2001)) "L'année est 2001" print(coller("L'année est", 2002) ) "L'année est 2002" print(paste("L'année est", 2003)) "L'année est 2003" print(paste("L'année est", 2004)) "L'année est 2004" print(coller(" L'année est", 2005)) "L'année est 2005"

Au lieu de répéter notre affirmation encore et encore si nous utilisons pour boucle ce sera beaucoup plus facile pour nous. Comme ça:

 for (année en c(2000,2001,2002,2003,2004,2005)) print(paste("L'année est", année))  "L'année est 2000" "L'année est 2001" "L'année est 2002" "L'année est 2003" "L'année est 2004" "L'année est 2005"

Alors que la boucle en R

 while (expression)  instruction

Si le résultat de l'expression est VRAI, le corps de la boucle est entré. Les instructions à l'intérieur de la boucle sont exécutées et le flux revient pour évaluer à nouveau l'expression. La boucle se répétera jusqu'à ce que l'expression soit évaluée à FAUX, auquel cas la boucle se termine.

Exemple de boucle while :

 # i est initialement initialisé à 0 i = 0 tandis que (i<5)  print (i) i=i+1  Output: 0 1 2 3 4

Dans la boucle while ci-dessus, l'expression est je<5qui mesure à VRAI puisque 0 est inférieur à 5. Par conséquent, le corps de la boucle est exécuté, et je est sorti et incrémenté. Il est important d'augmenter je à l'intérieur de la boucle, il satisfera donc à la condition à un moment donné. Dans la boucle suivante, la valeur de je est 1, et la boucle continue. Il se répétera jusqu'à ce que je est égal à 5 lorsque la condition 5<5 reached loop will give FALSE and the while loop will exit.

Fonctions R

Créer un une fonction nous utilisons la fonction directive (). Plus précisément, ce sont des objets R de classe une fonction.

F <- function()  ##some piece of instructions

Notamment, les fonctions pourraient être transmises à d'autres fonctions en tant qu'arguments et fonctions pourraient être imbriquées, pour vous permettre de déterminer une fonction à l'intérieur d'une autre fonction.

Les fonctions peuvent éventuellement avoir des arguments nommés qui ont des valeurs par défaut. Si vous ne voulez pas de valeur par défaut, vous pouvez définir sa valeur sur NULL.

Quelques faits sur les arguments de la fonction R :

Les arguments admis dans la définition de la fonction sont les arguments formels
La fonction formelle pourrait renvoyer une liste de tous les arguments formels d'une fonction
Tous les appels de fonction dans R n'utilisent pas tous les arguments formels
Les arguments de fonction peuvent avoir des valeurs par défaut, ou ils peuvent être manquants

#Définition d'une fonction : f <- function (x, y = 1, z = 2, s= NULL)

Création d'un modèle de régression logistique avec un ensemble de données intégré

le glm() la fonction est utilisée dans R pour ajuster la régression logistique. La fonction glm() est similaire à la lm() mais glm() a quelques paramètres supplémentaires. Son format ressemble à ceci :

 glm(X~Z1+Z2+Z3, famille=binôme (lien=”logit”), données=mesdonnées)

X dépend des valeurs de Z1, Z2 et Z3. Ce qui signifie que Z1, Z2 et Z3 sont des variables indépendantes et X est la fonction dépendante implique une famille de paramètres supplémentaires et a une valeur binomiale (link = "logit") qui signifie que la fonction de lien est logit et que la distribution de probabilité du modèle de régression est binomiale.

Supposons que nous ayons un exemple d'étudiant où il sera admis sur la base de deux résultats d'examen. L'ensemble de données contient les éléments suivants :

result _1- Résultat-1 score
résultat _2- Résultat -2 score
admis - 1 si admis ou 0 si non admis

Dans cet exemple, nous avons deux valeurs 1 si un étudiant a été admis et 0 s'il n'a pas obtenu d'admission. Nous devons générer un modèle pour prédire que l'étudiant a été admis ou non,. Pour un problème donné, admis est considéré comme une variable dépendante, examen_1 et examen_2 sont considérés comme des variables indépendantes. Pour ce modèle, notre code R est donné

 >Modèle_1<-glm(admitted ~ result_1 +result_2, family = binomial("logit"), data=data)

Supposons que nous ayons deux résultats de l'élève. Résultat-1 65% et résultat-2 90%, nous allons maintenant prédire que l'étudiant est admis ou non pour estimer la probabilité d'admission de l'étudiant. Notre code R est le suivant :

 >dans_cadre<-data.frame(result_1=65,result_2=90) >predict(Model_1,in_frame, type="response") Sortie : 0.9894302

La sortie ci-dessus nous montre la probabilité entre 0 et 1. Si alors il est inférieur à 0.5 cela signifie que l'étudiant n'a pas été admis. Dans cette condition, ce sera FAUX. S'il est supérieur à 0.5, la condition sera considérée comme VRAIE, ce qui signifie que l'étudiant est admis. Nous devons utiliser la fonction round () pour prédire la probabilité entre 0 et 1.

Le code R pour cela est comme indiqué ci-dessous :

 >round(predict(Model_1, in_frame, type="response"))[/code] Sortie : 1

Un étudiant sera admis car le résultat est 1. De plus, nous pouvons également prédire pour d'autres observations de la même manière.

Utilisation d'un modèle de régression logistique (scoring) avec de nouvelles données

Si nécessaire, nous pouvons enregistrer le modèle dans un fichier. Le code R de notre modèle de train ressemblera à ceci :

 le modèle <- glm(my_formula, family=binomial(link='logit'),data=model_set)

Ce modèle peut être enregistré avec :

 save(file="nom_fichier",le_fichier)

Vous pouvez utiliser le fichier après l'avoir enregistré, en utilisant ce code R :

 charger (fichier="nom de fichier")

Pour appliquer le modèle aux nouvelles données, vous pouvez utiliser cette ligne de code :

 model_set$pred <- predict(the_model, newdata=model_set, type="response")

REMARQUE: Le model_set ne peut être affecté à aucune variable. Pour charger un modèle nous utiliserons la fonction load(). De nouvelles observations ne changeront rien au modèle. Le modèle restera le même. Nous utilisons l'ancien modèle pour faire des prédictions sur les nouvelles données pour ne rien changer au modèle.

Conclusion

J'espère que vous avez vu comment la programmation R fonctionne de manière basique et comment vous pouvez rapidement passer à l'action en faisant de l'apprentissage automatique et du codage de statistiques avec R.