5 paquets R pour l’apprentissage automatique

#
##MD#Il existe une liste complète de paquets R pour l’apprentissage automatique qui peut être consultée sur le site CRAN. Mais, pour simplifier les choses, j’ai choisi 10 paquets#/MD##

Il va sans dire que R est l’un des outils les plus efficaces et performants pour analyser et manipuler des données à des fins statistiques. Pour ajouter à cela, R étant à la fois peu coûteux et beau, embellit à la fois l’art de la programmation et la prolifération de l’ensemble des compétences du programmeur. Maintenant, la question de savoir comment R ajoute de la valeur est ce que nous allons traiter dans cet article.

Bien que R puisse être utilisé comme un langage de programmation général en dehors des applications statistiques, cet article traitera des packages R les plus utilisés dans le domaine de l’apprentissage automatique. Ces paquets sont ceux qui rendent R simple et donc dandy pour développer des algorithmes d’apprentissage automatique (ML) pour craquer les problèmes d’affaires. Comme je l’ai mentionné, R étant peu coûteux (logiciel open source), les algorithmes nécessaires à l’apprentissage automatique ne sont pas inclus dans l’installation de base. Au fil du temps, de tels algorithmes ont été ajoutés à l’installation de base de R par des experts et il existe maintenant des paquets gratuits (groupes de fonctions mis gratuitement à la disposition des utilisateurs) pour ces algorithmes ML. C’est cette beauté exquise et simpliste de R qui le rend si sacrément attractif et convoité !

Il existe une liste complète des packages R qui peut être consultée sur le site CRAN(Comprehensive R Archive Network). Mais, pour simplifier les choses, j’ai choisi 5 paquets qui rendent l’apprentissage automatique attrayant en utilisant R.

1. RODBC

Si les données sont stockées dans des bases de données SQL (Oracle, MySQL) ou ODBC(Open Database Connectivity) et doivent être converties en trame de données R, alors rien ne peut être aussi efficace que le paquet RODBC pour importer cette trame de données. La manière la plus directe d’installer un paquetage est d’utiliser la fonction install.packages ( ). Ainsi, pour installer le paquetage RODBC, il faut saisir : install.packages(« RODBC »)[d31] Afin de charger la fonction RODBC, nous utilisons : library(RODBC) L’importation de données est la condition préalable à toute approche de modélisation statistique. Les données de n’importe où peuvent être chargées dans un format R compatible et, si votre base de données est protégée, vous devrez fournir le mot de passe et c’est tout ! Simple, n’est-ce pas.

2. Gmodels

Pendant une analyse statistique, nous pouvons souvent vouloir comparer la relation entre deux variables nominales. Pour expliquer cela, considérons deux variables nominales, l’une étant les » groupes de revenus » (niveaux = élevé, moyen, faible), et l’autre étant le » niveau d’éducation le plus élevé » (niveaux = non diplômé, diplômé, post-diplôme) Nous pourrions être intéressés par la question de savoir si le revenu a une relation significative avec le caractère abordable du niveau d’éducation. Une telle analyse peut être effectuée à l’aide de la fonction CrossTable( ) disponible dans le package gmodels, où les résultats sont représentés sous forme de tableau avec des lignes indiquant les niveaux d’une variable et des colonnes indiquant les niveaux de l’autre variable install.packages(« gmodels ») library(gmodels) C’est tout ! Vous êtes prêt à expérimenter la convivialité de CrossTable().

3. Class

Les deux paquets discutés précédemment se rapportaient à des applications de données simples. Ce package ‘class’ contient la fonction knn( ) qui fournit la nourriture pour construire l’algorithme des k-voisins les plus proches- un algorithme d’apprentissage automatique facile. La fonction knn( ) utilise la méthode de la distance euclidienne pour identifier les k plus proches voisins ; k est un nombre spécifié par l’utilisateur. Exemples de la fonction knn( ): Pour prédire si une personne apprécie les vidéos suggérées par YouTube (convertissez vos YouTube MP3 avec Youzik !). Install.packages(« class ») Library(class) Et voilà !

4. Tm

De nos jours, beaucoup d’analyses statistiques nécessitent un traitement approfondi des données textuelles, qu’il s’agisse de SMS ou de mails, ce qui implique beaucoup d’efforts fastidieux. Ce type d’analyse peut même nécessiter la suppression des signes de ponctuation, des chiffres et de certains mots indésirables comme « mais », « ou », etc. selon les besoins de l’entreprise. Le paquet tm contient des fonctions flexibles comme corpus qui peut lire des documents word pdf – à lire : fusionner PDF – et convertir les données textuelles en vecteur R et tm_map() qui aide à nettoyer les données textuelles (suppression des blancs, conversion des majuscules en minuscules et vice versa, etc. Le package de text mining tm peut être installé en utilisant install.packages(« tm »)et chargé avec library(tm).

5. Wordcloud

Une seule image parle de mille mots (testez la banque d’images Unsplash !) ! Nous avons tous dû entendre cela et R dans la vie réelle met en œuvre notre conviction. Le paquet ‘wordcloud’ aide à créer une représentation schématique des mots et un utilisateur peut réellement personnaliser le ‘wordcloud’, par exemple en plaçant les mots à haute fréquence plus près les uns des autres au centre, en arrangeant les mots de façon aléatoire, en spécifiant la fréquence d’un mot particulier, etc. et ainsi graver une impression durable dans l’esprit de chacun. Le paquet wordcloud peut être installé en utilisant install.packages(« wordcloud »)et chargé avec library(wordcloud). Regardez ce que cela donne. Maintenant, vous aussi pouvez créer cela en utilisant R. N’est-ce pas superbe ?