Tableau de comparaison
Base de comparaison | Classification | Régression |
---|---|---|
De base | La découverte de modèles ou de fonctions dans lesquels le mappage des objets est effectué dans des classes prédéfinies. | Un modèle conçu dans lequel le mappage des objets est fait en valeurs. |
Implique la prédiction de | Valeurs discrètes | Valeurs continues |
Algorithmes | Arbre de décision, régression logistique, etc. | Arbre de régression (forêt aléatoire), régression linéaire, etc. |
Nature des données prédites | Non ordonné | Commandé |
Méthode de calcul | Précision de mesure | Mesure de l'erreur quadratique moyenne |
Définition de la classification
La classification est le processus de recherche ou de découverte d'un modèle (fonction) qui permet de séparer les données en plusieurs classes qualitatives. Dans la classification, l'appartenance au groupe du problème est identifiée, ce qui signifie que les données sont classées sous différentes étiquettes en fonction de certains paramètres, puis que les étiquettes sont prédites pour les données.
Les modèles dérivés pourraient être démontrés sous la forme de règles «IF-THEN», d'arbres de décision ou de réseaux de neurones, etc. Un arbre de décision est fondamentalement un organigramme qui ressemble à une structure arborescente où chaque nœud interne représente un test sur un attribut, et ses branches montre le résultat du test. Le processus de classification traite des problèmes dans lesquels les données peuvent être divisées en deux ou plusieurs étiquettes discrètes, en d’autres termes, deux ensembles ou plus disjoints.
Prenons un exemple, supposons que nous voulions prédire la possibilité de pluie dans certaines régions sur la base de certains paramètres. Ensuite, il y aurait deux étiquettes pluie et aucune pluie sous laquelle différentes régions pourraient être classées.
Définition de régression
La régression est le processus de recherche d'un modèle ou d'une fonction permettant de distinguer les données en valeurs réelles continues au lieu d'utiliser des classes. Mathématiquement, avec un problème de régression, on cherche à trouver l'approximation de la fonction avec la déviation d'erreur minimale. En régression, la dépendance numérique des données est prédite pour la distinguer.
L'analyse de régression est le modèle statistique utilisé pour prédire les données numériques à la place des étiquettes. Il peut également identifier le mouvement de la distribution en fonction des données disponibles ou des données historiques.
Prenons l' exemple similaire dans la régression également, où nous trouvons la possibilité de pluie dans certaines régions particulières à l'aide de certains paramètres. Dans ce cas, il y a une probabilité associée à la pluie. Ici, nous ne classifions pas les régions sous pluie et aucune étiquette de pluie à la place, nous les classons avec leur probabilité associée.
Principales différences entre la classification et la régression
- Le processus de classification modélise une fonction par laquelle les données sont prédites dans des étiquettes de classe discrètes. D'autre part, la régression est le processus de création d'un modèle qui prédit une quantité continue.
- Les algorithmes de classification impliquent un arbre de décision, une régression logistique, etc. En revanche, un arbre de régression (par exemple, une forêt aléatoire) et une régression linéaire sont des exemples d'algorithmes de régression.
- La classification prédit des données non ordonnées tandis que la régression prédit des données ordonnées.
- La régression peut être évaluée en utilisant l'erreur quadratique moyenne. Au contraire, la classification est évaluée en mesurant la précision.
Conclusion
La technique de classification fournit le modèle ou la fonction prédictif qui prédit les nouvelles données dans des catégories ou des étiquettes discrètes à l'aide des données historiques. À l'inverse, la méthode de régression modélise les fonctions à valeurs continues, ce qui signifie qu'elle prédit les données dans des données numériques continues.