Multicollinéarité

Qu'est-ce que la multicollinéarité?

La multicollinéarité est un phénomène statistique dans lequel deux variables ou plus dans un modèle de régression dépendent des autres variables de telle sorte que l'une peut être prédite linéairement à partir de l'autre avec un degré élevé de précision. Il est généralement utilisé dans les études d'observation et moins populaire dans les études expérimentales.

Types de multicolinéarité

Il existe quatre types de multicollinéarité

  • # 1 - Multicollinéarité parfaite - Elle existe lorsque les variables indépendantes de l'équation prédisent la relation linéaire parfaite.
  • # 2 - Multicollinéarité élevée - Il s'agit de la relation linéaire entre les deux ou plusieurs variables indépendantes qui ne sont pas parfaitement corrélées entre elles.
  • # 3 - Multicollinéarité structurelle - Ceci est causé par le chercheur lui-même en insérant différentes variables indépendantes dans l'équation.
  • # 4 - Multicollinéarité basée sur les données - Elle est causée par des expériences mal conçues par le chercheur.

Causes de la multicolinéarité

Variables indépendantes, le changement des paramètres des variables fait qu'un petit changement dans les variables a un impact significatif sur le résultat et les collectes de données se réfèrent à l'échantillon de la population sélectionnée prélevée.

Exemples de multicollinéarité

Exemple 1

Supposons que ABC Ltd a KPO soit embauché par une société pharmaceutique pour fournir des services de recherche et d'analyse statistique sur les maladies en Inde. Pour cela, ABC ltd a choisi l'âge, le poids, la profession, la taille et la santé comme paramètres prima facie.

  • Dans l'exemple ci-dessus, il y a une situation de multicolinéarité puisque les variables indépendantes sélectionnées pour l'étude sont directement corrélées aux résultats. par conséquent, il serait souhaitable que le chercheur ajuste les variables avant de commencer tout projet car les résultats seront directement impactés en raison des variables sélectionnées ici.

Exemple # 2

Supposons que ABC Ltd a été désignée par Tata Motors pour comprendre que le volume des ventes de moteurs tata sera élevé dans quelle catégorie sur le marché.

  • Dans l'exemple ci-dessus, tout d'abord des variables indépendantes seront finalisées en fonction desquelles la recherche doit être complétée. cela peut être le revenu mensuel, l'âge. marque, la classe inférieure. Cela signifie seulement que les données seront sélectionnées qui entreront dans tous ces onglets afin de déterminer combien de personnes peuvent acheter cette voiture (tata nano) sans même regarder une autre voiture.

Exemple # 3

Supposons qu'ABC Ltd ait été embauchée pour soumettre un rapport afin de savoir combien de personnes de moins de 50 ans sont sujettes à des crises cardiaques. pour cela, les paramètres sont l'âge, le sexe, les antécédents médicaux

  • Dans l'exemple ci-dessus, une multicolinéarité est apparue parce que la variable indépendante «âge» doit être ajustée à moins de 50 ans pour inviter des candidatures du public afin que les personnes de plus de 50 ans soient automatiquement filtrées.

Avantages

Voici quelques-uns des avantages

  • Relation linéaire entre les variables indépendantes de l'équation.
  • Très utile dans les modèles statistiques et les rapports de recherche préparés par les entreprises basées sur la recherche.
  • Impact direct sur le résultat souhaité.

Désavantages

Voici quelques-uns des inconvénients

  • Dans certaines situations, ce problème serait résolu en collectant davantage de données sur les variables.
  • Utilisation incorrecte des variables factices, c'est-à-dire que le chercheur peut oublier d'utiliser les variables factices chaque fois que nécessaire.
  • Insertion de 2 variables identiques ou identiques dans l'équation comme kg et lbs en poids.
  • Insérer une variable dans l'équation qui est une combinaison de 2.
  • Compliqué à effectuer des calculs car c'est la technique statistique et nécessite des calculateurs statistiques pour faire l'exécution.

Conclusion

La multicollinéarité est l'un des outils statistiques les plus utilisés souvent dans l'analyse de régression et l'analyse statistique pour les grandes bases de données et le résultat souhaité. Toutes les grandes entreprises ont un service statistique distinct dans leur entreprise pour effectuer une analyse de régression statistique sur des produits ou des personnes afin de fournir une vision stratégique du marché à la direction et également les aider à rédiger leurs stratégies à long terme en gardant cet esprit. La présentation graphique de l'analyse donne au lecteur une image claire de la relation directe, de la précision et des performances.

  • Si le but du chercheur est de comprendre les variables indépendantes de l'équation, alors la multicolinéarité sera un gros problème pour lui.
  • Le chercheur doit faire les changements requis dans les variables à l'étape 0 lui-même, sinon cela peut avoir un impact massif sur les résultats.
  • La multicollinéarité peut être réalisée en examinant la matrice de corrélation.
  • Les mesures correctives jouent un rôle important dans la résolution des problèmes de multicolinéarité.