STATISTICA Techniques Exploratoires Multivariées

STATISTICA Techniques Exploratoires Multivariées offre une large gamme de techniques exploratoires, allant des méthodes de classification aux arbres de décision, avec une large gamme d'outils de visualisation interactifs permettant d'explorer les relations entre les variables. Totale intégration du langage de programmation Visual Basic. Les modules suivants sont proposés :

Classification
Analyse Factorielle
Analyse en Composantes Principales (ACP)
Analyse Canonique
Analyse de Fiabilité/Echelle
Arbres de Décisions
Analyse des Correspondances
Analyse de Proximité
Analyse Discriminante
Analyse Discriminante Générale (GDA)


Cluster Analysis CLASSIFICATION. Ce module propose diverses méthodes de classification (k-means, classification ascendante hiérarchique, classification conjointe). Le programme peut traiter des fichiers de données brutes ou des matrices de mesures de distance (par exemple, de corrélations). L'utilisateur peut agréger des observations, des variables, ou les deux, avec différentes options pour mesurer les distances (euclidienne, euclidienne au carré, City-block (Manhattan), Chebychev, distances à la puissance, pourcentage de désaccord, et 1-r) et pour agréger les données (saut minimum, diamètre, centroïde ou moyenne pondérée ou non du groupe, méthode de Ward, ...). Les matrices de distances peuvent être enregistrées pour poursuivre l'analyse dans d'autres modules de STATISTICA. Dans les k-means, l'utilisateur a un contrôle total sur les centres de classes initiaux. Des plans très vastes peuvent être analysés (par exemple, vous pouvez analyser une matrice de 90.000 distances par une CAH) ; vous pouvez classifier 2.100 objets sur 600 dimensions par la méthode des k-means. Outre les résultats standard de classification, diverses statistiques descriptives et diagnostiques détaillés (comme le détail des nœuds dans une classification hiérarchique, la table ANOVA dans les k-means) sont proposés. Une variable d'appartenance des données à une classe peut être ajoutée au fichier de données pour un traitement (approfondi) ultérieur. Les graphiques spécifiques proposés dans le module Classifications sont notamment le dendrogramme, les tracés matriciels en mosaïque pour les classifications conjointes, tracés des étapes de l'agrégation, tracé de moyennes dans les k-means, etc...

Début de la Page


Factor Analysis ANALYSE FACTORIELLE. Le module Analyse factorielle vous propose de nombreuses statistiques, options, et techniques d'analyse factorielle (et factorielle hiérarchique) avec des de nombreux graphiques analytiques et exploratoires. Vous pouvez effectuer des analyses en composantes principales, standard et hiérarchiques (obliques) avec jusqu'à 300 variables (vous pouvez analyser des modèles plus importants dans le module Modélisation d'Equations Structurelles). Ce module fait partie du produit complémentaire STATISTICA Modèles Linéaires et Non-Linéaires Avancés.

Début de la Page

Principal Components and Classification Analysis ANALYSE EN COMPOSANTES PRINCIPALES ("ACP à la française"). STATISTICA possède également un programme d'ACP "à la française". Vous pouvez obtenir les valeurs propres (standard, cumulées, relatives), poids factoriels, coordonnées des individus sur les axes (que vous pouvez ensuite ajouter au fichier de données, représenter graphiquement, et recodifier de façon interactive), ainsi que d'autres statistiques et diagnostiques plus techniques. Les rotations disponibles sont : Varimax, Equamax, Quartimax, Biquartimax (brutes ou normalisées), et Obliques. L'espace factoriel peut être représenté "morceau par morceau" sous forme de nuages de points en 2D ou 3D avec les étiquettes des variables ; d'autres graphiques intégrés vous sont proposés comme le tracé des valeurs propres, divers nuages de points, graphiques curvilignes et en bâtons. Après avoir déterminé une solution factorielle, l'utilisateur peut recalculer (c'est-à-dire, reconstruire) la matrice de corrélations à partir du nombre de facteurs retenus afin d'évaluer l'ajustement du modèle factoriel. Vous pouvez utiliser en entrée d'analyse des fichiers de données brutes ou des matrices de corrélations. Des analyses factorielles confirmatoires peuvent être réalisées dans le module Modélisation d'Equations Structurelles et Analyse de Causalité, où un Assistant spécifique à l'Analyse Factorielle Confirmatoire vous guide pas-à-pas pour spécifier votre modèle.

Début de la Page

ANALYSE CANONIQUE. Canonical Correlation Analysis Ce module vous propose diverses procédures d'analyse canonique (en complément de celles proposées dans les modules ANCOVA/MANCOVA ou Analyse Discriminante) ; le programme accepte en entrée des fichiers de données brutes ou des matrices de corrélations et calcule les statistiques standard de la corrélation canonique (en particulier vecteurs propres, valeurs propres, coefficients de redondance, poids canoniques, variances extraites, tests de significativité de chaque racine, etc...) et de nombreux diagnostiques poussés. Les résultats des variants canoniques peuvent être calculés pour chaque observation et représentés sous forme de tracés de figures intégrés (ils peuvent aussi être ajoutés au fichier de données). Le module Analyse Canonique vous offre également divers graphiques intégrés (notamment des tracés de valeurs propres, corrélations canoniques, nuages de points des variants canoniques, ...). Notez que des analyses confirmatoires de relations structurelles entre variables latentes peuvent être réalisées dans le module SEPATH (Modélisation d'Equations Structurelles et Analyse de Causalité). Ce module est proposé dans le produit complémentaire STATISTICA Modèles Linéaires et Non-Linéaires Avancés

Début de la Page

ANALYSE de FIABILITE /ECHELLE. Reliability/Item Analysis Ce module propose toute une gamme de procédures pour la mise en place et l'évaluation d'enquêtes et de questionnaires. Vous pouvez analyser des plans très importants (des échelles comportant jusqu'à 300 questions peuvent être traitées), calculer des statistiques de fiabilité pour toutes les questions d'une échelle, sélectionner de façon interactive des sous-ensembles, ou comparer des sous-ensembles de questions par la méthode "par moitié". Au cours d'une seule analyse, l'utilisateur peut évaluer la fiabilité d'une échelle de sommes ainsi que de "sous-échelles". Lorsque vous supprimez de façon interactive des questions, un nouvel indicateur de fiabilité est calculé instantanément sans retraiter les données. Les statistiques produites sont les matrices de corrélations et statistiques descriptives sur les questions, alpha de Cronbach, alpha standardisé, la corrélation moyenne inter-questions, la table ANOVA complète de l'échelle, toutes les statistiques questions-total (y compris les R multiples question-total), la fiabilité par moitié, et les corrélations entre les deux moitiés corrigées pour l'atténuation. Divers graphiques (nuages de points, histogrammes, tracés curvilignes et autres tracés intégrés) ainsi que des procédures conditionnelles interactives vous aident lors de l'élaboration des échelles. Par exemple, l'utilisateur peut calculer la fiabilité attendue après l'ajout d'un certain nombre de questions à l'échelle, et peut estimer le nombre de questions qu'il faudrait ajouter à l'échelle pour obtenir une fiabilité donnée. En outre, l'utilisateur peut estimer la corrélation corrigée de l'atténuation entre l'échelle courante et une autre mesure (la fiabilité de l'échelle courante étant donnée).

Début de la Page

Classification Trees Classification Trees ARBRES DE DECISION. Le module Arbres de Décision de STATISTICA utilise les derniers algorithmes qui ont été développés pour produire et tester la robustesse des arbres de décision (destinés à prévoir la classe d'appartenance d'un objet à partir des valeurs de variables prédictives). Les arbres de décision peuvent être produits en utilisant des variables prédictives catégorielles, ordonnées, ou les deux, et en réalisant des partitions univariées ou des combinaisons linéaires de partitions. Diverses options de segmentation vous sont proposées, notamment des segmentations exhaustives (comme dans THAID et CART™) ou des segmentations discriminantes ; sélection de variable non-biaisée (comme dans QUEST) ; interruption directe de la segmentation (comme dans FACT) ou segmentation haut-bas (comme dans CART) ; segmentations basée sur des taux de mauvaise classification ou sur la fonction de déviance ; Chi², G², ou coefficient de Gini de qualité d'ajustement. Vous pouvez demander des coûts a priori et des coûts de classification erronée égaux, estimés à partir des données, ou personnalisés. L'utilisateur peut également spécifier la valeur v pour la validation croisée du repli-v lors de la construction de l'arbre ou de l'estimation de l'erreur, importance de l'Erreur-Type, taille minimum de la classe avant segmentation, amorces pour générer des nombres aléatoires, et valeur d'alpha pour la sélection de variable. Des options graphiques intégrées vous permettent d'explorer vos données et résultats.

 

Début de la Page

Correspondence Analysis ANALYSE DES CORRESPONDANCES Ce module vous propose diverses techniques d'analyse des correspondances, applicables sur des tableaux très vastes. Le programme accepte en entrée d'analyse, des fichiers de données avec des variables de classement (codes) à utiliser pour calculer les tableaux croisés ; vous pouvez aussi utiliser des fichiers de données contenant des effectifs (ou autres mesures de correspondance, association, ressemblance, confusion, etc...) ou encore des variables de classement identifiant les cellules du tableau d'entrée avec les fréquences respectives (ou autre mesure de correspondance) (par exemple, l'utilisateur peut saisir et analyser directement une table de fréquences). Pour les analyses des correspondances multiples, l'utilisateur peut spécifier directement la table de Burt en entrée d'analyse. Le programme calcule notamment la table des pourcentages lignes, colonnes et totaux, les valeurs théoriques, la différence entre les valeurs observées et théoriques, les écarts centrés-réduits, et les contributions au Chi². Toutes ces statistiques peuvent être représentées dans des histogrammes 3D, permettant d'utiliser la fonction de Stratification Animée. Le module Analyse des Correspondances calcule les valeurs propres et les vecteurs propres généralisés, et reporte tous les diagnostiques standard, en particulier les valeurs singulières, valeurs propres, et proportions d'inertie sur chaque axe. L'utilisateur peut choisir manuellement le nombre de dimensions, ou spécifier une valeur seuil pour le pourcentage maximum d'inertie cumulé. Le programme calcule les coordonnées standard des lignes et colonnes. Vous pouvez choisir une standardisation des profils-lignes, des profils-colonnes, des profils lignes et colonnes, ou une standardisation canonique. Pour chaque dimension et chaque point ligne ou colonne, le programme calcule l'inertie, la qualité, et le cosinus². En plus, l'utilisateur peut demander l'affichage (dans des feuilles de données) des matrices de vecteurs singuliers généralisés ; comme pour les valeurs de toutes les feuilles de données, ces matrices sont accessibles en STATISTICA Visual Basic, par exemple, pour utiliser des méthodes non-standard de calcul des coordonnées. Vous pouvez calculer les coordonnées et statistiques associées (qualité de représentation et cosinus²) des points supplémentaires (observations ou variables), et comparer ces résultats aux autres points lignes et colonnes. Vous pouvez aussi ajouter des points supplémentaires (observations et/ou variables) dans l'analyse des correspondances multiple. Outre les histogrammes en 3D proposés pour toutes les tables, l'utilisateur peut représenter les valeurs propres dans un graphique curviligne, et les points lignes ou colonnes dans des tracés en 1D, 2D, et 3D. Vous pouvez représenter les points lignes et colonnes avec les points supplémentaires sur le même graphique (chaque type de point utilisant une couleur et un symbole différents, afin d'identifier rapidement les différents types de points dans le graphique). Tous les points sont étiquetés et une option vous permet de tronquer le nom des points à un certain nombre de caractères.

Début de la Page

Multidimensional Scaling ANALYSE DE PROXIMITE. Le module Analyse de Proximité vous permet de réaliser des analyses multidimensionnelles (non métriques). Vous pouvez analyser des matrices de ressemblance, de dissemblance, ou de corrélations entre variables (c'est-à-dire, "objets" ou observations) en spécifiant jusqu'à 9 dimensions. La configuration de départ peut être calculée par le programme (par une ACP) ou spécifiée par l'utilisateur. Le programme utilise une procédure itérative pour minimiser la valeur de contrainte et le coefficient d'aliénation. L'utilisateur peut visualiser les itérations et la modification des valeurs. Vous pouvez étudier les configurations finales dans des feuilles de données et dans des nuages de points en 2D ou 3D avec les étiquettes de points. Les résultats disponibles sont notamment les valeurs de contrainte brute (F brut), le coefficient de contrainte S de Kruskal, ou le coefficient d'aliénation. La qualité d'ajustement peut être évaluée grâce aux diagrammes de Shepard (avec d-chapeau et d-étoile). Comme toujours dans STATISTICA, la configuration finale peut être enregistrée dans un fichier de données, réutilisable en entrée d'une autre analyse.

Début de la Page

Discriminant Analysis ANALYSE DISCRIMINANTE. Le module Analyse Discriminante contient diverses procédures d'analyse discriminante pas-à-pas. STATISTICA offre également un module généraliste Analyse Discriminante Générale (voir ci-dessous) permettant d'ajuster des modèles de type ANOVA/ANCOVA sur des variables dépendantes catégorielles, et pour permettre divers types d'analyses avancées (par exemple, sélection du meilleur modèle, estimation de probabilités a posteriori, etc...) .Vous pouvez réaliser des analyses âs-à-pas ascendantes ou descendantes, ou entrer des blocs personnalisés de variables dans le modèle. En plus des nombreux graphiques et diagnostiques décrivant les fonctions discriminantes, le programme vous propose diverses options et statistiques pour la classification des anciennes ou nouvelles observations (dans un objectif de validation du modèle). Les statistiques disponibles sont les lambda de Wilks, lambda partiels, F d'inclusion (ou d'exclusion), niveaux p, valeurs de tolérance, et . Le programme réalise une analyse canonique et reporte les valeurs propres brutes et cumulées de toutes les racines, avec leur niveau p, les coefficients bruts et standardisés (centrés-réduits) de la fonction discriminante (canonique), la matrice des coefficients de structure (pour les poids factoriels), les moyennes des fonctions discriminantes, et les résultats discriminants de chaque observation (qu'il est possible d'ajouter automatiquement au fichier de données). De nombreux graphiques intégrés vous sont proposés, notamment des histogrammes de résultats canoniques pour chaque groupe (et pour tous les groupes ensemble), nuages de points spéciaux dans les plans canoniques (l'appartenance des observations individuelles à un groupe est clairement marquée), une large gamme de graphiques catégorisés (multiples) qui permettent à l'utilisateur d'étudier la distribution et les relations entre les variables dépendantes en fonction des groupes (en particulier, des boîtes à moustaches, histogrammes, nuages de points, et tracés de probabilités multiples). Le module Analyse Discriminante calcule également les fonctions de classification standard de chaque groupe. Vous pouvez étudier la classification des observations en termes de distances de Mahalanobis, probabilités a posteriori, ou classifications observées, et les résultats des observations individuelles peuvent être représentés à l'aide de tracés exploratoires de figures, ou autres graphiques multidimensionnels intégrés directement aux feuilles de données. Toutes ces valeurs peuvent être ajoutées automatiquement au fichier de données pour poursuivre votre analyse. Une matrice de synthèse de la classification reportant le nombre et le pourcentage d'observations correctement classées peut être produite. L'utilisateur dispose de plusieurs options pour spécifier des probabilités de classification a priori et définir des filtres de sélection pour prendre en compte ou exclure certaines observations particulières de la classification (par exemple, pour valider les fonctions de classification sur un nouvel échantillon).

Début de la Page

ANALYSE DISCRIMINANTE GENERALE (GDA). Le module STATISTICA Analyse Discriminante Générale (GDA) est une extension du module Modèle Linéaire Général à des problèmes de classification. Comme le module Analyse Discriminante, GDA vous permet de d'effectuer des analyses discriminantes standard ou pas-à-pas. GDA est en fait un cas particulier du modèle linéaire général, ce qui lui permet d'offrir des techniques analytiques extrêment utiles, à la fois novatrices, efficaces et puissantes. Comme dans le cas de l'analyse discriminante traditionnelle, GDA vous permet de spécifier une variable dépendante catégorielle. Pour les analyses, le groupe d'appartenance (par rapport à la variable dépendante) est alors codé en variables indicatrices, et toutes les méthodes de GRM sont applicables. GDA vous permet également d'obtenir les nombreuses statistiques sur les résidus proposées dans GRM et GLM. GDA propose des outils puissants et efficaces pour le data mining ainsi que pour la recherche appliquée. GDA va calculer tous les résultats standard de l'analyse discriminante, notamment les coefficients de la fonction discriminante, les résultats de l'anayse canonique (coefficients bruts et standardisés, les tests des racines canoniques, etc.), les statistiques de classification (comprenant la distance de Mahalanobis, les probabilités a posteriori, classification des observations dans l'échantillon d'analyse et de validation, matrice de classification, etc...), et bien plus encore.

Début de la Page