Université Pierre et Marie Curie

Analyse de données - Ordinations et groupements

Chapitre 1. Introduction
Chapitre 2. L'Analyse en Composantes Principales (ACP)
Chapitre 3. L'Analyse des Correspondances (AFC)
Chapitre 4. L'Analyse des Correspondances Multiples(AFCM)
Chapitre 5. Méthodes de classifications
5.1. Présentation
5.2. Calcul de la matrice de distance (ou de ressemblance)
5.3. Choix du critére d'agrégation.
5.4. Représentation graphique : le dendrogramme.
Chapitre 6. Autres types de groupements.
Chapitre 7. Références
Page d'accueilTable des matièresNiveau supérieurPage précédenteBas de la pagePage suivante

5.2. Calcul de la matrice de distance (ou de ressemblance)

Généralité de l'espace : R1, R2, R3,...Rn.

Type de données.

 Notion de distance et de ressemblance ou dissimilarité et similarité.

Indice de similarité, mesure l'association entre objets
Coefficient de dépendance : covariance, coéfficient de corrélation.
Coefficient de similarité:

Données binaires :

 

descripteur 1

descripteur 2

 

descripteur q

objet 1

0

1

.

0

objet 2

1

1

.

1

 

.

.

.

 
objet p

0

0

.

1

 

 

objet x1

 

1

0

objet x2 1

a

b

0

c

d

 

a+c

b+d

n=a+b+c+d

 Coefficient de simple concordance (Sokal et Michener, 1958):

 Pb du zéro : exclusion les doubles zéros :

Coefficient de communauté (Jaccard, 1908) :

 Données continues

 Matrice des données : m objets (ou individus), p descripteurs (ou variables) :

 

 Centrage et réduction des données :

Distances métriques :
Distances euclidienne entre objets:

ou pj est une pondération qui est en général égale à 1.

Tableau de comptage:

m modalités en ligne,

p modalités en colonnes,

Données du type espéces/stations, la distance euclidienne trés sensible aux espéces abondantes

Distance du Chi2 :

Passage aux fréquences :

Calcul des marges (sommes des lignes et des colonnes):

Expression de la distance du CHI-2

Page d'accueilTable des matièresNiveau supérieurPage précédenteHaut de la pagePage suivante