Conception et analyse de la forme limite d'une famille de coefficients statistiques d'association entre variables relationnelles. II
Mathématiques et Sciences humaines, Volume 119  (1992), p. 75-100

This study gives a large synthesis view and prospective on a very general family of association coefficients between descriptive relational variables, that we have elaborated. On the other hand, very accurate technical results are provided. We assume the empirical observation of the descriptive variables on a set O of elementary objects. A given coefficient is obtained by a statistical normalization of a raw association index with respect to a hypothesis of no relation (or independence). The raw index s is conceived from a set theoretic representation of the two relational variables to be compared. The case where the two variables associated are unary, provides a clear setting up of the comparison problem. We particularly analyze the case where the two relations on O, induced by the two descriptive variables to be compared, are binary. The latter case is extremely useful in qualitative data analysis. The normalization of the raw index s takes into account the distribution of the random raw index S under an independence hypothesis. The reduction of the “centred” index [s-E(S)] where E denotes the mathematical expectation] is done with the standard deviation var(S). It is a specific expression of the variance var(S), which enables to set up the limiting from of an association coefficient, under natural asymptotic conditions. Then, we carefully study the very important cases where the descriptive variables are nominal or ordinal qualitative variables. The limit expression permits to realize the nature of the normalization, from a purely formal point of view. Next, we take up the study of the general case of the comparison of two q-ary relations. Accurate results are given in the latter context. Finally, we express our current research and their future development ; more particularly by situating the place of this work in our approach of data analysis by means of hierarchical classification.

Cette étude offre une large vision de synthèse prospective ; mais aussi, des résultats techniques précis sur une famille très générale que nous avons élaborée de coefficients d'association entre variables descriptives relationnelles à partir de leur observation empirique sur un ensemble O d'objets élémentaires. Un même coefficient est obtenu à partir d'une forme de normalisation statistique par rapport à une hypothèse d'absence de liaison, d'un indice brut d'association. Ce dernier suppose une représentation de type ensembliste des deux variables relationnelles à comparer. Le cas où les deux variables sont unaires introduit et pose clairement le problème. Nous étudions particulièrement le cas où les deux relations induites par les deux variables sont binaires. Ce cas est d'une extrême utilité en analyse des données qualitatives. La normalisation suppose le centrage et la réduction par l'écart type de l'indice brut aléatoire. C'est une expression particulière de la variance de ce dernier qui permet de mettre en évidence la forme limite du coefficient d'association dans des conditions qu'on appréhende clairement. On considère avec soin les cas très importants de la comparaison de deux variables qualitatives nominales ou ordinales. L'expression limite permet de se rendre compte d'un point de vue purement formel de la nature de la normalisation ainsi effectuée. Nous abordons ensuite un cas assez général de comparaison de deux relations q-aires pour lequel l'essentiel des calculs est fourni. Enfin, nous exprimons les recherches actuelles et développements futurs, en situant la place de ce travail dans l'aspect «classification hiérarchique» de notre approche en analyse des données.

@article{MSH_1992__119__75_0,
     author = {Lerman, Isra\"el-C\'esar},
     title = {Conception et analyse de la forme limite d'une famille de coefficients statistiques d'association entre variables relationnelles. II},
     journal = {Math\'ematiques et Sciences humaines},
     publisher = {Ecole des hautes-\'etudes en sciences sociales},
     volume = {119},
     year = {1992},
     pages = {75-100},
     zbl = {0851.62040},
     mrnumber = {1195699},
     language = {fr},
     url = {http://www.numdam.org/item/MSH_1992__119__75_0}
}
Lerman, Israël-César. Conception et analyse de la forme limite d'une famille de coefficients statistiques d'association entre variables relationnelles. II. Mathématiques et Sciences humaines, Volume 119 (1992) , pp. 75-100. http://www.numdam.org/item/MSH_1992__119__75_0/

Arabie P. and Hubert L.J. (1992), "Combinatorial data analysis", 1992, Annual Review of Psychology, 43, pp. 169-203.

Chah S. (1984), "Agrégation des préordonnances", Etude F-063, Centre Scientifique IBMde Paris.

Chah S. (1985) "Critères de classification sur des données hétérogènes ", Proceedings of the fourth international symposium on data analysis and informatics, edited by E. Diday and al, North Holland, 1986. | MR 801503 | Zbl 0635.62057

Daniels H.E. (1944), "The relation between measures of correlation in the universe of sample permutations", Biometrika, vol. 33, 129-135. | MR 10941 | Zbl 0063.01034

Daude F., "Normalisation sous hypothèses d'absence de lien", Publication interne IRISA, Rennes, n° 549, Sept. 1990, 42 pages.

Daude F. (1992), Analyse et justification de la notion de ressemblance entre variables qualitatives dans l'optique de la classification hiérarchique par AVL, Thèse de l'Université de Rennes I, 24 Juin 1992 (à paraître).

Efron B. (1986), "The Jacknife, the Boot-strap and other resampling plans", CBMS-NSF regional conference series in applied mathematics. | Zbl 0496.62036

Giakoumakis V. et Monjardet B. (1987), "Coefficients d'accord entre deux préordres totaux ", Statistique et Analyse des Données 12, pp. 46-99. | Numdam | MR 950147

Goodman L.A. and Kruskal W.H. (1954), "Measures of association for cross classifications ", Journal of the American Statistical Association, Vol. 49, pp. 732-764. | Zbl 0056.12801

Goodman L.A. and Kruskal W.H. (1963), "Measures of association for cross classifications" III : Approximate sampling theory", Journal of the American Statistical Association Vol. 58, pp. 310-364. | MR 156400

Hajek J. (1961), "Some extensions of the Wald-Wolfowitz-Noether theorem", AMS, 32, pp. 506-523. | MR 130707 | Zbl 0107.13404

Hubert L.J. (1983), "Inference procédures for the évaluation and comparaison of proximity matrices", Numerical Taxonomy, Ed. J. Felsenstein, NATO ASI Series, Berlin, Springer Verlag.

Hubert L.J. (1987), Assignment methods in combinatorial data analysis, New York, Marcel Decker. | MR 863418 | Zbl 0628.62003

Kendall M.G. (1970), Rank correlation methods, London, Charles Griffin, fourth edition (first edition in 1948). | Zbl 0199.53501

Lecalve G. (1976), "Un indice de similarité pour des variables de types quelconques", Statistique et Analyse des Données, 01-02, pp. 39-47.

Lerman I.C. (1973), "Etude distributionnelle de statistiques de proximité entre structures finies de même type ; application à la classification automatique ", Cahiers du Buro, n° 19, Paris.

Lerman I.C. (1976), "Formal analysis of a general notion of proximity between variables". Congrès Européen des Statisticiens, Grenoble, Sept. 1976, North Holland (1977). | MR 478478 | Zbl 0367.62074

Lerman I.C. (1981), Classification et analyse ordinale des données, Paris, Dunod. | MR 645150 | Zbl 0485.62051

Lerman I.C. (1983), "Association entre variables qualitatives ordinales nettes ou floues", Statistique et Analyse des Données, vol. 8 n° 7, pp. 41-73. | Numdam | MR 712841 | Zbl 0564.62036

Lerman I.C. (1984), "Justification et validité statistique d'une échelle [0,1] de fréquence mathématique pour une structure de proximité sur un ensemble de variables observées", Publ. Inst. Stat. Univ. Paris, XXIX, fasc. 3-4, pp. 27-57. | MR 782088 | Zbl 0661.62047

Lerman I.C. (1987a), "Construction d'un indice de similarité entre objets décrits par des variables d'un type quelconque. Application au problème du consensus en classification", Rev. Statistique Appliquée, XXXV (2), pp. 39-60. | Numdam | MR 896003 | Zbl 0615.62068

Lerman I.C. (1987b), "Analyse de la forme limite de coefficients statistiques d'association entre variables relationnelles", Rapport de recherche n° 702, Inria, Juillet 1987.

Lerman I.C. (1987c), "Maximisation de l'association entre deux variables qualitatives ordinales", Math. Sci. hum. 25ème année, n° 100, 1987, pp. 49-56. | Numdam | MR 941909 | Zbl 0635.62048

Lerman I.C. (1988), "Structure maximale pour la somme des carrés d'une contingence aux marges fixées; une solution algorithmique programmée", Rairo, vol. 22, n° 2, pp. 83 à 136. | Numdam | MR 952103 | Zbl 0639.90101

Lerman I.C. (1991), "Foundations of the Likelihood Linkage Analysis (LLA) Classification method", Applied Stochastic Models and Data Analysis, vol. 7, pp. 63-76 (J. Wiley). | MR 1105871 | Zbl 0800.62320

Lerman I.C. et Ghazzali N. (1991), "Quoi retenir d'un arbre de classification ? Un essai en quantification d'image numérisée", Rapport de recherche n° 1386, Inria, Janvier 1991.

Lerman I.C., Gras R. et Rostam H. (1981), "Elaboration et évaluation d'un indice d'implication pour des données binaires" I et II ; I: Math. & Sci. hum., 19ème année, n° 74, 1981 pp. 5-35, II : Math. & Sci. hum., 19ème année, n° 75,1981, pp. 5-47. | Numdam | Numdam | MR 637324 | Zbl 0493.62093

Lerman I.C. et Peter Ph. (1985), "Organisation et consultation d'une banque de "petites annonces" à partir d'une méthode de classification hiérarchique en parallèle", Journées Internationales Analyse des Données et Informatique IV, Octobre 1985, Versailles, North Holland (1986), pp.121-136.

Lerman I.C. et Peter Ph. (1989), "Classification of concepts described by taxonomic preordonnance variables with multiple choice. Application to the structuration of a species set of phebotomine" Data Analysis, Learning symbolic and numerical knowledge, edited by E. Diday, Inria, Nova Science Publishers, (1989), pp. 73-87.

Mantel N. (1967), "Detection of disease clustering and a generalized regression approach", Cancer Research, vol. 27, n° 2, pp. 209-220.

Messatfa H. (1990), Unification relationnelle des critères et structures optimales des tables de contingences, thèse de doctorat de l'Université de Paris 6, 5 mars 1990.

Mielke W. (1979), "On asymptotic non normality of null distributions of MRPP Statistics", Communications in Statistics, Theory and Methods, A8 (15), pp. 1541-1550. | Zbl 0422.62041

Noether G. (1949), "On a theorem by Wald and Wolfowitz", Ann. Math. Stat. vol. 20, pp. 455-458. | MR 31670 | Zbl 0034.22601

Ouali-Allah M. (1991a), Analyse en préordonnances des données qualitatives. Applications aux données numériques et symboliques, Thèse de l'Université de Rennes I, 5 décembre 1991.

Ouali-Allah M. (1991b), "Avare : un programme de calcul des associations entre variables relationnelles", Publication Interne Irisa n° 591, juin 1991, 32 pages.

Peter Ph. (1987), Méthodes de classification hiérarchique et problèmes de structuration et de recherche d'informations, assistées par ordinateur, thèse de l'Université de Rennes I, 6 mars 1987.

Suppes P. and Zinnes J.L. (1963), "Basic measurement theory" Handbook of mathematical psychology, Eds Bush, Luce, Galanter, New York, J. Wiley, pp. 2-76.

Tarski A. (1954), "Contribution to the theory of models", I.II. Indagationes Mathematicae, 16, pp. 572-588. | MR 66301 | Zbl 0058.24702

Wald A. and Wolfowitz J. (1944), "Statistical tests based on permutations of the observations", Ann. Math. Stat. vol. 15, pp. 358-372. | MR 11424 | Zbl 0063.08124