Classifications de mots non étiquetés par des méthodes statistiques
Mathématiques informatique et sciences humaines, Tome 147 (1999), pp. 7-23.

Notre thématique de recherche est le développement de modèles de langage robustes pour la reconnaissance de la parole. Ces modèles doivent prédire un mot connaissant les mots qui le précèdent. Malgré le nombre croissant de données textuelles électroniques, toutes les possibilités de la langue ne sont pas présentes dans ces données, un moyen de les obtenir est de généraliser la représentation textuelle en regroupant les mots dans des classes. Les modèles de langage fondés sur des classes présentent alors une plus large couverture de la langue avec un nombre réduit de paramètres permettant une reconnaissance plus rapide des mots par les systèmes de reconnaissance de la parole dans lesquels ils sont introduits. Nous décrivons deux types de classification automatique de mots, appris statistiquement sur des textes écrits de journaux et de transcriptions de parole. Ces classifications ne nécessitent pas d'étiquetage des mots, elles sont réalisées suivant les contextes locaux dans lesquels les mots sont observés. L'une est basée sur la distance de Kullback-Leibler et répartit tous les mots dans un nombre de classes fixé à l'avance. La seconde regroupe les mots considérés comme similaires dans un nombre de classes non prédéfini. Cette étude a été réalisée sur les données d'apprentissage en français de domaines, de taille et de vocabulaire différents.

Our goal is to develop robust language models for speech recognition. These models have to predict a word knowing its history. Although the increasing size of electronic text data, all the possible word sequences of a language cannot be observed. A way to generate these non encountered word sequences is to map words in classes. The class-based language models have a better coverage of the language with a reduced number of parameters, a situation which is favourable to speed up the speech recognition systems. Two types of automatic word classification are described. They are trained on word statistics estimated on texts derived from newspapers and transcribed speech. These classifications do not require any tagging, words are classified according to the local context in which they occur. The first one is a mapping of the vocabulary words in a fixed number of classes according to a Kullback-Leibler measure. In the second one, similar words are clustered in classes whose number is not fixed in advance. This work has been performed with French training data coming from two domains, both different in size and vocabulary.

Mot clés : classification, partitionnement, distance, statistiques, optimisation, reconnaissance de la parole, modèles de langages probabilistes
Mots-clés : classifications, mapping, distance, statistics, optimization, speech recognition, language modeling
@article{MSH_1999__147__7_0,
     author = {Beaujard, Christel and Jardino, Mich\`ele},
     title = {Classifications de mots non \'etiquet\'es par des m\'ethodes statistiques},
     journal = {Math\'ematiques informatique et sciences humaines},
     pages = {7--23},
     publisher = {Ecole des hautes-\'etudes en sciences sociales},
     volume = {147},
     year = {1999},
     language = {fr},
     url = {http://archive.numdam.org/item/MSH_1999__147__7_0/}
}
TY  - JOUR
AU  - Beaujard, Christel
AU  - Jardino, Michèle
TI  - Classifications de mots non étiquetés par des méthodes statistiques
JO  - Mathématiques informatique et sciences humaines
PY  - 1999
SP  - 7
EP  - 23
VL  - 147
PB  - Ecole des hautes-études en sciences sociales
UR  - http://archive.numdam.org/item/MSH_1999__147__7_0/
LA  - fr
ID  - MSH_1999__147__7_0
ER  - 
%0 Journal Article
%A Beaujard, Christel
%A Jardino, Michèle
%T Classifications de mots non étiquetés par des méthodes statistiques
%J Mathématiques informatique et sciences humaines
%D 1999
%P 7-23
%V 147
%I Ecole des hautes-études en sciences sociales
%U http://archive.numdam.org/item/MSH_1999__147__7_0/
%G fr
%F MSH_1999__147__7_0
Beaujard, Christel; Jardino, Michèle. Classifications de mots non étiquetés par des méthodes statistiques. Mathématiques informatique et sciences humaines, Tome 147 (1999), pp. 7-23. http://archive.numdam.org/item/MSH_1999__147__7_0/

[1] Adda G., Mariani J., Lecomte J., Paroubek P. et Rajman M., "The GRACE French Part-of-Speech Tagging Evaluation Task", Actes de Language Resources and Evaluation Conference, (1998), 433-441.

[2] Agosti M., Smeaton A., Information Retrieval and Hypertext, Kluwer Academic Publishers, 1996.

[3] Beaujard C., Jardino M., Bonneau-Maynard H., "Evaluation of a Class-Based Language Model in a Speech Recognizer ", Actes de International Workshop on Speech and Computer, (1997), 45-50.

[4] Beaujard C. et Jardino M., "Un Modèle de Langage Mixte Basé sur la Similarité des Mots dans un Système de Reconnaissance de Parole", Actes des Journées d'Étude sur la Parole, (1998), 343-346.

[5] Brown P.F. Et Al., "Class-based n-gram Models of Natural Language ", Computational Linguistics, (1992), vol.18 n°4.

[6] Celeux G. et al., Classification Automatiques des Données, Paris, Dunod Informatique, 1989.

[7] Cover T., Thomas J., Elements of Information Theory, Wiley & sons, 1991. | MR | Zbl

[8] Dagan I., Marcus S. et Markovitch S., "Contextual Word Similarity and Estimation from Sparse Data", Computer Speech and Language, (1995), vol.9, 123-152.

[9] Duda R.O., Hart P.E., Pattern Classification and Scene Analysis, Wiley & sons, 1973. | Zbl

[10] Farhat A., Isabelle J.F. et O'Shaughnessy D., "Clustering Words for Statistical Language Models Based on Contextual Word Similarity", Actes de IEEE International Conference on Acoustics Speech and Signal Processing, (1996), vol.1, 180-183.

[11] Gauvain J.L., Lamel L.F. et Adda G., "The LIMSI 1997 Hub-4E Transcription System", Actes de DARPA Broadcast News Transcriptions and Understanding workshop, (1998), 75-79.

[12] Huckle C., "Grouping Words Using Statistical Context", Actes de meeting of the Association for Computational Linguistics, (1995).

[13] Jardino M., "Multilingual Stochastic n-gram Class Language Models", Actes de IEEE International Conference on Acoustics Speech and Signal Processing, (1996), vol.1, 161-164.

[14] Jardino M., Beaujard C., "Rôle du Contexte dans les Modèles de Langage n-classes , Application et Evaluation sur MASK et RAILTEL", Actes des Journées Scientifiques et Techniques, (1997), 71-74.

[15] Jelinek F., Statistical Methods for Speech Recognition, MIT Press, (1998)

[16] Jelinek F., Mercer R.L. et Bahl L.R., "The Developpment of an Experimental Discrete Dictation Recognizer", IEEE, (1985), vol.73 n°11, 1616-1624.

[17] Lamel L.F. et al., "Developpment of Spoken Language Corpora for Travel Information ", Actes de European Conference on Speech Communication and Technology, (1995), vol.3, 1961-1964.

[18] Ney H., Essen U. et Kneser R., "On Structuring Probabilistic Dependences in Stochastic Langage Modelling ", Computer Speech and Language, (1994), vol.8.