L’étude montre que les langues avec un plus grand nombre de locuteurs ont tendance à être plus difficiles à apprendre sur des machines

Representation de l. a. mesure de l. a. difficulté d’apprentissage dans l’étude 1. Les cercles représentent les bits observés par symbole requis (en moyenne) pour coder/prédire les symboles en fonction de quantités croissantes de données de formation pour différents paperwork (virtuels) dans différentes langues (virtuelles), chacun avec l. a. supply entropie 5. Crédit : Rapports scientifiques (2023). est ce que je: 10.1038/s41598-023-45373-z

Il y a quelques mois à peine, beaucoup de gens auraient trouvé inimaginable à quel level les « modèles de langage » basés sur l’IA pouvaient imiter l. a. parole humaine. Ce que ChatGPT écrit est souvent unattainable à distinguer du texte généré par l’homme.

Une équipe de recherche de l’Institut Leibniz pour l. a. langue allemande (IDS) à Mannheim, en Allemagne, a utilisé des textes dans 1 293 langues différentes pour étudier l. a. rapidité avec laquelle différents modèles de langage informatique apprennent à « écrire ». Le résultat surprenant est que les langues parlées par un grand nombre de personnes ont tendance à être plus difficiles à apprendre pour les algorithmes que les langues avec une communauté linguistique plus petite. L’étude est publiée dans l. a. revue Rapports scientifiques.

Les modèles de langage sont des algorithmes informatiques capables de traiter et de générer le langage humain. Un modèle de langage peut reconnaître des modèles et des régularités dans de grandes quantités de données textuelles et apprend ainsi progressivement à prédire le texte futur. Un modèle de langage spécifique est le modèle dit « transformateur », sur lequel est construit le célèbre carrier de chatbot, ChatGPT.

Lorsque l’algorithme est alimenté par du texte généré par l’homme, il développe une compréhension des probabilités d’apparition de composants de mots, de mots et d’expressions dans certains contextes. Ces connaissances acquises sont ensuite utilisées pour faire des prédictions, c’est-à-dire pour générer de nouveaux textes dans des eventualities nouvelles.

Par exemple, lorsqu’un modèle analyse l. a. word « Dans l. a. nuit noire, j’ai entendu un son lointain… », il peut prédire que des mots comme « hurlement » ou « bruit » seraient des continuations appropriées. Cette prédiction est basée sur une certaine « compréhension » des family members sémantiques et des probabilités de combinaisons de mots dans l. a. langue.

Dans une nouvelle étude, une équipe de linguistes de l’IDS a étudié l. a. rapidité avec laquelle les modèles de langage informatique ont appris à faire des prédictions en les formant sur du matériel textuel dans 1 293 langues. L’équipe a utilisé des modèles de langage plus anciens et moins complexes ainsi que des variantes modernes telles que le modèle Transformer mentionné ci-dessus. Ils ont examiné combien de temps il fallait à différents algorithmes pour développer l. a. compréhension des modèles dans différents langages.

L’étude a révélé que l. a. quantité de texte qu’un algorithme doit traiter pour apprendre une langue – c’est-à-dire prédire ce qui va suivre – varie d’une langue à l’autre. Il s’avère que les algorithmes linguistiques ont tendance à avoir plus de mal à apprendre des langues avec de nombreux locuteurs natifs que des langues représentées par moins de locuteurs.

Cependant, ce n’est pas aussi easy qu’il y paraît. Pour valider l. a. relation entre les difficultés d’apprentissage et le quantity du locuteur, il est nécessaire de contrôler plusieurs facteurs.

Le défi est que les langues étroitement apparentées (par exemple l’allemand, le suédois) sont beaucoup plus similaires que les langues éloignées (par exemple l’allemand, le thaï). Cependant, ce n’est pas seulement le degré de parenté entre les langues qui doit être contrôlé, mais aussi d’autres influences telles que l. a. proximité géographique entre deux langues ou l. a. qualité du matériel textuel utilisé pour l. a. formation.

“Dans notre étude, nous avons utilisé diverses méthodes allant des statistiques appliquées à l’apprentissage automatique pour contrôler le plus étroitement imaginable les facteurs de confusion potentiels”, explique Sascha Wolfer, l’un des auteurs de l’étude.

Cependant, quels que soient l. a. méthode et le sort de texte de saisie utilisés, une relation statistique cohérente a été trouvée entre l’apprentissage automatique et le quantity du locuteur.

“Le résultat nous a vraiment surpris ; sur l. a. base de l’état actuel de l. a. recherche, nous nous serions attendus au contraire : que les langues avec plus de locuteurs ont tendance à être plus faciles à apprendre pour une gadget”, déclare Alexander Cobling, auteur primary de l’étude. . .

Les raisons de cette relation ne peuvent jusqu’à présent être que spéculées. Par exemple, une étude précédente menée par l. a. même équipe de recherche a montré que les langues plus grandes ont tendance à être globalement plus complexes. Alors peut-être qu’un effort d’apprentissage accru « s’avère payant » pour les apprenants de langues humaines : automobile une fois que vous apprenez une langue complexe, vous disposez d’choices linguistiques plus diverses, ce qui peut vous permettre d’exprimer le même contenu sous une forme plus courte.

Mais des recherches supplémentaires sont nécessaires pour tester ces explications (ou d’autres). “Nous sommes encore relativement en avance”, souligne Koblenig. « L. a. prochaine étape consiste à voir si, et dans quelle mesure, il est imaginable de transférer nos résultats d’apprentissage automatique vers l’acquisition du langage humain. »

Plus d’data:
Alexander Koblenig et al., les langues avec un plus grand nombre de locuteurs ont tendance à être plus difficiles à apprendre (automatiquement), Rapports scientifiques (2023). est ce que je: 10.1038/s41598-023-45373-z

Fourni par l’Institut Leibniz pour l. a. langue allemande

l. a. quotation: Une étude montre que les langues avec plus de locuteurs ont tendance à être plus difficiles à apprendre pour les machines (7 novembre 2023) Récupéré le 7 novembre 2023 sur

Ce report est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.