« Nous pensons dans nos propres langues, nous rêvons en elles et nous interprétons le monde à travers elles. Si la technologie ne reflète pas cela, tout un groupe risque d’être laissé pour compte. » Cette déclaration du professeur Vukosi Marivate de l’Université de Pretoria, rapportée par la BBC, résume l’un des plus grands angles morts de la révolution de l’intelligence artificielle : son immense fracture linguistique. Alors que les grands modèles de langage (LLM) comme ChatGPT redéfinissent l’accès à l’information et aux services, ils le font dans une poignée de langues « riches en données ». L’Afrique, avec son patrimoine de plus de 2000 langues – près d’un tiers de l’humanité linguistique selon Ethnologue –, est aujourd’hui un quasi-désert numérique, menaçant de créer une nouvelle forme de colonialisme digital. Mais face à ce péril, une génération de scientifiques et d’entrepreneurs africains a décidé de prendre son destin en main.
La Racine Technique du Problème : Le Famine de Données
Le problème n’est pas un oubli, mais une conséquence de la manière dont l’IA est construite. Les LLM sont des monstres de données, nécessitant des milliards de mots écrits pour s’entraîner. Ils se sont nourris de l’intégralité de l’internet, des bibliothèques numérisées, de Wikipédia… des corpus où l’anglais, le chinois et les langues européennes sont hégémoniques. Or, la richesse linguistique de l’Afrique est avant tout orale. Pour la grande majorité des langues africaines, il n’existe pas de corpus textuel numérique massif. Ce sont des langues dites « à faibles ressources » (« low-resource languages » en jargon NLP), un défi technique immense pour l’IA, qui peine à apprendre sans cette matière première. Le résultat est une exclusion de fait.
« African Next Voices » : Bâtir les Fondations d’une IA Inclusive
Face à ce constat, une initiative majeure, révélée par la BBC, change la donne. Le projet « African Next Voices », financé à hauteur de 2,2 millions de dollars par la Fondation Gates, a réuni linguistes et informaticiens pour s’attaquer au problème à la source. Plutôt que de chercher des textes inexistants, ils ont créé une base de données vocales. Pendant deux ans, des équipes ont enregistré 9 000 heures de parole dans 18 langues à travers le Kenya, le Nigeria et l’Afrique du Sud, capturant des conversations de la vie de tous les jours dans des domaines comme l’agriculture, la santé ou l’éducation. L’approche, comme l’explique la linguiste computationnelle kenyane Lilian Wanzare, est qualitative : « Nous avons rassemblé des voix de différentes régions, âges et origines pour que ce soit aussi inclusif que possible. La Big Tech ne peut pas toujours voir ces nuances. » En rendant ces données accessibles à tous (open access), le projet ne vise pas à construire une IA africaine, mais à donner à des milliers de développeurs locaux les outils pour le faire.
Du Champ à la Banque : Les Premières Applications Concrètes
Cette approche porte déjà ses fruits. L’article de la BBC cite l’exemple de Kelebogile Mosime, une agricultrice sud-africaine qui utilise l’application AI-Farmer. « Je peux poser des questions dans ma langue maternelle, le setswana, sur les options de lutte contre les insectes ou pour diagnostiquer des plantes malades, et j’obtiens une réponse utile », explique-t-elle. Dans un autre registre, la startup sud-africaine Lelapa AI, dirigée par Pelonomi Moiloa, développe des outils en langues locales pour les banques et les entreprises de télécommunications, afin de briser la barrière de « l’anglais comme langue de l’opportunité », qui, selon elle, exclut des millions de personnes des services essentiels.
Un Mouvement Panafricain face à la Big Tech
« African Next Voices » n’est pas un effort isolé. Il s’inscrit dans un mouvement continental plus large. L’initiative la plus emblématique est sans doute Masakhane (qui signifie « nous construisons ensemble » en isiZulu), un réseau de chercheurs et de passionnés qui collaborent de manière bénévole pour créer des datasets et des modèles pour les langues africaines. Financés en partie par des initiatives comme le Lacuna Fund, ces projets « bottom-up » et communautaires contrastent avec les approches plus centralisées des géants de la tech. Si Google (avec son initiative « 1000 Langues ») et Meta (avec « No Language Left Behind ») investissent également dans la traduction et la reconnaissance des langues à faibles ressources, leur approche « top-down » peut peiner à capturer la diversité des dialectes et les contextes culturels. La force du mouvement africain est de construire une IA ancrée dans les réalités locales, par et pour les Africains.
Plus que des Données, une Bataille pour l’Imaginaire
En définitive, l’enjeu dépasse largement la technologie. Comme le conclut le professeur Marivate dans son interview à la BBC : « La langue est un accès à l’imagination. Ce ne sont pas que des mots – c’est l’histoire, la culture, le savoir. Si les langues indigènes ne sont pas incluses, nous perdons plus que des données ; nous perdons des manières de voir et de comprendre le monde. » La lutte pour que l’IA parle zoulou, yoruba ou amharique est une bataille pour la souveraineté cognitive. Il s’agit de s’assurer que dans le monde numérique de demain, la richesse de la pensée africaine ne soit pas « lost in translation », mais qu’elle puisse au contraire participer pleinement à l’intelligence collective de l’humanité.

