La recherche par langue désormais disponible sur eluxemburgensia.lu

Le portail eluxemburgensia.lu rassemble toutes les ressources numérisées par la Bibliothèque nationale du Luxembourg (BnL) et a été doté d'une nouvelle facette de recherche. Désormais, les utilisateurs peuvent filtrer leur recherche par langue, par exemple, l'allemand, le français ou le luxembourgeois.

Les journaux, livres et revues historiques numérisées par la BnL témoignent de la culture de multilinguisme présente au Luxembourg et rassemblent souvent différentes langues sur une même page. La nouvelle option de filtrage permet à un utilisateur, qui préfère lire des articles dans une langue spécifique, de filtrer l'ensemble des contenus sur eluxemburgensia.lu et de cibler d'avantage sa recherche.

Les langues principales sur le portail sont l'allemand, qui compte pour 66% du total, suivi du français à hauteur de 32%. Le luxembourgeois est représenté dans une proportion nettement inférieure, avec un peu plus de 105.000 articles (soit 1,4%), tandis que l'anglais, avec 9.900 articles (soit 0,1%), est considéré comme minoritaire. 14 autres langues ont été détectées dont le latin, l'italien, le portugais et le polonais.

Informations techniques:

Quel est le processus de détection de langue?

Tandis que la détermination de la langue pour les monographies est faite à base des notices bibliographiques, l'exercice s'avère plus compliqué pour les articles des périodiques pour lesquels de telles données n'existent pas. Comme la reconnaissance optique de caractères (OCR) n'est pas encore parfaite et que certains types de textes, tels que des listes de noms, n'ont pas de langue indentifiable, l'algorithme développé par la BnL utilise plusieurs heuristiques complémentaires:

  • Un vote entre les algorithmes standard fasttext, cld3 et langid;
  • Des dictionnaires des langues identifiées dans la collection;
  • Des mesures de la qualité de l'OCR;
  • Des informations sur les autres articles du périodique.

Pour les langues avec moins de 1.000 articles, les textes sont revus à la main pour vérifier si l'algorithme a en effet déterminé la bonne langue. Ceci permet de garder une certaine précision pour les langues marginales. Pour les autres articles, la langue n'est pas revue manuellement et il reste des imprécisions. En outre, il y a des articles multilingues (p.ex. une partie en français, une autre en allemand) pour lesquels la langue dominante est choisie. Finalement, certains types de textes, tels que des listes de noms, ne se prêtent pas à ce genre de processus de détermination de langue.

Points forts pour développeurs:

Les professionnels des NTIC et développeurs apprécieront que les informations de langue aient été intégrées dans les métadonnées des documents numérisés et qu'elles puissent être utilisées pour l'analyse de données. En effet, les algorithmes du traitement automatique de langue posent de bonnes bases pour le développement de nouveaux outils d'analyse de textes historiques.

Communiqué par la Bibliothèque nationale du Luxembourg (BnL)

Dernière mise à jour