„Linguistik ass eng Wëssenschaft, déi sech mat der mënschlecher Sprooch befaasst“, definéiert d’Sara Martin a verweist op eng Rei vun Domäner, déi vun dëser wëssenschaftlecher Disziplin ofgedeckt ginn: d’Sproochgeschicht (also historesch Linguistik), d’Computer- an d’Korpuslinguistik (doriwwer gläich méi), d’Phoneetik (hei geet et ëm d’Aussprooch), d’Morphologie (déi d’Zesummesetzung vun de Wierder an z. B. d’Bildung vu Plurielle behandelt), d’Syntax (Fokus op den Opbau vum Saz), d’Soziolinguistik (Relatioun tëschent Sprooch a Gesellschaft). An hirer Dokteraarbecht huet déi humorvoll Linguistin, där hir Passioun fir d’Sprooch een am Gespréich eraushéiert, sech mat mat der sproochlecher Referenz op weiblech Persounen am Lëtzebuergeschen auserneegesat. Zentral ass dobäi ënner anerem d’Fro: Wéini benotzt een de Pronomen „hatt“ oder „si“, fir op eng weiblech Persoun ze referéieren?
De Christopher Morse, e gewiiften a sympatheschen US-Amerikaner, dee seng Dokteraarbecht zum Theema „user experience design for museums and digital cultural heritage“ op der Uni Lëtzebuerg geschriwwen huet, bréngt den Ënnerscheed tëschent Linguistik a Computerlinguistik op de Punkt: „Ech mengen, dee gréissten Ënnerscheed tëschent enger Linguistin an engem Computerlinguist ass eist Zilpublikum. Fir d’Sara sinn et d’Mënschen, fir mech ass et de Computer.“ Ganz banal gesot bedeit dat, dass et der Linguistik dorëm geet, de Mënschen d’Sprooch ze erklären a bäizebréngen, an d’Computerlinguistik stellt sécher, dass de Computer d’Sprooch versteet. De Christopher Morse gëtt e Beispill, fir eis dësen Challenge ze erklären: „Ech soen eppes wéi ‚dat hei ass mäi Becher‘ a stellen en op den Dësch. Fir eis ass et ganz einfach, ze verstoen, wat domat gemengt ass; fir de Computer ass dat awer eng komplett aner Saach. De Computer weess net, wat ‚hei‘ oder ‚en‘ heescht. Meng Aufgab ass et also, d’Sprooch an e logesche Modell ze transforméieren, deen de Computer begräife kann.“
Als (Computer-)Linguist*innen, déi d’Lëtzebuerger Sprooch analyséieren a vermëttelen, ass d’Situatioun vum Lëtzebuergeschen e besonneschen Challenge. D’Sara Martin schwätzt vun enger relativ klenger Spriecher*innegemeinschaft, de Christopher Morse benotzt den Term „low resource language“. Konkreet bedeit dat, dass et keng esou grouss Textsammlungen, d. h. Korpussen op Lëtzebuergesch ginn, déi de Sproochwëssenschaftler*innen als Fuerschungsmaterial zur Verfügung stinn. „Elo zwar ëmmer méi, well ënner anerem mir natierlech doru schaffen. Awer fir déi däitsch Sprooch existéieren déi Korpussen zënter Joerzéngten. Et gi riseg Zeitungstextsammlunge mat Artikele vum Spiegel, der FAZ asw.“ An nach eng weider Erausfuerderung kënnt dobäi, nämlech d’Situatioun vun der Méisproochegkeet. Fir d’Lëtzebuergescht selwer heescht dat z. B., dass ee gären an aner Sprooche Begrëffer léine geet. Dat mécht d’Erfuerschung vun der Lëtzebuerger Sprooch méi interessant – virun allem mat Bléck op d’Lexik, also de Wuertgebrauch.
Zënter 2007 gëtt et de Lëtzebuerger Online Dictionnaire. Am Moment ass d’Sara Martin déi Haaptresponsabel fir dës Plattform. Si verréit, dass et aktuell 33.600 Artikelen am LOD ginn. Am Verglach mam däitschen Duden géif dat no net vill kléngen, an awer wär et fir d’Lëtzebuerger Sprooch net wéineg. „Den LOD ass zënter 18 Joer online. En huet mam Buschtaf A an 1.500 Artikele gestart. Mir sinn also schonn e ganze Wee gaangen. Et däerf een net vergiessen, dass et iwwer déi däitsch Sprooch säit e puer Joerhonnerten Dictionnairë ginn. An och den Duden huet emol méi kleng ugefaang: An der alleréischter Ausgab vun 1880 stounge ‚just‘ 27.000 Stéchwierder; an der aktueller Oplo vum Rechtschreibduden sinn et der dogéint 150.000“, bemierkt d’Linguistin.
Ëmfaassend ass den Dictionnaire mat sengen iwwer 30.000 Artikelen awer tatsächlech. Vill verschidde Realitéitsberäicher si mëttlerweil ofgedeckt, an awer ass et natierlech keng komplett Representatioun vun der Lëtzebuerger Sprooch – dat wär och net méiglech, well eng Sprooch ëmmer eppes Lieweges ass, dat sech kontinuéierlech transforméiert. „Wierder, déi guer net méi am aktive Sproochgebrauch ze fanne sinn, gi beispillsweis net opgeholl“, seet d’Sara Martin, „d’Luxemburger Wörterbuch representéiert dofir awer de Sproochstand vun 1950 bis 1970.“
Fir d’Fro ze klären, wéini e Wuert an den LOD opgeholl gëtt, muss ee verstoen, dass den ZLS sech selwer an domat eigentlech och d’Lëtzebuerger Sprooch als oppent Haus begräift. Gemengt ass domat, dass et e permanenten Dialog tëschent de Spriecher*innen an dem ZLS gëtt, deem seng Perspektiv op d’Lëtzebuerger Sprooch allgemeng eng deskriptiv ass: Den LOD beschreift, e schreift net vir.
Et ginn dräi Méiglechkeeten, wéi e Wuert säi Wee an den LOD fënnt:
Den ZLS gesäit, no wéi enge Wierder am LOD gesicht gëtt, an huet esou och e Bléck fir déi Recherchen, déi keen Treffer hunn. „Fir eis ass dat en Hiweis dorop, dass dat Wuert am Ëmlaf ass. Esou hu mir masseweis anonymiséiert Daten doriwwer, wat d’Leit sichen, an domat eigentlech och en Optrag“, seet d’Sara Martin.
Zënter gutt zwee Joer ass et méiglech, direkt e Wuert op der Websäit virzeschloen, dat soll an den LOD opgeholl ginn, wann et vun de Spriecher*inne vermësst gëtt. Bis elo krut den ZLS gutt 8.500 Wuertvirschléi.
Den ZLS schafft mat eegenen Textkorpusse mat zeg Millioune Wierder (an Däitschland hunn esou Korpora Milliarde Wierder) a selektionéiert doraus Begrëffer, déi eng bestëmmte sproochlech Relevanz hunn, also etabléiert sinn. Et handelt sech ëm eng Sammlung aus Chambers-Texter, Literatur, Online-Artikelen asw.
Den LOD soll et an Zukunft net nëmmen online ginn, mee et ass geplangt, den Dictionnaire an zwee Joer op Pabeier erauszebréngen. „Effektiv ass et esou, dass eng Pabeierform vum LOD vill gefrot gëtt – d’Ausgab kéint dann eng 35.000 Artikelen hunn“, esou d’Sproochwëssenschaftlerin.
D’Sproochmaschinn ass am Februar 2025 online gaangen a besteet aus zwee Deeler: d’Schreif– an d’Liesmaschinn. Bei der Schreifmaschinn handelt et sech ëm e Sproocherkennungsprogramm, dee geschwatent Lëtzebuergesch a geschriwwenen Text transforméiert. D’Liesmaschinn wandelt Lëtzebuerger Text a geschwate Sprooch ëm. „Den urspréngleche Programm ass unhand vu enger 40 Stonne laanger Audiodatei trainéiert ginn. Mëttlerweil gëtt un engem neie Programm geschafft, dee 70 Stonnen als Datematerial huet“, seet de Christopher Morse: „Domat gëtt d’Leeschtung vum Programm e gutt Stéck besser. Et geet méi schnell an ass méi prezis.“
Wann een un esou enger Plattform fir digital Sproochveraarbechtung schafft, ass den Challenge fir déi spezifesch Lëtzebuerger Sproochsituatioun ëmmer, dass et schwiereg ass, eng gutt Basis un Datematerial ze fannen. De Computerlinguist ergänzt: „Et brauch een net nëmmen den Text, mee och eng Audiodatei, fir déi zwou Versiounen esou optimal wéi méiglech openeen ofzestëmmen. Dofir hu mir e speziellen Tool gebraucht, deen eis dobäi gehollef huet. Mir hunn elo 70 Stonnen Text- an Audiodaten, déi praktesch perfekt alignéiert sinn. Mir trainéieren all eis Toolen, mat deene mir schaffen, hei am ZLS, an dat ass extreem zäitopwendeg.“
„E weideren Challenge ass, dass d’Datematerial vun der Lëtzebuerger Sprooch oft net orthografesch korrekt ass, mee de Programm muss d’Orthografie jo richteg léieren“, bemierkt d’Sara Martin. An da stelle sech weider Froe wéi: Gi Fëllwierder wéi „hmm“ oder „ëëë“ och berücksichtegt? A wéi ass et mat den Artikelen/Pronomen „déi“ oder „di“, ginn déi bei der Verschrëftlechung (vum Geschwatenen) genee esou iwwerholl? „Mir probéieren, esou exakt wéi méiglech un deem ze bleiwen, wat d’Leit soen“, esou den Expert. Dass den ZLS dofir am Moment un enger neier Versioun vun der Sproochmaschinn schafft, ass net verwonnerlech. D’Zil ass, dass déi nei Sproochmaschinn nach méi intuitiv fir d’Benotzer*inne soll funktionéieren an och méi performant an hirer Ëmsetzung ass.
D’Sara Martin ass der Meenung, dass d’Lëtzebuerger Sprooch an zéng Joer éischter nach méi geschwat gëtt wéi haut: „Wann ee prozentual kuckt, geet Lëtzebuergesch als Mammesprooch zwar erof, mee déi insgesamt Unzuel vun de Spriecher*innen hëlt zou. Menger Meenung no geet dat an den nächste Joren och esou weider.“ Wichteg wär et eeben, den Ënnerscheed tëschent Lëtzebuergesch als éischt Sprooch an der Gesamtzuel vun der Spriecher*innegemeinschaft ze maachen. Den allgemengen Interessi un der Lëtzebuerger Sprooch wäert wuessen, esou d’Linguistin.
De Christopher Morse gesäit dat änlech, bréngt awer nach zwou aner Perspektive mat an d’Spill: eng méi praktesch an eng méi visionär. D’Lëtzebuerger Sprooch wäert u Visibilitéit gewannen, well se a ville verschiddene Beräicher wäert Fouss faassen, z. B. an diversen Online-Toolen, fir d’Sprooch ze léieren. An deem Prozess wäert d’Kënschtlech Intelligenz eng essenziell Roll hunn. Déi visionär Perspektiv formuléiert de Computerlinguist esou: „Mir steieren ëmmer méi op eng Welt zou, an där alles zu Date gëtt. Dat wäert eis d’Chance ginn, d’sproochlech Evolutioun vum Lëtzebuergeschen op engem Niveau ze analyséieren, dee bis elo onvirstellbar ass – dat gëllt natierlech fir all Sprooch. Mir wäerten esou eppes wéi e liewegen Dictionnaire kënne generéieren, dee permanent evoluéiert. Esou sinn Erkenntnisser iwwer d’Sprooch méiglech, déi aktuell nach wéi Fantasie kléngen.“
Dat schéngt wéi eng Visioun, an där d’Lëtzebuerger Sprooch tatsächlech zum oppenen, liewegen Haus ginn ass. „Lëtzebuergesch gehéiert als Sprooch jidderengem“, seet de Christopher Morse um Enn vun eisem Gespréich – an domat mengt e warscheinlech net nëmmen all d’Mënschen, mee och d’Kënschtlech Intelligenzen.
En Artikel vum Heng Barone