Biblia prawdę (o językach) ci powie…

Google Translate i inne narzędzia do automatycznych tłumaczeń faworyzują osoby posługujące się angielskim albo innymi popularnymi językami. Mają jednak małe, jeśli nie żadne, zastosowanie w pracy z rzadszymi językami, takimi jak walijski, farerski albo galicyjski, czy chociażby – szukając bliżej Polski – litewski. Językoznawcy, korzystający z różnych tłumaczeń Biblii i artykułów w Wikipedii, przygotowują technologię, która umożliwi jednoczesny przekład na nawet 100 języków.

Osoby znające angielski to prawdziwi szczęściarze – mogą dogadać się z telefonem komórkowym, używać wyszukiwania głosowego czy korzystać z przekładów automatycznych. Posługiwanie się angielskim daje wiele możliwości dlatego, że jest to bardzo popularny język, w którym istnieje ogromna liczba źródeł. Użytkownicy rzadszych języków mają mniej szczęścia.

Pracując na systemami do tłumaczeń automatycznych, korzystamy z ogromnej ilości tekstów z odręcznymi dopiskami zawierającymi informację o funkcji i znaczeniu poszczególnych słów. W popularnych językach istnieje bardzo wiele źródeł, których brakuje jednak dla rzadkich języków takich jak farerski czy irlandzki, a nawet dla popularnych języków afrykańskich, takich jak joruba – języków używany przez ponad 20 milionów ludzi – tłumaczy profesor Anders Søgaard z Uniwersytetu w Kopenhadze, który wraz ze współpracownikami rozwija technologię tłumaczeń na rzadkie języki.

Tłumaczenia te będą przygotowywane m.in. na podstawie Biblii, której tekst był przetłumaczony na ponad 1500 języków, nawet najbardziej egzotycznych. – Tłumaczenia Pisma Świętego są bardzo ścisłe – w bardzo wielu językach zachowana jest struktura wersów, co ułatwia przygotowanie modeli komputerowych dla rzadkich języków – dodaje profesor duński naukowiec.

Innym wykorzystywanym przez naukowców źródłem jest Wikipedia – internetowa encyklopedia przygotowywana przez internautów. Wikipedia zawiera ponad 35 milionów artykułów, ale, co ważniejsze dla naukowców, ponad 10 tysięcy artykułów ma swoje wersje w niemal 130 językach. Ponieważ artykuły zawierają w przybliżeniu te same informacje, pozwalają naukowcom na opracowanie modeli rozpoznających znaczenie i funkcję poszczególnych słów.

Jeśli w angielskim artykule w Wikipedii dotyczącym Harrego Pottera pojawi się słowo „glasses” a w polskiej wersji będą tam „okulary”, istnieje duża szansa, że słowa te będą reprezentowane w podobny sposób w opracowywanych przez nas modelach, o które opieramy system automatycznych tłumaczeń. Dodatkową zaletą naszego modelu jest to, że może być wykorzystywany nawet w 100 różnych językach jednocześnie, a modele są tworzone także dla języków, w których wcześniej brakowało źródeł  – wyjaśnia profesor Søgaard.

Magdalena Łuniewska

Źródło: University of Copenhagen – Faculty of Humanities. „Linguists use the Bible to develop language technology for small languages.” ScienceDaily.

 

Serwis „Wszystko o dwujęzyczności” jest dostępny na licencji Creative Commons znanie autorstwa 3.0 Polska. Pewne prawa zastrzeżone na rzecz Uniwersytetu Warszawskiego. Utwór powstał w ramach projektu finansowanego w ramach konkursu „Współpraca z Polonią i Polakami za granicą w 2015 r.” realizowanego za pośrednictwem MSZ w roku 2015. Zezwala się na dowolne wykorzystanie utworu, pod warunkiem zachowania ww. informacji, w tym informacji o stosowanej licencji, o posiadaczach praw oraz o konkursie Współpraca z Polonią i Polakami za granicą w 2015 r.”.

Może Ci się również spodoba

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

Witryna wykorzystuje Akismet, aby ograniczyć spam. Dowiedz się więcej jak przetwarzane są dane komentarzy.