Tatoeba
Rodzaj witryny |
Otwarte zasoby edukacyjne (OER) |
---|---|
Dostępne w | 56 języków interfejsu; treść w 420 językach (listopad 2022) |
Właściciel | Stowarzyszenie Tatoeba |
Stworzone przez | Trang Ho, Allan Simon |
Adres URL | |
Handlowy | NIE |
Rejestracja | Opcjonalny |
Wystrzelony | 2006 |
Aktualny stan | Online; beta |
Licencja na zawartość |
Creative Commons Uznanie autorstwa 2.0 (niektóre zdania na licencji Creative Commons Zero , dźwięk jest różny) |
Tatoeba to darmowy zbiór przykładowych zdań z tłumaczeniami przeznaczony dla osób uczących się języków obcych . Jego nazwa pochodzi od japońskiego wyrażenia „tatoeba” ( 例えば ), oznaczającego „na przykład”. Jest tworzony i utrzymywany przez społeczność wolontariuszy w modelu otwartej współpracy . Indywidualni współpracownicy są znani jako Tatoebans. Jego gospodarzem jest Association Tatoeba, francuska organizacja non-profit finansowana z darowizn.
Od listopada 2022 r. Tatoeba Corpus zawiera ponad 10 800 000 zdań w 420 językach. 55 z tych języków ma 10 000 lub więcej zdań. Około 1 miliona zdań ma nagrania dźwiękowe.
Zdania są ze sobą powiązane w obrębie wykresu , co ułatwia tłumaczenie w różnych językach. Od listopada 2022 r. Wykres Tatoeba zawiera ponad 21 800 000 linków między zdaniami. 237 par językowych ma ponad 10 000 przetłumaczonych zdań.
Historia
W 2006 roku Trang Ho był sfrustrowany, że w przeciwieństwie do niektórych swoich japońskich odpowiedników, niemieckie słowniki dwujęzyczne nie zawierały wyszukiwania pełnotekstowego przykładów użycia wraz z tłumaczeniami. Doprowadziło ją to do wyobrażenia sobie swojego idealnego słownika i zbudowania prototypu hostowanego na SourceForge pod nazwą „multilangdict”. Główny nacisk kładziono już na crowdsourcing przetłumaczonych zdań: „Rzeczy w rodzaju Wikipedii, z wyjątkiem tego, że ludzie dodają zdania, a nie artykuły”.
Równolegle ze studiami na Uniwersytecie Technologicznym w Compiègne Trang Ho wraz z kilkoma kolegami z klasy stopniowo ulepszała swoją stronę internetową. Dwukrotnie przebudowała projekt od zera i przemianowała go na Tatoeba. We wrześniu 2007 r. około 150 000 angielsko-japońskich par zdań z Tanaka Corpus — ogólnodostępnej kompilacji wydanej w 2001 r. przez Uniwersytetu Hyogo Yasuhito Tanakę i utrzymywanej przez Jima Breena i Paula Blaya — zostało zaimportowanych do Tatoeba Corpus. W grudniu 2008 r. Trang Ho wydał pierwszą wersję aktualnej bazy kodu zbudowanej wokół bardziej elastycznego modelu danych . W następnym miesiącu witryna została przeniesiona do domeny tatoeba.org.
W roku akademickim 2009-2010 Allan Simon — wówczas student SUPINFO — został głównym programistą Tatoeby. Wraz z Trang Ho i innymi młodymi programistami sprawili, że Tatoeba stała się bardziej społecznościowa: listy zdań, profile użytkowników, prywatne wiadomości i inspirowana Facebookiem ściana . Wprowadzili także istotne funkcje, takie jak łączenie zdań, tagowanie i wyszukiwanie „tłumaczenia tłumaczenia”. W listopadzie 2010 roku Tatoeba przekroczył granicę 600 000 wyroków. W ciągu roku liczba dodawanych dziennie wyroków wzrosła prawie 50-krotnie.
W latach 2014-2016 wokół Trang Ho powstał nowy zespół programistów. Byli mentorami dla studentów podczas Google Summer of Code 2014 i dodali funkcje poprawiające jakość korpusu.
W latach 2018-2020 wsparcie Fundacji Mozilla w ramach projektu Common Voice pozwoliło Tatoeba uczynić swoją platformę bardziej otwartą i przyjazną dla użytkownika.
Otwartość
Czytanie
Użytkownicy, nawet ci, którzy nie są zarejestrowani, mogą wyszukiwać słowa w dowolnym języku, aby znaleźć zdania, które ich używają. Każde zdanie w Tatoeba Corpus jest wyświetlane obok jego prawdopodobnych tłumaczeń na inne języki; tłumaczenia i „tłumaczenia tłumaczeń” są zróżnicowane. Zdania są oznaczane pod kątem treści, takich jak tematyka, dialekt lub wulgaryzmy ; każdy z nich ma również indywidualne wątki komentarzy, aby ułatwić opinie i poprawki od innych użytkowników i uwagi kulturowe. Zdania można przeglądać według języka, tagów i innych kryteriów.
Redagowanie
Zarejestrowani użytkownicy mogą dodawać nowe zdania lub tłumaczyć lub korygować istniejące, nawet jeśli ich język docelowy nie jest ich językiem ojczystym. Zachęcamy jednak użytkowników do dodawania oryginalnych zdań lub tłumaczeń w ich ojczystym lub najsilniejszym języku.
Użytkownicy mogą swobodnie edytować swoje zdania, „adoptować” i poprawiać zdania bez właściciela oraz komentować zdania innych. Zaawansowani współtwórcy, o randze wyższej niż zwykli współtwórcy, mogą oznaczać, łączyć i rozłączać zdania. Opiekunowie Corpus, o randze wyższej niż zaawansowani współtwórcy, mogą usuwać tagi i usuwać zdania. Mogą również modyfikować posiadane zdania, choć zazwyczaj robią to tylko wtedy, gdy właściciel nie odpowiada na prośbę o zmianę.
Operacja
Tatoeba otrzymał grant od Mozilla Drumbeat w grudniu 2010 roku.
Niektóre prace nad infrastrukturą Tatoeba były sponsorowane przez Google Summer of Code , edycja 2014.
W maju 2018 r. otrzymali grant w ramach programu Mozilla Open Source Support (MOSS) w wysokości 25 000 USD.
W sierpniu 2019 roku otrzymali grant w ramach programu Mozilla Open Source Support (MOSS) w wysokości 15 000 USD.
Dostęp do treści
Licencjonowanie treści
Domyślnie zdania z Tatoeba Corpus są publikowane na licencji Creative Commons Uznanie autorstwa 2.0 , uwalniając je do użytku akademickiego i innego. Użytkownicy mogą również dodawać zdania w ramach Creative Commons Zero , chociaż tłumaczenia tych zdań nie mogą obecnie podlegać tej samej licencji.
Nagrania dźwiękowe zdań korzystają z wybranej przez mówcę licencji, takiej jak CC BY 4.0, BY-SA, BY-NC lub w ogóle nie mają licencji publicznej.
Użycie offline
Odwiedzający mogą pobrać oddzielone tabulatorami pary zdań gotowe do zaimportowania do Anki i podobnego oprogramowania Spaced Repetition Software na stronie internetowej Tatoeba.
Powiązane projekty
Nauczenie się drugiego języka
Zdania Tatoeba mogą być używane do tworzenia odniesień leksykograficznych dla osób uczących się języka. Słownik JMdict wybiera przykładowe zdania z Tatoeba Corpus. OpenRussian to darmowy słownik rosyjski zbudowany głównie z treści Wikisłownika i Tatoeby. GoodExample próbuje automatycznie wyodrębnić zróżnicowany zestaw wysokiej jakości przykładowych zdań z angielskiego Tatoeba Corpus.
Zbiory danych Tatoeba mogą zasilać przypadkowe doświadczenia edukacyjne, które łączą naukę języka obcego z codziennymi czynnościami użytkownika, takimi jak przeglądanie stron internetowych lub czytanie książek. Zespół z MIT Media Lab wykorzystał przykładowe zdania z Tatoeba w WordSense, platformie rzeczywistości mieszanej , która umożliwia „ nieoczekiwane uczenie się języków w środowisku naturalnym”. Niedawno japońscy naukowcy wdrożyli funkcję wyszukiwania Tatoeba w zintegrowanym środowisku pomocy w pisaniu. Reverso używa w swoim tekście równoległych korpusów Tatoeba dwujęzyczny konkordancer .
Zdania przykładowe służą również jako baza do ćwiczeń. Charles Kelly i Paul Raine, obaj EFL w Japonii, opracowali ćwiczenia językowe oparte na zdaniach wybranych z Tatoeba Corpus. Clozemaster to program do samodzielnej nauki języka , który generuje grywalne testy cloze z par zdań Tatoeba. Niektórzy Anki udostępniają fiszki utworzone za pomocą Tatoeba.
Języki regionalne lub mniejszościowe
aktywiści cyfrowi zajmujący się językami biorą udział w otwartych projektach współpracy, takich jak Tatoeba, Wikipedia i Common Voice, aby promować swój język mniejszości w przestrzeni cyfrowej. Języki regionalne, takie jak kabylski , kataloński lub baskijski , mogą zarejestrować ponad stu członków na Tatoeba.
Języki sztuczne
Wybrane treści z Tatoeby w języku esperanto są dostępne na wielojęzycznym DVD Esperanto Elektronike wydanym przez E@I . Od listopada 2022 r. Esperanto jest piątym językiem osiowym Tatoeby , z ponad 330 000 zdań przetłumaczonych na co najmniej dwa języki. Inne sztuczne języki, takie jak toki pona , interlingua , klingoński , lojban i ido , również mają znaczący wpływ.
Technologia językowa
W latach 2008-2011 Francis Bond wykorzystywał Tatoeba Corpus do swoich badań nad językiem japońskim.
szerzej rozpowszechnia korpusy równoległe Tatoeba w społeczności tłumaczy maszynowych , udostępniając je w repozytorium OPUS i organizując „Tatoeba Translation Challenge”. Wraz z rozwojem głębokiego uczenia się naukowcy coraz częściej wykorzystują zestawy danych Tatoeba do szkolenia i oceny swoich wielojęzycznych modeli w zadaniach takich jak tłumaczenie maszynowe , identyfikacja języka , wyszukiwanie semantyczne i rozpoznawanie mowy .
Zobacz też
- ^ a b „Liczba zdań na język - Tatoeba” . tatoeba.org . Źródło 1 listopada 2022 r .
- ^ a b c „Pobierz zdania - Tatoeba” . tatoeba.org . Źródło 1 listopada 2022 r .
- Bibliografia _ „Historia Tatoeby” . Źródło 8 listopada 2022 r .
- ^ „Idealny słownik Tranga.pdf” . Dokumenty Google . Źródło 8 listopada 2022 r .
- ^ „Projekt słownika Tranga” . sourceforge.net .
- Bibliografia _ _ Odkrywaj wiki Grupa ds. Badań i Rozwoju Słowników Elektronicznych. 3 lutego 2011 . Źródło 20 marca 2011 r .
- ^ Tatoeba Stream # 3 - Cofanie się w czasie , pobrane 8 listopada 2022 r
- Bibliografia _ „Nowy adres: tatoeba.org” . Źródło 8 listopada 2022 r .
- Bibliografia _ „Niektóre statystyki” . Źródło 8 listopada 2022 r .
- Bibliografia _ „Aktualizacja w rozwoju” . Źródło 8 listopada 2022 r .
- ^ a b „Stowarzyszenie organizacji Google Summer of Code 2014 Tatoeba” . www.google-melange.com . Źródło 26 września 2022 r .
- ^ a b „Nagroda MOSS dla Tatoeby” . Źródło 26 września 2022 r .
- ^ a b „Druga nagroda MOSS” . Źródło 26 września 2022 r .
- ^ „Przewodnik szybkiego startu” .
- ^ Ho, Trang (17 stycznia 2011). „Grant od Mozilla Drumbeat” . Blog projektu Tatoeba . Źródło 20 marca 2011 r .
-
^
Moltke, Henrik (30 grudnia 2010). „Najlepsze projekty Drumbeat: Tatoeba - bezpłatna i otwarta baza zdań” . Yoyodyne.cc . Zarchiwizowane od oryginału w dniu 2 stycznia 2011 r . . Źródło 20 marca 2011 r .
...Fundacja Mozilla chce zachęcić i pomóc projektowi Tatoeba, przekazując mu grant Mozilla Drumbeat w wysokości 2,5 tys. USD.
- ^ „Warunki użytkowania” . Tatoeba.org . Źródło 20 marca 2011 r .
- ^ „Jak wnieść wkład w ramach CC0” . en.wiki.tatoeba.org . Źródło 25 października 2021 r .
- ^ „Wszystkie listy publiczne zawierające „audio” (140) - Tatoeba” . tatoeba.org . Źródło 25 października 2021 r .
- ^ "WWWJDIC - INFORMACJE" . www.edrdg.org . Źródło 13 listopada 2022 r .
- ^ „O OpenRussian” . en.openrussian.org . Źródło 16 listopada 2022 r .
- ^ „Względy prawne - dobry przykład” . www.dobreprzyklady.is . Źródło 6 grudnia 2022 r .
- ^ Winiwarter, Werner (11 grudnia 2015). „JILL: przypadkowa nauka języka japońskiego” . Materiały z 17. Międzynarodowej Konferencji na temat Integracji Informacji oraz Aplikacji i Usług Internetowych . ii BYŁ '15. Nowy Jork, NY, USA: Association for Computing Machinery: 1–9. doi : 10.1145/2837185.2837191 . ISBN 978-1-4503-3491-4 .
- Bibliografia _ . fauu.github.io . Źródło 2 grudnia 2022 r .
- ^ Vazquez, Christian David; Nyati, Afika Ayanda; Luh, Aleksander; Fu, Megan; Aikawa, Takako; Maes, Pattie (6 maja 2017). „Nieoczekiwana nauka języków w rzeczywistości mieszanej” . Materiały z konferencji CHI 2017 Rozszerzone streszczenia dotyczące czynników ludzkich w systemach komputerowych . CHI EA '17. Nowy Jork, NY, USA: Association for Computing Machinery: 2172–2179. doi : 10.1145/3027063.3053098 . ISBN 978-1-4503-4656-6 .
- ^ Masato Hagiwara, Takumi Ito, Tatsuki Kuribayashi, Jun Suzuki i Kentaro Inui. 2019. TEASPN: Ramy i protokół dla zintegrowanych środowisk pomocy w pisaniu. W Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP): System Demonstrations , strony 229–234, Hongkong, Chiny. Stowarzyszenie Lingwistyki Komputerowej.
- ^ „Kontekst Reverso | Względy prawne dotyczące korpusów używanych w słowniku kontekstowym” . kontekst.reverso.net . Źródło 2 grudnia 2022 r .
- ^ Kelly, Charles (2012). "タトエバ・プロジェクト・コーパスを使った www. ManyThings. org報告 (47), 77-84 .
- ^ Raine, Paweł (2018). „Budowanie zdań za pomocą Web 2.0 i bazy danych Tatoeba” (PDF) . Akcenty Azji .
- ^ „Co to jest test zamknięcia? Testy usunięcia zamknięcia i nauka języka” . Blog Clozemastera . 17 października 2017 r.
- znajdują się multimedia związane z Tatoeba . ankiweb.net . Źródło 2 grudnia 2022 r .
- ^ „Rising Voices - Poznaj Prasantę Hembram, aktywistę cyfrowego języka Santali z Indii” . Rosnące głosy . 28 czerwca 2022 . Źródło 15 listopada 2022 r .
- ^ „Języki członków - Tatoeba” . tatoeba.org . Źródło 15 listopada 2022 r .
- ^ "Esperanto Elektronike | E@I" . 13 października 2017 . Źródło 1 listopada 2022 r .
- Bibliografia _ _ uczony.google.com . Źródło 13 listopada 2022 r .
- Bibliografia Japoński Treebank oparty na HPSG]. Podczas 14. dorocznego spotkania Stowarzyszenia Przetwarzania Języka Naturalnego w Tokio.
- ^ Eric Nichols, Francis Bond, Darren Scott Appling i Yuji Matsumoto (2010) Parafrazowanie danych szkoleniowych dla statystycznego tłumaczenia maszynowego. Journal of Natural Language Processing, 17 (3), strony 101–122.
- ^ „OPUS - równoległy korpus typu open source” . 30 lipca 2013 r. Zarchiwizowane od oryginału w dniu 30 lipca 2013 r . Źródło 13 listopada 2022 r .
- ^ Tiedemann, Jörg (13 października 2020). „Wyzwanie tłumaczeniowe Tatoeba - realistyczne zestawy danych dla niskiego poziomu zasobów i wielojęzycznej MT” . arXiv : 2010.06354 [ cs.CL ].
- ^ Zespół NLLB; Costa-jussà, Marta R.; Krzyż, Jakub; Çelebi, Onur; Elbayad, Maha; Heafield, Kenneth; Heffernan, Kevin; Kalbassi, Elahe; Lam, Janice; Licht, Daniel; Maillard, Jean; Słońce, Anna; Wang, Skyler; Wenzek, Guillaume; Youngblood, Al (25 sierpnia 2022). „Żaden język nie został w tyle: skalowanie tłumaczenia maszynowego skoncentrowanego na człowieku” . arXiv : 2207.04672 [ cs.CL ].
- ^ „Identyfikacja języka · fastText” . fasttext.cc . Źródło 16 listopada 2022 r .
- Bibliografia _ Ruder, Sebastian; Siddhant, Aditya; Neubig, Graham; Firat, Orhan; Johnson, Melvin (4 września 2020). „XTREME: masowo wielojęzyczny, wielozadaniowy test porównawczy do oceny uogólnienia międzyjęzykowego” . arXiv : 2003.11080 [ cs.CL ].
- Bibliografia _ Pino, Juan; Wu, Anna; Gu, Jiatao (9 czerwca 2020). „CoVoST: zróżnicowany wielojęzyczny korpus tłumaczeń mowy na tekst” . arXiv : 2002.01320 [ cs.CL ].
Linki zewnętrzne
- Oficjalna strona internetowa
- Film przedstawiający Trang Ho przedstawiającego Tatoebę na MozFest 2019
- Statystyki Tatoeby
- Wyzwanie tłumaczeniowe Tatoeba