MAREK

Kolekcja MA trixware RE search Collection ( MARC ) to ustandaryzowany korpus danych patentowych dostępny do celów badawczych. MAREC stara się reprezentować dokumenty patentowe w kilku językach, aby odpowiedzieć na konkretne pytania badawcze. Składa się z 19 milionów dokumentów patentowych w różnych językach, znormalizowanych do wysoce specyficznego XML .

MAREC ma służyć jako surowiec do badań w obszarach takich jak wyszukiwanie informacji , przetwarzanie języka naturalnego czy tłumaczenie maszynowe , które wymagają dużej ilości skomplikowanych dokumentów. Zbiór zawiera dokumenty w 19 językach, w większości po angielsku, niemiecku i francusku, a około połowa dokumentów zawiera pełne teksty.

W MAREC dokumenty z różnych krajów i źródeł są normalizowane do wspólnego formatu XML z jednolitym schematem numeracji patentów i formatem cytowań. Standardowe pola obejmują daty, kraje, języki, referencje, nazwiska osób i firmy, a także klasyfikacje tematyczne, takie jak IPC .

MAREC to porównywalny korpus, w którym dostępnych jest wiele dokumentów w podobnych wersjach w innych językach. Korpus porównywalny można zdefiniować jako składający się z tekstów o podobnej tematyce – wiadomości z tego samego okresu w różnych krajach, podczas gdy korpus równoległy to zbiór dokumentów z wyrównanymi tłumaczeniami z języka źródłowego na docelowy. Ponieważ dokument patentowy odnosi się do tego samego „wynalazku” lub „koncepcji idei”, tekst jest tłumaczeniem wynalazku, ale nie musi to być bezpośrednie tłumaczenie samego tekstu – fragmenty tekstu mogły zostać usunięte lub dodane w celu przyczyny wyjaśnienia.

19 386 697 plików XML ma łącznie 621 GB i jest hostowanych przez Information Retrieval Facility . Dostęp i wsparcie są bezpłatne dla celów badawczych.

Przypadków użycia

MAREC jest używany w projekcie Patent Language Translations Online (PLuTO).

Linki zewnętrzne