Szkic słowa

Szkic czasownika „czytać” w British National Corpus w Sketch Engine

Szkic słowny to jednostronicowe, automatyczne, oparte na korpusach podsumowanie gramatycznego i kolokacyjnego zachowania słowa. Szkice słów zostały po raz pierwszy wprowadzone przez brytyjskiego lingwistę korpusowego Adama Kilgarriffa i wykorzystane w systemie zarządzania korpusem Sketch Engine . Są przedłużeniem ogólnej kolokacji pojęcie stosowane w językoznawstwie korpusowym, polegające na grupowaniu kolokacji według określonych relacji gramatycznych (np. podmiot, przedmiot, modyfikator itp.). Kandydaci na kolokację w szkicu słowa są sortowani według ich częstotliwości lub przy użyciu wyniku asocjacji leksykograficznej, takiego jak Dice , T-score lub MI-score.

Od czasu wprowadzenia szkice słowne były wykorzystywane przez leksykografów do opracowywania nowoczesnych słowników opartych na korpusach głównych wydawnictw, w tym Oxford English Dictionary, Macmillan English Dictionary i obejmujących dziesiątki języków, w tym angielski, chiński, słoweński, japoński, holenderski, rumuński, rosyjski, czeski, polski, wietnamski, turecki, portugalski, hindi, hiszpański i inne.

Konto formalne

Trójka słów szkicu to trójka składająca się z hasła, relacji gramatycznej, kolokacji (np. mężczyzna, modyfikator, młody ). Biorąc pod uwagę podstawowy korpus tekstu , pięciokrotność szkicu słów to pięciokrotność składająca się z hasła, relacji gramatycznej, kolokacji, pozycji hasła w korpusie, pozycji kolokacji w korpusie (np. mężczyzna, modyfikator, młody, 104, 103 ). Baza danych szkiców słów jest zbiorem takich trójek lub pięciokrotności, które można wygenerować albo przez zapytanie korpusu przy użyciu języka zapytań korpusu, albo przez przeanalizowanie korpusu przy użyciu parsera języka naturalnego.

Linki zewnętrzne