książki Google
Rodzaj witryny |
Biblioteka Cyfrowa |
---|---|
Właściciel | |
Adres URL | |
Wystrzelony | październik 2004 | (jako Google Print)
Aktualny stan | Aktywny |
Książki Google (wcześniej znane jako Google Book Search , Google Print i pod nazwą kodową Project Ocean ) to usługa firmy Google Inc. , która przeszukuje pełny tekst książek i czasopism zeskanowanych przez Google, konwertowanych na tekst przy użyciu optycznego rozpoznawania znaków (OCR) i przechowywane w cyfrowej bazie danych. Książki są dostarczane przez wydawców i autorów za pośrednictwem programu partnerskiego Google Books lub przez partnerów bibliotecznych Google za pośrednictwem programu bibliotecznego Library Project. Ponadto firma Google nawiązała współpracę z wieloma wydawcami czasopism w celu digitalizacji ich archiwów.
Program dla wydawców był po raz pierwszy znany jako Google Print, kiedy został zaprezentowany na targach książki we Frankfurcie w październiku 2004 r. Projekt biblioteczny Google Books, który skanuje prace w zbiorach partnerów bibliotecznych i dodaje je do zasobów cyfrowych, został ogłoszony w grudniu 2004 r. .
Inicjatywa Google Books została doceniona za jej potencjał oferowania bezprecedensowego dostępu do tego, co może stać się największym internetowym zasobem ludzkiej wiedzy oraz promowania demokratyzacji wiedzy . Jednak był również krytykowany za potencjalne naruszenia praw autorskich i brak edycji w celu poprawienia wielu błędów wprowadzonych do zeskanowanych tekstów w procesie OCR.
Od października 2019 r. Google obchodzi 15-lecie Google Books i podaje liczbę zeskanowanych książek jako ponad 40 milionów tytułów. Google oszacował w 2010 roku, że na świecie istnieje około 130 milionów różnych tytułów i stwierdził, że zamierza przeskanować je wszystkie. Jednak proces skanowania w amerykańskich bibliotekach akademickich zwolnił od lat. Wysiłki Google Book związane ze skanowaniem były przedmiotem sporów sądowych, w tym pozwu zbiorowego w Stanach Zjednoczonych dla Authors Guild przeciwko Google , rozstrzygniętego na korzyść Google (patrz poniżej). To był poważny przypadek, który był bliski zmiany praktyk dotyczących praw autorskich prace osierocone w Stanach Zjednoczonych.
Detale
Wyniki z Książek Google pojawiają się zarówno w uniwersalnej wyszukiwarce Google , jak i w dedykowanej witrynie wyszukiwania Książek Google ( books.google.com ).
W odpowiedzi na wyszukiwane hasła Książki Google umożliwiają użytkownikom wyświetlanie pełnych stron z książek, w których pojawiają się wyszukiwane hasła, jeśli książka nie jest chroniona prawami autorskimi lub jeśli właściciel praw autorskich wyraził na to zgodę. Jeśli Google uważa, że książka nadal jest chroniona prawami autorskimi, użytkownik widzi „fragmenty” tekstu wokół wyszukiwanych haseł. Wszystkie wystąpienia wyszukiwanych terminów w tekście książki są podświetlone na żółto.
Cztery poziomy dostępu używane w Książkach Google to:
- Pełny widok : Książki w domenie publicznej są dostępne w „pełnym widoku” i można je pobrać bezpłatnie. Książki w druku nabyte w ramach programu partnerskiego są również dostępne do pełnego wglądu, jeśli wydawca wyrazi na to zgodę, chociaż zdarza się to rzadko.
- Podgląd : w przypadku książek w druku, na które udzielono pozwolenia, liczba wyświetlanych stron jest ograniczona do „podglądu” ustawionego przez różne ograniczenia dostępu i środki bezpieczeństwa, niektóre oparte na śledzeniu użytkownika. Zwykle wydawca może ustawić procent książki dostępny do podglądu. Użytkownicy nie mogą kopiować, pobierać ani drukować podglądów książek. Na dole stron pojawia się znak wodny z napisem „Materiały chronione prawem autorskim”. Wszystkie książki nabyte w ramach programu partnerskiego są dostępne do podglądu.
- Widok fragmentu : „Widok fragmentu” — od dwóch do trzech wierszy tekstu otaczających wyszukiwane hasło — jest wyświetlany w przypadkach, gdy Google nie ma pozwolenia właściciela praw autorskich na wyświetlenie podglądu. Może to być spowodowane tym, że Google nie może zidentyfikować właściciela lub właściciel odmówił pozwolenia. Jeśli wyszukiwane hasło pojawia się w książce wiele razy, Google wyświetla nie więcej niż trzy fragmenty, co uniemożliwia użytkownikowi przeglądanie zbyt dużej części książki. Ponadto Google nie wyświetla żadnych fragmentów niektórych podręczników, takich jak słowniki, w przypadku których wyświetlanie nawet fragmentów może zaszkodzić rynkowi dzieła. Google utrzymuje, że zgodnie z prawem autorskim nie jest wymagane żadne pozwolenie na wyświetlenie widoku fragmentu.
- Bez podglądu : Google wyświetla również wyniki wyszukiwania książek, które nie zostały zdigitalizowane. Ponieważ książki te nie zostały zeskanowane, nie można przeszukiwać ich tekstu, a dostępne są tylko metadane, takie jak tytuł, autor, wydawca, liczba stron, numer ISBN, temat i informacje o prawach autorskich, a w niektórych przypadkach spis treści i streszczenie książki. dostępny. W efekcie jest to podobne do internetowego katalogu kartkowego biblioteki.
W odpowiedzi na krytykę ze strony takich grup, jak Amerykańskie Stowarzyszenie Wydawców i Gildia Autorów , w sierpniu 2005 roku firma Google ogłosiła politykę rezygnacji , dzięki której właściciele praw autorskich mogliby udostępniać listę tytułów, których nie chcą skanować, a żądanie Być respektowanym. Firma oświadczyła również, że nie będzie skanować żadnych książek chronionych prawem autorskim w okresie od sierpnia do 1 listopada 2005 r., aby dać właścicielom możliwość decydowania, które książki mają zostać wyłączone z Projektu. W związku z tym właściciele praw autorskich mają trzy możliwości w odniesieniu do dowolnego dzieła:
- Może uczestniczyć w Programie Partnerskim, aby udostępnić książkę do podglądu lub pełnego wglądu, w takim przypadku dzieli się przychodami uzyskanymi z wyświetlania stron z pracy w odpowiedzi na zapytania użytkowników.
- Może pozwolić Google na skanowanie książki w ramach Library Project i wyświetlanie fragmentów w odpowiedzi na zapytania użytkowników.
- Może zrezygnować z programu Library Project, w którym to przypadku Google nie zeskanuje książki. Jeśli książka została już zeskanowana, Google zresetuje jej poziom dostępu do „Brak podglądu”.
Większość zeskanowanych prac nie jest już drukowana ani dostępna w handlu.
Oprócz nabywania książek z bibliotek Google pozyskuje je również od swoich partnerów-wydawców w ramach „Programu partnerskiego” — zaprojektowanego, aby pomóc wydawcom i autorom w promowaniu ich książek. Wydawcy i autorzy przesyłają cyfrową kopię swojej książki w formacie EPUB lub PDF formacie lub wydrukowaną kopię do Google, która jest udostępniana w Książkach Google do podglądu. Wydawca może kontrolować procent książki dostępny do podglądu, przy czym minimalna wartość to 20%. Mogą również zdecydować, aby książka była w pełni widoczna, a nawet zezwolić użytkownikom na pobranie kopii PDF. Książki można też udostępniać do sprzedaży w Google Play. W przeciwieństwie do Library Project, nie budzi to zastrzeżeń co do praw autorskich, ponieważ odbywa się na podstawie umowy z wydawcą. Wydawca może w każdej chwili odstąpić od umowy.
W przypadku wielu książek Książki Google wyświetlają oryginalne numery stron. Jednak Tim Parks , pisząc w The New York Review of Books w 2014 roku, zauważył, że Google przestał dostarczać numery stron dla wielu ostatnich publikacji (prawdopodobnie tych nabytych w ramach programu partnerskiego) „prawdopodobnie w sojuszu z wydawcami, aby wymusić tych z nas, którzy muszą przygotowywać przypisy, aby kupić wydania papierowe”.
Skanowanie książek
Projekt rozpoczął się w 2002 roku pod kryptonimem Project Ocean. Współzałożyciel Google, Larry Page, zawsze interesował się digitalizacją książek. Kiedy on i Marissa Mayer zaczęli eksperymentować ze skanowaniem książek w 2002 roku, digitalizacja 300-stronicowej książki zajęła im 40 minut. Ale wkrótce potem technologia została rozwinięta do tego stopnia, że operatorzy skanowania mogli skanować do 6000 stron na godzinę.
Google utworzyło wyznaczone centra skanowania, do których książki były transportowane ciężarówkami. Stacje mogły digitalizować z prędkością 1000 stron na godzinę. Książki zostały umieszczone w specjalnie zbudowanej mechanicznej kołysce, która ustawiała grzbiet książki na miejscu, podczas gdy szereg świateł i przyrządów optycznych skanował dwie otwarte strony. Każda strona miałaby dwie skierowane na nią kamery rejestrujące obraz, natomiast dalmierz LIDAR nałożył trójwymiarową siatkę laserową na powierzchnię książki, aby uchwycić krzywiznę papieru. Człowiek-operator przewraca strony ręcznie, używając pedału nożnego do robienia zdjęć. Bez potrzeby spłaszczania stron lub ich idealnego wyrównywania system Google nie tylko osiągnął niezwykłą wydajność i szybkość, ale także pomógł chronić delikatne zbiory przed nadmierną obsługą. Następnie surowe obrazy przeszły trzy poziomy przetwarzania: najpierw algorytmy usuwania zniekształceń wykorzystywały dane LIDAR do naprawy krzywizny stron. Następnie optyczne rozpoznawanie znaków Oprogramowanie (OCR) przekształciło surowe obrazy w tekst, a na koniec kolejna runda algorytmów wyodrębniła numery stron, przypisy, ilustracje i diagramy.
Wiele książek jest skanowanych przy użyciu dostosowanego aparatu Elphel 323 z szybkością 1000 stron na godzinę. Patent przyznany Google w 2009 roku ujawnił, że Google opracował innowacyjny system skanowania książek, który wykorzystuje dwie kamery i światło podczerwone do automatycznego korygowania krzywizny stron w książce . Konstruując model 3D każdej strony, a następnie „odkształcając” go, Google jest w stanie prezentować płaskie strony bez konieczności ich faktycznego spłaszczania, co wymaga użycia destrukcyjnych metod, takich jak unbinding lub szklane płyty w celu indywidualnego spłaszczenia każdej strony, co jest nieefektywne w przypadku skanowania na dużą skalę.
Google zdecydowało się pominąć informacje o kolorach na rzecz lepszej rozdzielczości przestrzennej, ponieważ większość książek nieobjętych prawami autorskimi w tamtym czasie nie zawierała kolorów. Każdy obraz strony przeszedł przez algorytmy, które rozróżniały regiony tekstu i ilustracji. Obszary tekstowe zostały następnie przetworzone za pomocą OCR, aby umożliwić wyszukiwanie pełnotekstowe. Firma Google poświęciła znaczne środki na opracowanie optymalnych technik kompresji, dążąc do uzyskania wysokiej jakości obrazu przy zachowaniu minimalnych rozmiarów plików, aby umożliwić dostęp użytkownikom internetu o niskiej przepustowości.
Funkcjonalność serwisu
Dla każdej pracy Książki Google automatycznie generują stronę przeglądu. Na tej stronie wyświetlane są informacje zaczerpnięte z książki — szczegóły jej publikacji, mapa słów o wysokiej częstotliwości, spis treści — a także materiały dodatkowe, takie jak streszczenia, recenzje czytelników (nieczytelne w mobilnej wersji serwisu) oraz linki do innych odpowiednich tekstów. Odwiedzający stronę może na przykład zobaczyć listę książek, które mają podobny gatunek i temat, lub może zobaczyć listę aktualnych badań nad książką. Treści te oferują ponadto interaktywne możliwości użytkownikom zalogowanym na swoje konto Google . Mogą eksportować dane bibliograficzne i cytowania w standardowych formatach , pisać własne recenzje, dodawać je do swojej biblioteki w celu oznaczania, organizowania i udostępniania innym osobom. Dlatego Google Books zbiera te bardziej interpretacyjne elementy z różnych źródeł, w tym od użytkowników, witryn innych firm, takich jak Goodreads , a często także od autora i wydawcy książki.
W rzeczywistości, aby zachęcić autorów do przesyłania własnych książek, Google dodał kilka funkcji do witryny. Autorzy mogą umożliwić odwiedzającym bezpłatne pobranie ebooka lub ustalić własną cenę zakupu. Mogą zmieniać ceny tam iz powrotem, oferując zniżki, kiedy tylko im to odpowiada. Ponadto, jeśli autor książki zdecyduje się dodać ISBN , LCCN lub OCLC , usługa zaktualizuje adres URL książki, aby go uwzględnić. Następnie autor może ustawić określoną stronę jako kotwicę linku. Ta opcja sprawia, że ich książka jest łatwiejsza do znalezienia.
Przeglądarka Ngram
Ngram Viewer to usługa połączona z Google Books, która przedstawia wykres częstotliwości użycia słów w ich zbiorze książek. Usługa jest ważna dla historyków i lingwistów, ponieważ może zapewnić wgląd w kulturę ludzką poprzez użycie słów w różnych okresach. Ten program spotkał się z krytyką z powodu błędów w metadanych używanych w programie.
Kwestie treści i krytyka
Projekt spotkał się z krytyką, że jego deklarowany cel, jakim jest zachowanie dzieł osieroconych i wyczerpanych, jest zagrożony z powodu błędów zeskanowanych danych i nierozwiązywania takich problemów.
Użytkownicy mogą zgłaszać błędy w książkach zeskanowanych przez Google na stronie support.google.com/books/partner/troubleshooter/2983879 .
Błędy skanowania
Proces skanowania może zawierać błędy. Na przykład niektóre strony mogą być nieczytelne, odwrócone lub ułożone w niewłaściwej kolejności. Uczeni zgłaszali nawet pogniecione strony, zasłaniające kciuki i palce oraz rozmazane lub rozmyte obrazy. W tej kwestii oświadczenie Google na końcu zeskanowanych książek mówi:
Digitalizacja na najbardziej podstawowym poziomie opiera się na obrazach stron fizycznych książek. Aby udostępnić tę książkę jako plik w formacie ePub, zrobiliśmy te obrazy stron i wyodrębniliśmy tekst za pomocą technologii optycznego rozpoznawania znaków (w skrócie OCR). Ekstrakcja tekstu z obrazów stron jest trudnym zadaniem inżynierskim. Smugi na stronach fizycznych książek, fantazyjne czcionki, stare czcionki, podarte strony itp. Mogą prowadzić do błędów w wyodrębnionym tekście. Niedoskonałe OCR to tylko pierwsze wyzwanie w ostatecznym celu, jakim jest przejście od kolekcji obrazów stron do książek opartych na wyodrębnionym tekście. Nasze algorytmy komputerowe muszą też automatycznie określać strukturę książki (jakie są nagłówki i stopki, gdzie umieszczane są obrazy, czy tekst to wiersz czy proza itp.). Poprawne wykonanie tego zadania pozwala nam renderować książkę w sposób zgodny z formatem oryginalnej książki. Pomimo naszych najlepszych starań w tej książce mogą pojawić się błędy ortograficzne, niepotrzebne znaki, obce obrazy lub brakujące strony. Według naszych szacunków błędy te nie powinny uniemożliwić korzystania z treści książki. Wyzwania techniczne związane z automatycznym tworzeniem idealnej książki są przytłaczające, ale wciąż ulepszamy nasze technologie OCR i ekstrakcji struktury książki.
Od 2009 roku Google oświadczyło, że zacznie używać reCAPTCHA , aby naprawić błędy znalezione w skanach Google Book. Ta metoda poprawiłaby tylko zeskanowane słowa, które są trudne do rozpoznania ze względu na proces skanowania i nie może rozwiązać błędów, takich jak przewracane strony lub zablokowane słowa.
Błędy skanowania zainspirowały dzieła sztuki, takie jak opublikowane kolekcje nietypowych stron i blog Tumblr .
Błędy w metadanych
Naukowcy często zgłaszali szerzące się błędy w metadanych w Książkach Google – w tym błędnie przypisywanych autorów i błędne daty publikacji. Geoffrey Nunberg , językoznawca badający zmiany w użyciu słów w czasie, zauważył, że wyszukiwanie książek opublikowanych przed 1950 rokiem i zawierających słowo „internet” dało mało prawdopodobne 527 wyników. Woody Allen jest wymieniony w 325 książkach opublikowanych rzekomo przed jego urodzeniem. Google odpowiedział na Nunberg, obwiniając za większość błędów zewnętrznych wykonawców.
Inne zgłaszane błędy w metadanych obejmują daty publikacji przed narodzinami autora (np. 182 prace Charlesa Dickensa przed jego narodzinami w 1812 r.); nieprawidłowe klasyfikacje tematyczne (wydanie Moby Dicka znalezione w kategorii „komputery”, biografia Mae West sklasyfikowana jako „religia”), sprzeczne klasyfikacje (10 wydań Liści trawy Whitmana , wszystkie sklasyfikowane zarówno jako „fikcja”, jak i „literatura faktu”), błędnie napisane tytuły, autorzy i wydawcy ( Moby Dick: or the White „Wall” ), a metadane jednej książki zostały niepoprawnie dołączone do zupełnie innej książki (metadane pracy matematycznej z 1818 r. prowadzą do romansu z 1963 r.).
Przeprowadzono przegląd elementów metadanych autora, tytułu, wydawcy i roku publikacji dla 400 losowo wybranych rekordów Google Books. Wyniki pokazują, że 36% wybranych książek w projekcie digitalizacji zawierało błędy metadanych. Ten wskaźnik błędów jest wyższy niż można by się spodziewać w typowym katalogu bibliotecznym online.
Ogólny poziom błędów wynoszący 36,75% stwierdzony w tym badaniu sugeruje, że metadane Książek Google mają wysoki poziom błędów. Podczas gdy „poważne” i „drobne” błędy są subiektywnym rozróżnieniem opartym na nieco nieokreślonej koncepcji „możliwości znalezienia”, wszystkie błędy znalezione w czterech elementach metadanych zbadanych w tym badaniu należy uznać za poważne.
Błędy metadanych oparte na niepoprawnie zeskanowanych datach utrudniają wyszukiwanie przy użyciu bazy danych Google Books Project. Firma Google wykazała jedynie ograniczone zainteresowanie usunięciem tych błędów.
Kwestie językowe
Niektórzy europejscy politycy i intelektualiści skrytykowali wysiłki Google na podstawie imperializmu językowego . Argumentują, że ponieważ zdecydowana większość książek proponowanych do zeskanowania jest w języku angielskim, spowoduje to nieproporcjonalną reprezentację języków naturalnych w świecie cyfrowym. Na przykład niemiecki, rosyjski, francuski i hiszpański są popularnymi językami w nauce. Nieproporcjonalny nacisk online na język angielski może jednak wpłynąć na dostęp do stypendiów historycznych, a ostatecznie na rozwój i kierunek przyszłych stypendiów. Wśród tych krytyków jest Jean-Noël Jeanneney , były prezes Bibliothèque Nationale de France .
Książki Google kontra Google Scholar
Chociaż Google Books zdigitalizował dużą liczbę starych wydań czasopism, jego skany nie zawierają metadanych wymaganych do identyfikacji konkretnych artykułów w określonych numerach. To skłoniło twórców Google Scholar do uruchomienia własnego programu digitalizacji i udostępniania starszych artykułów z czasopism (w porozumieniu z ich wydawcami).
Partnerzy Biblioteki
Projekt biblioteczny Google Books ma na celu skanowanie i udostępnianie możliwości przeszukiwania zbiorów kilku głównych bibliotek naukowych . Oprócz bibliograficznych często można przeglądać fragmenty tekstu z książki. Jeśli książka nie jest chroniona prawami autorskimi i należy do domeny publicznej, jest w pełni dostępna do czytania lub pobierania .
Książki objęte prawami autorskimi zeskanowane za pomocą programu bibliotecznego Library Project są udostępniane w Książkach Google w celu wyświetlenia fragmentu. Jeśli chodzi o jakość skanów, Google przyznaje, że „nie zawsze są one wystarczająco wysokiej jakości”, aby można je było oferować w sprzedaży w Google Play. Ponadto, ze względu na rzekome ograniczenia techniczne, Google nie zastępuje skanów wersjami o wyższej jakości, które mogą być dostarczane przez wydawców.
Projekt jest przedmiotem pozwu Authors Guild przeciwko Google , wniesionego w 2005 roku i rozstrzygniętego na korzyść Google w 2013 roku oraz ponownie w apelacji w 2015 roku.
Właściciele praw autorskich mogą ubiegać się o prawa do zeskanowanej książki i udostępnić ją do podglądu lub pełnego widoku (przenosząc ją na swoje konto w programie partnerskim) lub poprosić Google o uniemożliwienie przeszukiwania tekstu książki.
Liczba instytucji uczestniczących w projekcie bibliotecznym wzrosła od momentu jego powstania.
Pierwsi partnerzy
-
Uniwersytet Harvarda , Biblioteka Uniwersytetu Harvarda
- Biblioteka Uniwersytetu Harvarda i Google prowadziły pilotaż przez cały rok 2005. Projekt był kontynuowany w celu zwiększenia dostępu online do zasobów Biblioteki Uniwersytetu Harvarda, która obejmuje ponad 15,8 miliona woluminów. Podczas gdy fizyczny dostęp do materiałów bibliotecznych Harvardu jest ogólnie ograniczony do obecnych studentów, wykładowców i badaczy Harvardu lub naukowców, którzy mogą przyjechać do Cambridge, projekt Harvard-Google został zaprojektowany tak, aby umożliwić zarówno członkom społeczności Harvardu, jak i użytkownikom na całym świecie odkrywanie pracuje w zbiorach Harvardu.
-
University of Michigan , University of Michigan Library
- Do marca 2012 roku zeskanowano 5,5 miliona woluminów.
-
New York Public Library
- W ramach tego programu pilotażowego NYPL współpracuje z Google w celu zaoferowania kolekcji swoich książek należących do domeny publicznej, które zostaną w całości zeskanowane i bezpłatnie udostępnione online. Użytkownicy będą mogli wyszukiwać i przeglądać pełny tekst tych prac. Po zakończeniu procesu skanowania dostęp do książek można uzyskać zarówno z witryny The New York Public Library, jak iz wyszukiwarki Google.
- Uniwersytet Oksfordzki , Bodleian Library
- Uniwersytet Stanforda , Biblioteki Uniwersytetu Stanforda ( SULAIR )
Dodatkowi partnerzy
Od momentu ogłoszenia partnerstwa do projektu dołączyli kolejni partnerzy instytucjonalni:
- Austriacka Biblioteka Narodowa
- Bawarska Biblioteka Państwowa
- Bibliothèque Municipale de Lyon
- Sojusz Akademicki Wielkiej Dziesiątki
- Columbia University , System Biblioteczny Uniwersytetu Columbia
- Uniwersytet Complutense w Madrycie
- Uniwersytet Cornell , Biblioteka Uniwersytetu Cornell
- Uniwersytet w Gandawie , Biblioteka Uniwersytecka w Gandawie / Boekentoren
- Keio University , Keio Media Centers (biblioteki)
- Biblioteka Narodowa Katalonii , Biblioteca de Catalunya
- Uniwersytet Princeton , Biblioteka Uniwersytetu Princeton
- Biblioteka Cyfrowa Uniwersytetu Kalifornijskiego
- Uniwersytet w Lozannie , Biblioteka Kantonalna i Uniwersytecka w Lozannie
-
University of Mysore , Mysore University Library
- Współpraca polegała na digitalizacji 800 000 tekstów, w tym rękopisów zapisanych na liściach palmowych, datowanych na VIII wiek.
-
University of Texas at Austin , University of Texas Libraries
- Partnerstwo dotyczyło digitalizacji latynoamerykańskiej kolekcji biblioteki – około pół miliona woluminów.
- Uniwersytet Wirginii , Biblioteka Uniwersytetu Wirginii
-
Biblioteki Uniwersytetu Wisconsin–Madison
- Do marca 2012 roku zeskanowano około 600 000 woluminów
Historia
2002 : Grupa członków zespołu Google oficjalnie uruchamia „tajny projekt „książek”. Założyciele Google, Sergey Brin i Larry Page, wpadli na pomysł, który później stał się Google Books, będąc jeszcze studentami Stanford w 1996 roku. Strona historii w witrynie Google Books opisuje ich wstępną wizję tego projektu: „w przyszłym świecie, w którym ogromna zbiory książek są zdigitalizowane, ludzie używaliby robota sieciowego indeksować zawartość książek i analizować powiązania między nimi, określając znaczenie i przydatność danej książki, śledząc liczbę i jakość cytatów z innych książek”. Biblioteki Kongresu American Memory Project , Project Gutenberg i Universal Library, aby dowiedzieć się, jak działają, a także University of Michigan, alma mater Page'a oraz bazę dla takich projektów digitalizacji, jak JSTOR i Tworzenie Ameryki. W rozmowie z ówczesną rektor uniwersytetu, Mary Sue Coleman , kiedy Page dowiedział się, że obecne szacunki uniwersytetu dotyczące zeskanowania wszystkich tomów biblioteki wynosiły 1000 lat, Page podobno powiedział Colemanowi, że „wierzy, że Google może pomóc w osiągnięciu tego w ciągu sześciu lat. "
2003 : Zespół pracuje nad opracowaniem szybkiego procesu skanowania, a także oprogramowania do rozwiązywania problemów związanych z nieparzystymi rozmiarami czcionek, nietypowymi czcionkami i „innymi nieoczekiwanymi osobliwościami”.
Grudzień 2004 : Google zasygnalizował rozszerzenie swojej inicjatywy Google Print znanej jako Google Print Library Project. Firma Google ogłosiła nawiązanie współpracy z kilkoma znanymi bibliotekami uniwersyteckimi i publicznymi, w tym University of Michigan , Harvard ( Harvard University Library ), Stanford ( Green Library ), Oxford ( Bodleian Library ) i New York Public Library . Według komunikatów prasowych i bibliotekarzy uniwersyteckich Google planowało zdigitalizować i udostępnić za pośrednictwem usługi Google Books około 15 milionów woluminów w ciągu dekady. Ogłoszenie wkrótce wywołało kontrowersje, ponieważ stowarzyszenia wydawców i autorów zakwestionowały plany Google dotyczące digitalizacji nie tylko książek w domenie publicznej, ale także tytułów nadal chronionych prawem autorskim.
Wrzesień-październik 2005 : Dwa procesy sądowe przeciwko Google zarzucają firmie nieprzestrzeganie praw autorskich i niewypłacanie autorom i wydawcom odpowiedniego wynagrodzenia. Jednym z nich jest pozew zbiorowy w imieniu autorów (Authors Guild przeciwko Google, 20 września 2005 r.), a drugi to pozew cywilny wniesiony przez pięciu dużych wydawców i Stowarzyszenie Wydawców Amerykańskich . (McGraw Hill przeciwko Google, 19 października 2005 r.)
Listopad 2005 : Google zmienił nazwę tej usługi z Google Print na Google Book Search. Jego program umożliwiający wydawcom i autorom umieszczanie ich książek w serwisie został przemianowany na Google Books Partner Program, a partnerstwo z bibliotekami na Google Books Library Project .
2006 : Google dodał przycisk „pobierz plik pdf” do wszystkich swoich książek należących do domeny publicznej, które nie są objęte prawami autorskimi. Dodano także nowy interfejs przeglądania wraz z nowymi stronami „Informacje o tej książce”.
Sierpień 2006 : University of California System ogłosił, że dołączy do projektu digitalizacji książek. Obejmuje to część z 34 milionów woluminów w około 100 bibliotekach zarządzanych przez System.
Wrzesień 2006 : Uniwersytet Complutense w Madrycie został pierwszą biblioteką hiszpańskojęzyczną, która dołączyła do Google Books Library Project.
Październik 2006 : Uniwersytet Wisconsin-Madison ogłosił, że dołączy do projektu digitalizacji Book Search wraz z Biblioteką Towarzystwa Historycznego Wisconsin . Łącznie biblioteki mają 7,2 miliona zbiorów.
Listopad 2006 : Uniwersytet Wirginii dołączył do projektu. Jego biblioteki zawierają ponad pięć milionów woluminów i ponad 17 milionów rękopisów, rzadkich książek i archiwów.
Styczeń 2007 : Uniwersytet Teksasu w Austin ogłosił, że przyłączy się do projektu digitalizacji Book Search. Co najmniej milion woluminów zostałoby zdigitalizowanych z 13 bibliotek uniwersyteckich.
Marzec 2007 : Bawarska Biblioteka Państwowa ogłosiła partnerstwo z Google w celu przeskanowania ponad miliona dzieł należących do domeny publicznej i dzieł wyczerpanych w języku niemieckim, angielskim, francuskim, włoskim, łacińskim i hiszpańskim.
Maj 2007 : Firma Google oraz Biblioteka Kantonalna i Uniwersytecka w Lozannie ogłosiły partnerstwo w ramach projektu digitalizacji książek .
Maj 2007 : Biblioteka Boekentoren Uniwersytetu w Gandawie ogłosiła, że wraz z Google będzie uczestniczyć w digitalizacji i udostępnianiu w Internecie zdigitalizowanych wersji XIX-wiecznych książek w językach francuskim i niderlandzkim.
Maj 2007: Mysore University ogłasza, że Google zdigitalizuje ponad 800 000 książek i rękopisów – w tym około 100 000 rękopisów napisanych w sanskrycie lub kannada zarówno na papierze, jak i na liściach palmowych.
Czerwiec 2007 : Komitet ds. Współpracy Instytucjonalnej (przemianowany na Big Ten Academic Alliance w 2016 r.) ogłosił, że jego dwanaście bibliotek członkowskich weźmie udział w skanowaniu 10 milionów książek w ciągu następnych sześciu lat.
Lipiec 2007 : Uniwersytet Keio został pierwszym partnerem bibliotecznym Google w Japonii , ogłaszając, że zdigitalizuje co najmniej 120 000 książek będących własnością publiczną.
Sierpień 2007 : Google ogłosił, że zdigitalizuje do 500 000 pozycji chronionych prawem autorskim i będących własnością publiczną z Biblioteki Uniwersyteckiej Cornell . Google dostarczy również cyfrową kopię wszystkich zeskanowanych prac w celu włączenia ich do własnego systemu bibliotecznego uniwersytetu.
Wrzesień 2007 : Google dodał funkcję, która pozwala użytkownikom udostępniać fragmenty książek, które są w domenie publicznej. Fragmenty mogą wyglądać dokładnie tak, jak na skanach książki lub jako zwykły tekst.
Wrzesień 2007 : Google wprowadziło nową funkcję o nazwie „Moja biblioteka”, która umożliwia użytkownikom tworzenie osobistych, dostosowanych bibliotek, wybór książek, które mogą oznaczać, recenzować, oceniać lub przeszukiwać cały tekst.
Grudzień 2007 : Columbia University została dodana jako partner w digitalizacji dzieł będących własnością publiczną.
Maj 2008 : Microsoft ograniczał i planował zakończyć swój projekt skanowania , który obejmował 750 000 książek i 80 milionów artykułów w czasopismach.
Październik 2008 : Po dwóch latach negocjacji między branżą wydawniczą a Google osiągnięto porozumienie . Google zgodziło się wynagradzać autorów i wydawców w zamian za prawo do publicznego udostępniania milionów książek.
Październik 2008 : „Wspólne repozytorium cyfrowe” HathiTrust (później znane jako Biblioteka Cyfrowa HathiTrust) zostaje uruchomione wspólnie przez Komitet ds. Współpracy Instytucjonalnej i 11 bibliotek uniwersyteckich w systemie Uniwersytetu Kalifornijskiego , z których wszystkie były bibliotekami partnerskimi Google, w celu archiwizować i zapewniać akademicki dostęp do książek ze swoich zbiorów zeskanowanych przez Google i innych.
Listopad 2008 : Google osiągnął liczbę 7 milionów książek zeskanowanych przez Google i ich partnerów wydawniczych. 1 milion było w trybie pełnego podglądu, a 1 milion było w pełni widocznych i możliwych do pobrania dzieł należących do domeny publicznej. Nakład wyczerpał się około pięciu milionów .
Grudzień 2008 : Google ogłosił włączenie czasopism do Google Books. Tytuły obejmują New York Magazine , Ebony i Popular Mechanics
Luty 2009 : Google uruchomił mobilną wersję Google Book Search, umożliwiając użytkownikom telefonów iPhone i telefonów z systemem Android czytanie ponad 1,5 miliona dzieł należących do domeny publicznej w Stanach Zjednoczonych (i ponad 500 000 poza Stanami Zjednoczonymi) za pomocą przeglądarki mobilnej. Zamiast obrazów stron wyświetlany jest zwykły tekst książki.
Maj 2009 : Na dorocznej konwencji BookExpo w Nowym Jorku firma Google zasygnalizowała zamiar wprowadzenia programu, który umożliwi wydawcom sprzedaż cyfrowych wersji ich najnowszych książek bezpośrednio konsumentom za pośrednictwem Google.
Grudzień 2009 : Francuski sąd wstrzymał skanowanie książek chronionych prawem autorskim opublikowanych we Francji, twierdząc, że narusza to prawa autorskie. Była to pierwsza poważna strata prawna dla projektu skanowania.
Kwiecień 2010 : Artyści wizualni nie byli objęci poprzednim pozwem i ugodą, są grupami powodów w innym pozwie i twierdzą, że zamierzają zbadać coś więcej niż tylko Google Books. „Nowy pozew zbiorowy”, czytamy w oświadczeniu, „wykracza poza Google Library Project i obejmuje inne systematyczne i wszechobecne naruszenia przez Google praw fotografów, ilustratorów i innych artystów wizualnych”.
Maj 2010 : ogłoszono, że Google uruchomi sklep z książkami cyfrowymi o nazwie Google Editions . Konkurowałby z Amazonem, Barnes & Noble, Apple i innymi sprzedawcami książek elektronicznych z własnym sklepem z e-bookami. W przeciwieństwie do innych, Google Editions byłoby całkowicie online i nie wymagałoby określonego urządzenia (takiego jak Kindle, Nook lub iPad).
Czerwiec 2010 : Google przeszło 12 milionów zeskanowanych książek.
Sierpień 2010 : ogłoszono, że Google zamierza przeskanować wszystkie znane istniejące 129 864 880 książek w ciągu dekady, czyli łącznie ponad 4 miliardy stron cyfrowych i 2 biliony słów.
Grudzień 2010 : eBooki Google (Google Editions) zostały uruchomione w Stanach Zjednoczonych.
Grudzień 2010 : Google uruchomił przeglądarkę Ngram Viewer, która zbiera i przedstawia wykresy danych dotyczących użycia słów w swoich zbiorach książek.
Marzec 2011 : Sędzia federalny odrzucił ugodę zawartą między branżą wydawniczą a Google.
Marzec 2012 : Google przeszło 20 milionów zeskanowanych książek.
Marzec 2012 : Google zawarł ugodę z wydawcami.
Styczeń 2013 : Film dokumentalny Google and the World Brain został pokazany na Festiwalu Filmowym w Sundance .
Listopad 2013 r .: orzeczenie w sprawie Authors Guild przeciwko Google , sędzia okręgowy USA Denny Chin opowiada się po stronie Google, powołując się na dozwolony użytek. Twórcy zapowiedzieli, że będą się odwoływać.
Październik 2015 : Sąd apelacyjny stanął po stronie Google, oświadczając, że Google nie naruszyło prawa autorskiego. Według New York Timesa Google zeskanował ponad 25 milionów książek.
Kwiecień 2016 : Sąd Najwyższy Stanów Zjednoczonych odmówił rozpatrzenia apelacji Gildii Autorów, co oznacza, że decyzja sądu niższej instancji utrzymała się w mocy, a Google będzie mógł skanować książki z bibliotek i wyświetlać fragmenty w wynikach wyszukiwania bez naruszania prawa.
Status
Google było dość tajemnicze, jeśli chodzi o swoje plany dotyczące przyszłości projektu Google Books. Operacje skanowania spowalniały co najmniej od 2012 roku, co potwierdzili bibliotekarze w kilku instytucjach partnerskich Google. Na Uniwersytecie Wisconsin prędkość spadła do mniej niż połowy tego, co było w 2006 roku. Jednak bibliotekarze stwierdzili, że malejące tempo może być naturalnym skutkiem dojrzewania projektu – początkowo stosy książek były w całości zajęte na podczas skanowania, podczas gdy teraz należało wziąć pod uwagę tylko tytuły, które nie zostały jeszcze zeskanowane. Własna strona osi czasu Google Books firmy nie wspominała o niczym po 2007 roku, nawet w 2017 roku, a blog Google Books został połączony z blogiem Google Search w 2012 roku.
Pomimo wygrania trwającego dekadę sporu sądowego w 2017 r., The Atlantic powiedział, że Google „prawie zamknął operację skanowania”. W kwietniu 2017 r. Wired poinformował, że nad projektem pracowało tylko kilku pracowników Google, a nowe książki nadal były skanowane, ale w znacznie niższym tempie. Skomentował, że trwająca dekadę batalia prawna spowodowała, że Google straciło ambicje.
Zagadnienia prawne
W ramach projektu książki biblioteczne były digitalizowane w sposób dość masowy, niezależnie od statusu praw autorskich, co doprowadziło do wielu procesów sądowych przeciwko Google. Do końca 2008 roku Google zdigitalizował podobno ponad siedem milionów książek, z czego tylko około miliona to dzieła należące do domeny publicznej. Z pozostałych milion było chronionych prawami autorskimi i drukowanymi, a pięć milionów było chronionych prawem autorskim, ale wyczerpały się. W 2005 roku grupa autorów i wydawców wniosła poważny pozew zbiorowy przeciwko Google za naruszenie praw autorskich do dzieł. Google argumentowało, że zachowuje „dzieła osierocone” – książki, które nadal są objęte prawem autorskim, ale których właścicieli praw autorskich nie można było zlokalizować.
Gildia Autorów i Stowarzyszenie Wydawców Amerykańskich osobno pozwały Google w 2005 roku za projekt książki, powołując się na „masowe naruszenie praw autorskich ”. Google odpowiedział, że jego projekt stanowi dozwolony użytek i jest cyfrowym odpowiednikiem katalogu kartkowego z indeksowanym każdym słowem w publikacji. Pozwy zostały skonsolidowane i ostatecznie zaproponowano ugodę . Ugoda spotkała się z poważną krytyką z wielu różnych powodów, w tym z przepisów antymonopolowych, prywatności i nieadekwatności proponowanych klas autorów i wydawców. Ugoda została ostatecznie odrzucona, a wydawcy wkrótce potem doszli do porozumienia z Google. Gildia Autorów kontynuowała swoją sprawę, aw 2011 roku proponowana przez nich klasa została certyfikowana . Google odwołał się od tej decyzji, a wielu amici stwierdziło nieodpowiedniość klasy, a Second Circuit odrzucił certyfikat klasy w lipcu 2013 r., przekazując sprawę do Sądu Okręgowego w celu rozpatrzenia dozwolonego użytku Google obrona.
W 2015 roku Authors Guild złożyło kolejną apelację przeciwko Google do rozpatrzenia przez 2. Okręgowy Sąd Apelacyjny Stanów Zjednoczonych w Nowym Jorku. Google wygrało sprawę jednogłośnie, argumentując, że nie pokazuje ludziom pełnych tekstów, ale fragmenty, i nie pozwala ludziom nielegalnie czytać książki. W raporcie sądy stwierdziły, że nie naruszają praw autorskich, ponieważ są chronione klauzulą dozwolonego użytku.
W 2016 roku Stowarzyszenie Autorów ponownie próbowało odwołać się od decyzji i tym razem skierowało sprawę do Sądu Najwyższego. Sprawa została odrzucona, pozostawiając decyzję Second Circuit w tej sprawie nienaruszoną, co oznacza, że Google nie naruszyło praw autorskich. Ta sprawa ustanowiła również precedens dla innych podobnych spraw w odniesieniu do przepisów dotyczących dozwolonego użytku, ponieważ dodatkowo wyjaśniła prawo i je rozszerzyła. Takie wyjaśnienie wpływa na inne projekty skanowania podobne do Google.
Inne procesy sądowe poszły w ślady Gildii Autorów. W 2006 r. wycofano wcześniej złożony niemiecki pozew. W czerwcu 2006 roku Hervé de la Martinière, francuski wydawca znany jako La Martinière i Éditions du Seuil , ogłosił zamiar pozwania Google France. W 2009 roku Sąd Cywilny w Paryżu przyznał 300 000 EUR (około 430 000 USD ) odszkodowania i odsetek oraz nakazał Google płacić 10 000 EUR dziennie, dopóki nie usunie książek wydawcy ze swojej bazy danych. Sąd napisał: „Google naruszyło prawa autorskie autora, w pełni reprodukując i udostępniając” książki, których Seuil jest właścicielem bez jego zgody, oraz że Google „dopuścił się aktów naruszenia praw autorskich, które są szkodliwe dla wydawców”. Google powiedział, że odwoła się. Syndicat National de l'Edition, który przyłączył się do pozwu, powiedział, że Google przeskanował około 100 000 francuskich dzieł chronionych prawem autorskim.
W grudniu 2009 roku chińska pisarka Mian Mian złożyła przeciwko Google pozew cywilny o 8900 USD za zeskanowanie jej powieści Acid Lovers . To pierwszy taki pozew przeciwko Google w Chinach. Ponadto w listopadzie tego roku Chińskie Towarzystwo Praw Autorskich Dzieł Pisanych (CWWCS) oskarżyło Google o zeskanowanie 18 000 książek 570 chińskich pisarzy bez zezwolenia. Google zgodziło się 20 listopada na dostarczenie listy chińskich książek, które zeskanowało, ale firma odmówiła przyznania się do „naruszenia” praw autorskich. [ niewiarygodne źródło? ]
W marcu 2007 roku Thomas Rubin, zastępca głównego radcy prawnego ds. praw autorskich, znaków towarowych i tajemnic handlowych w firmie Microsoft, oskarżył Google o naruszenie praw autorskich w ramach usługi wyszukiwania książek. Rubin szczególnie skrytykował politykę Google polegającą na swobodnym kopiowaniu wszelkich prac do czasu powiadomienia przez właściciela praw autorskich o zaprzestaniu.
Licencjonowanie dzieł należących do domeny publicznej przez Google jest również przedmiotem troski ze względu na stosowanie technik cyfrowego znaku wodnego w książkach. Niektóre opublikowane dzieła będące w domenie publicznej, takie jak wszystkie dzieła stworzone przez rząd federalny Stanów Zjednoczonych , są nadal traktowane jak inne dzieła objęte prawem autorskim i dlatego są blokowane po 1922 roku.
Podobne projekty
- Projekt Gutenberg to wolontariat mający na celu digitalizację i archiwizację dzieł kultury, aby „zachęcać do tworzenia i dystrybucji e-booków”. Została założona w 1971 roku przez Michaela S. Harta i jest najstarszą biblioteką cyfrową. Na dzień 3 października 2015 r. Projekt Gutenberg osiągnął w swojej kolekcji 50 000 pozycji.
- Internet Archive to organizacja non-profit, która codziennie digitalizuje ponad 1000 książek, a także kopiuje książki z Google Books i innych źródeł. Od maja 2011 r. Było w nim ponad 2,8 miliona książek należących do domeny publicznej, więcej niż około 1 milion książek należących do domeny publicznej w Google Books. Open Library , siostrzany projekt Internet Archive, wypożycza 80 000 zeskanowanych i zakupionych komercyjnych ebooków odwiedzającym 150 bibliotek.
- HathiTrust utrzymuje Bibliotekę Cyfrową HathiTrust od 13 października 2008 r., która przechowuje i zapewnia dostęp do materiałów zeskanowanych przez Google, niektórych książek z Internet Archive i niektórych zeskanowanych lokalnie przez instytucje partnerskie. Od maja 2010 r. zawiera około 6 milionów woluminów, z których ponad 1 milion należy do domeny publicznej (przynajmniej w USA).
- ACLS Humanities E-Book , internetowy zbiór ponad 5400 wysokiej jakości książek z zakresu nauk humanistycznych i pokrewnych nauk społecznych, dostępnych w ramach subskrypcji instytucjonalnej.
- Firma Microsoft sfinansowała skanowanie 300 000 książek w celu stworzenia książek wyszukiwania na żywo pod koniec 2006 r. Trwało to do maja 2008 r., Kiedy projekt został porzucony, a książki zostały udostępnione bezpłatnie w Internet Archive.
- Narodowa Biblioteka Cyfrowa Indii (NDLI) to projekt podlegający Ministerstwu Rozwoju Zasobów Ludzkich Indii. Celem jest integracja kilku krajowych i międzynarodowych bibliotek cyfrowych w jednym portalu internetowym. NDLI zapewnia bezpłatny dostęp do wielu książek w języku angielskim i indyjskim.
- Europeana łączy się z około 10 milionami obiektów cyfrowych według stanu na 2010 r., w tym wideo, zdjęciami, obrazami, nagraniami audio, mapami, rękopisami, książkami drukowanymi i gazetami z ostatnich 2000 lat historii Europy z ponad 1000 archiwów w Unii Europejskiej.
- Gallica z Francuskiej Biblioteki Narodowej zawiera łącza do około 4 000 000 zdigitalizowanych książek, gazet, rękopisów, map i rysunków itp. Utworzona w 1997 r. biblioteka cyfrowa stale się rozwija w tempie około 5 000 nowych dokumentów miesięcznie. Od końca 2008 roku większość nowych zeskanowanych dokumentów jest dostępna w formatach graficznych i tekstowych. Większość z tych dokumentów jest napisana w języku francuskim.
- Wikiźródła
- Uciekinierzy
Zobacz też
- A9.com , wyszukiwarka książek Amazon.com
- Rejestr praw do książek
- Biblioteka Cyfrowa
- Lista projektów bibliotek cyfrowych
- Uniwersalna biblioteka
- Narodowa biblioteka elektroniczna
Dalsza lektura
- Hoffmann, Anna Lauren (2016). „Książki Google, biblioteki i szacunek do samego siebie: sprawiedliwość informacyjna poza dystrybucją”. Kwartalnik Biblioteczny . 86 : 76–92. doi : 10.1086/684141 . S2CID 146482065 .
- Jeanneney, Jean-Noël (2008). Google i mit wiedzy uniwersalnej: widok z Europy . Chicago, IL: University of Chicago Press.
Linki zewnętrzne
- Oficjalna witryna internetowa
- Jones, Elisabeth (14 maja 2013). „Nowa oś czasu projektu bibliotecznego Google Books: teraz z (więcej) cytatami!” .
- Darnton, Robert (12 lutego 2009). „Google i przyszłość książek” . New York Review of Books . Tom. 56, nr. 2. Zarchiwizowane od oryginału w dniu 25 stycznia 2009 r.
-
„Usługa archiwum domeny publicznej i przedruków” . Przedruki domeny publicznej.
Eksperymentalny projekt poświęcony przedrukowywaniu książek z domeny publicznej z wykorzystaniem: Alibris , Amazon , Book Finder , Google , LibraryThing i WorldCat -
Somers, James (20 kwietnia 2017). „Podpalenie współczesnej Biblioteki Aleksandryjskiej” . Atlantyk .
Gdzieś w Google jest baza danych zawierająca 25 milionów książek i nikomu nie wolno ich czytać
- Toobin, Jeffrey (5 lutego 2007). „Księżycowy strzał Google” . Nowojorczyk . Zarchiwizowane od oryginału w dniu 2 lutego 2007 r.