07 AM | 18 Aug

Bücher mit reCAPTCHA transkribieren

In der aktuellen Ausgabe von Science wird eine erste Bilanz des reCAPTCHA Projekts gezogen. In dem Projekt wir eine neue Anwendung des Captcha Codes (Completely Automated Public Turing test to tell Computers and Humans Apart übersetzt „voll automatischer öffentlicher Turing-Test, um Computer und Menschen zu unterscheiden“) erprobt. Der Code wird eingesetzt um Spam beispielsweise in Blogkommentaren abzuwehren und sicher zu stellen das wirklich ein Mensch vor dem Computer sitzt. Dies funktioniert meisten, jedoch versuchen auch Spamer immer bessere Methoden (Ausführliche Informationen dazu im Telepolis Artikel „Der Captcha Krieg„)

Die Erkennungsrate von reCaptcha liegt bei 99%. „An jedem Tag würden über 100 Millionen dieser Tests gelöst. Das seien mehr als vier Millionen Wörter. Inzwischen wurden über 17.000 Bücher auf diese Weise bearbeitet. Die Fehlerquote liege bei unter einem Prozent. “ Verwendet wird es bereits auf über 40,000 Webseiten. Als Quelle dienen dabei Dokumente und Zeitungen aus dem Internet Archive der Open Content Alliance.

Ein weiteres Beispiel was mit freien Inhalten möglich ist.

Read more

Tags:, , , , , ,