07 AM | 18 Aug

Bücher mit reCAPTCHA transkribieren

In der aktuellen Ausgabe von Science wird eine erste Bilanz des reCAPTCHA Projekts gezogen. In dem Projekt wir eine neue Anwendung des Captcha Codes (Completely Automated Public Turing test to tell Computers and Humans Apart übersetzt „voll automatischer öffentlicher Turing-Test, um Computer und Menschen zu unterscheiden“) erprobt. Der Code wird eingesetzt um Spam beispielsweise in Blogkommentaren abzuwehren und sicher zu stellen das wirklich ein Mensch vor dem Computer sitzt. Dies funktioniert meisten, jedoch versuchen auch Spamer immer bessere Methoden (Ausführliche Informationen dazu im Telepolis Artikel „Der Captcha Krieg„)

Die Erkennungsrate von reCaptcha liegt bei 99%. „An jedem Tag würden über 100 Millionen dieser Tests gelöst. Das seien mehr als vier Millionen Wörter. Inzwischen wurden über 17.000 Bücher auf diese Weise bearbeitet. Die Fehlerquote liege bei unter einem Prozent. “ Verwendet wird es bereits auf über 40,000 Webseiten. Als Quelle dienen dabei Dokumente und Zeitungen aus dem Internet Archive der Open Content Alliance.

Ein weiteres Beispiel was mit freien Inhalten möglich ist.

[via Golem.de]

Tags:, , , , , ,

Write a Reply or Comment

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

One Comment

  • Oliver Flimm

    Auch der Kölner UniversitätsGesamtkatalog KUG verwendet bei der Selbstregistrierung reCAPTCHA, um sich gegen automatisierte Angriffe zu schützen. Neben dem Zusatznutzen für die Digitalisierung von Texten war ich vor allem von dem fast nicht vorhandenen Aufwand angetan, mit dem sich reCAPTCHA in die OpenBib-Anwendung des KUG integrieren liess – es waren weniger als 10 Zeilen Code. Dazu habe ich das entsprechende Perl-Modul CAPTCHA::ReCAPTCHA verwendet.

    25. 08. 2008 15:46