Alles zum Mac & mehr…
Hast Du Dich auch schon einmal im Internet bei einer Registrierung einige Zeichen eingeben müssen, die in einer stark verzerrten Grafik angezeigt wurden?

Hast Du Dich schon einmal gewundert wie viele Menschen weltweit, jeden Tag eine solche Grafik entschlüsseln müssen? Und wozu ist das überhaupt gut?
Diese Bildchen nennt man auch CAPTCHA, das steht für C ompletely A utomated P ublic T uring test to tell C omputers and H umans A part . Wörtlich übersetzt bedeutet das „Vollautomatischer öffentlicher Turing-Test , um Computer und Menschen zu unterscheiden“ [vgl. auch Wikipedia.de ]. Betreiber von Webseiten wollen so Spam vorbeugen, vermeiden, dass Foren und Kommentarfelder von Computer automatisch übernommen werden.
"Approximately 200 million of these are typed every day by people around the world. Each time you type one of these, essentially you waste about 10 seconds of your time," he says. "If you multiply that by 200 million, you get that humanity as a whole is wasting around 500,000 hours every day, typing these annoying squiggly characters." [vgl. NPR.org ]
Jeden Tag werden so 500.000 Arbeitsstunden aufgewendent, wenn man den Leuten von NPR.org glauben darf, oder über 150.000 Stunden Arbeitszeit, zu mindestens, wenn man Wikipeida.de glaubt, die eine Hochrechnung der Carnegie Mellon University in den USA glaubt. Ob 150.000 oder 500.000 Stunden, das ist eigentlich egal, es ist volkswirtschaftlich gesehen. Dividiere einfach mal 150.000 (bzw. 500.000) durch 8 und Du bekommst die Anzahl der Arbeitnehmer, die hier Vollzeit "tätig" sind.
Luis von Ahn, von der bereits erwähnten Carnegie Mellong University, entwickelte ein System, bei dem diese 150000 Arbeitsstunden sinnvoll genutzt werden können. Universitäten und große Verlage digitalisieren fast unendlich große Textmengen und lassen Computer mittels OCR (Optical Character Recognition) die Inhalte erkennen. Je älter die Inhalte, desto schlechter die Erkennungsrate von OCR-Software und umso nützlicher sind die CAPTCHA-Tipper vorm Heim-PC.
Der gute Herr von Ahn dachte sich also, was wäre, wenn man die Nutzer von Webseiten zur Erkennung der Inhalte heranziehen könnte? Und so entstand reCAPTCHA - ein CAPTCHE Service, der sich schnell in kleine und große Webseiten einbinden lässt.
Die Idee - ganz einfach. Es ist schneller richtige englische Worte zu tippen, als verzerrte Zufallskombinationen zu nutzen und gleichzeitig kommt man mit seinen Digitalisierungsprojekten voran.
Wen man aber nicht weiß, welches Wort im Bild steckt, wie soll man wissen, ob der Nutzer die richtig Lösung eingegeben hat?
Die Lösung hierfür ist unheimlich einfach: Man lässt den Nutzer zwei Worte eingeben, eines für das man die Lösung noch nicht kennt, und eines für das man die Lösung bereits kennt. Das unbekannte Wort wird dann immer mehreren Nutzern gezeigt um erst wenn mehrere Nutzer die gleiche Lösung eingeben, wird das Wort als erkannt verbucht. Ziemlich genial!
Und so sieht das ganze dann aus:

Im Moment hilft reCAPTCHA dem Internet Archive und der New York Times . Man kann nur hoffen, dass diese Projekte hiervon profitieren können. Zu mindestens werden jeden Tag über 30 Millionen dieser kleinen reCAPTCHA Boxen angezeigt und das sind verdammt viele Worte, die hier earbeitet werden.
Dass die Digitalisierung von Texten mächtig kompliziert und zeitaufwendig ist, zeigt die Arbeit der Text Creation Partnership der Universität Michigan und Oxford. Liest Dir mal die Hinweise zum Thema "Keyboarding " durch, dann wird Dir klar, wie viel Arbeit in solche Projekte gesteckt wird.
Ich wünsche den Leuten von reCAPTCHA hier viel Erfolg und aus diesem Grund habe ich dieses System über ein Wordpress-Plugin in meine Seite eingebaut und vielleicht helfen irgendwann auch mal Nutzer von Otzberg.net bei der Entschlüsselung alter Dokumente mit!
Leave a reply