Pazartesi 02.05.2011

Tarihi Metinleri Biz Çözüyoruz

İnternetteki satış sitelerinden bir spor veya konser etkinliğine bilet almak kolay. Fakat bu siteler müşteriden parayı almadan önce bazen dalgalı ve çarpık harflerden oluşan sorular soruyor. İşte bunlara "Captcha" deniyor ve onları ancak insanlar okuyabiliyor. Robotların güvenli internet sitelerine girmesini "captcha"lar önlüyor. Kul lanı c ı lar ın bi lmediğ i şeyse eski kitap, dergi, gazete ve broşürlerin doğru, aranabilir ve kolayca sınıflanabilir bilgisayar metni dosyalarına dönüştürülmesiyle ilgili bir projeye katılmış oldukları. Çünkü o dalgalı sözcüklerden biri büyük bir ihtimalle küf bağlamış eski bir metnin dijital görüntüsü. Ve ilgili sayfaların asılları zaten taranıp çevrimiçi bir veritabanına alınmışsa da tarama programları birçok hata yapabiliyor. İşte, o hataları internet kullanıcıları düzeltiyor. Bir maça bilet alıyorsunuz ve iki adet dalgalı sözcüğün doğru yazımını bularak tarihin korunmasına yardım ediyorsunuz. Bu başarıya imza atan yazılım araçlarına "reCaptcha" deniyor. Bunları Pittsburgh, Carnegie Mellon Üniversitesi'nden bilgisayar bilimcisi Luis von Ahn'ın önderliğindeki bir ekip geliştirdi. Captcha, İngilizce'de "insanlarla bilgisayarları ayırt eden tam otomatik halka açık Turing testi"nin kısaltması. (Buradaki test adını bilgisayarın İngiliz öncüsü Alan Turing'den alıyor.) Ahn'ın tahminine göre, Captcha'lı sitelerinin yüzde 70 ila 90'ı reCaptcha'yı da kullanıyor. Bu konudaki pilot proje, The New York Times'ın özellikle 1900'den önceki nüshalarına ait dijital arşivini düzenlemek üzerindeydi. Bu tür metinler çoğu zaman bulanık ve lekeli olduğundan tarayıcılar onları okumakta zorlanıyor. Bugünse Google Books, nadir metinleri dijital ortama aktardığı dev projesinde metinleri doğrulamak için esas olarak bu yöntemi kullanıyor. Dijital ortama aktarma işlemi normalde üç aşamalı. Önce metnin "bitmap" denen fotoğraf görüntüsü yaratılıyor. Sonra OCR denen optik karakter tanıma yazılımları yardımıyla metinler kolay işlenip aranabilir bir şekle sokularak şifreleniyor. Son olarak hatalar düzeltiliyor. Ahn, "Kendimize, 'Bu işin kolayını nasıl bulabiliriz?' diye sorduk" diyor. Captcha'ları rastgele sözcüklerden seçmektense niçin arşiv metinlerindeki sorunlu sözcüklerin çözümünü internet kullanıcılarından istemeyelim? ReCaptcha, iki programın farklı şekillerde çözdüğü veya İngilizce sözlüğünde geçmeyen tüm sözcükleri "şüpheli" olarak mimliyor. Sözlükse iki OCR programının da aynı imla hatasını yaptığı sözcükleri yakalıyor. Sonra başka programlar şüpheli sözcüğün iki yanındaki sözcükleri inceliyor ve buna dayanarak başka bir tahmin yürütüyor. Derken tüm şüpheli sözcükler Captcha'ya dönüştürülüyor. Captcha, sözcüğün asıl fotoğraf görüntüsündeki basımının çarpıtılmış hali. Yani şüpheli sözcükleri çoğu zaman anlamsız bir hale sokan OCR işleminden sonraki hali değil. Sonra bilinmeyen sözcük, doğru dönüşümü yapılmış ikinci bir Captcha sözcüğüyle eşleştiriliyor. Bu da "kontrol" aşaması oluyor. Güvenli sitelere girmek isteyen kullanıcılara işte bu iki sözcük veriliyor ve onları çözmeleri isteniyor. Kontrol sözcüğünün doğru çözümü sizin bir makine değil, insan olduğunuzu kanıtlıyor. Bilinmeyen sözcüğe verilen cevapsa OCR tahminleri ve içerik analiziyle karşılaştırılıyor. Sistem cevabın doğru olduğuna kanaat getirince de oyun bitiyor. Ahn'ın yeni girişimini Google 2009'da satın almış ve Google Books'un kullanımına sokmuş. Onun belirttiğine göre bu yolla her gün "birkaç milyon" sözcük çözülüyor. ReCaptcha'nın isabet oranı yüzde 99'ın üstünde, yani aynı işi yapan insanlara göre oldukça iyi. Ahn, "Daha uzun süre devam edeceğiz. Elimizde çok malzeme var" diyor.

X
Sitelerimizde reklam ve pazarlama faaliyetlerinin yürütülmesi amaçları ile çerezler kullanılmaktadır.

Bu çerezler, kullanıcıların tarayıcı ve cihazlarını tanımlayarak çalışır.

İnternet sitemizin düzgün çalışması, kişiselleştirilmiş reklam deneyimi, internet sitemizi optimize edebilmemiz, ziyaret tercihlerinizi hatırlayabilmemiz için veri politikasındaki amaçlarla sınırlı ve mevzuata uygun şekilde çerez konumlandırmaktayız.

Bu çerezlere izin vermeniz halinde sizlere özel kişiselleştirilmiş reklamlar sunabilir, sayfalarımızda sizlere daha iyi reklam deneyimi yaşatabiliriz. Bunu yaparken amacımızın size daha iyi reklam bir deneyimi sunmak olduğunu ve sizlere en iyi içerikleri sunabilmek adına elimizden gelen çabayı gösterdiğimizi ve bu noktada, reklamların maliyetlerimizi karşılamak noktasında tek gelir kalemimiz olduğunu sizlere hatırlatmak isteriz.