必威电竞|足球世界杯竞猜平台

reCAPTCHA
來源:互聯(lián)網(wǎng)

CMU設(shè)計了一個名叫reCAPTCHA的強大系統(tǒng),讓他們的電腦去向人類求助。具體做法是:將OCR軟件無法識別的文字掃描圖傳給世界各大網(wǎng)站,用以替換原來的驗證碼圖片;那些網(wǎng)站的用戶在正確識別出這些文字之后,其答案便會被傳回CMU。

新用途

反spam的CAPTCHA技術(shù)有了新的用途:reCAPTCHA

根據(jù)Science的介紹,reCAPTCHA是利用CAPTCHA的原理(CAPTCHA的中文全稱是全自動區(qū)分計算機和人類的圖靈測試),借助于人類大腦對難以識別的字符的辨別能力,進行對古舊書籍中難以被OCR識別的字符進行辨別的技術(shù)。也就是說,reCAPTCHA不僅可以反spam,而且同時還可以幫助進行古籍的數(shù)字化工作(可以稱為人工OCR)。不知道他們的靈感是否來自于分布式計算的想法?據(jù)稱正施用于 4 萬多個網(wǎng)站,并已經(jīng)幫助解決了來自掃描文本文件的約 4 億 4 千萬個字詞。

如何使用

reCAPTCHA使用起來并不復(fù)雜,大多數(shù)獨立blogger所用的wordpress,MT都有相應(yīng)的插件支持。在注冊一個用戶名后,輸入你的blog域名(只支持域名和子域名),就會的到一個Public Key,把他用在你所用的reCAPTCHA插件上。reCAPTCHA也支持多個站點。

識別過程

安裝成功后,用戶評論就有了CAPTCHA功能。每次CAPTCHA會顯示兩個單詞讓人來識別,其中一個是需要用戶識別的難認詞,另外一個是答案已知的真正的CAPTCHA 詞。軟件將能夠正確識別CAPTCHA詞的用戶看作是人類,當(dāng)CAPTCHA 詞被正確識別出來后,程序會紀錄用戶對無法閱讀的詞的回答并將其添加到它的數(shù)據(jù)庫中。這樣就完成了一次人工的OCR識別。

為了改善軟件的精確性, reCAPTCHA 會將最困難的詞發(fā)送給多個用戶并挑選其中有相同答案的作為正確的答案。據(jù)說準確率能夠達到99%。

用戶每使用一次這個程序,實際上就是在幫助數(shù)字重現(xiàn)1908年《紐約時報》上的某一頁,或者其它古書中的一頁,這對考古學(xué)具有重大的意義。

文字

2008年8月《科幻世界》躍遷層

您肯定上過論壇吧?幾乎所有正規(guī)的論壇都要求注冊時輸入驗證碼,這是為了防止亂發(fā)垃圾廣告的家伙用注冊機來惡意注冊。這個源自卡耐基·梅隆大學(xué)的發(fā)明被稱為CAPTCHA(用于區(qū)分人類與電腦的全自動圖靈測試),因為注冊者需要辨識圖片上七歪八扭的文字,而這項工作只有真正的人類才能完成。

要知道,全世界的網(wǎng)絡(luò)用戶數(shù)以億計,對個人來說,辨認文字所花的幾秒時間微不足道,但如果將所有網(wǎng)民的力量利用起來,那便能完成難以想象的浩大工程,而這正是美國賓夕法尼亞州匹茲堡的CMU研究小組正在做的事。

該小組受一家名為“互聯(lián)網(wǎng)檔案館”的非營利組織委托,要將海量的古老書籍和手稿通過OCR(光學(xué)字符識別)軟件轉(zhuǎn)化為電子文本,以方便電腦儲存和查詢。然而,由于原稿的質(zhì)量太差,可憐的電腦每掃描十個單詞就會錯讀一個,唯一解決的辦法就是人工核對,而這樣的工作顯然不是一個人或一個小組可以勝任的。

為了提高用戶辨識文字的正確率,他們往往被要求辨認兩個單詞,其中一個的答案已經(jīng)知曉。這樣以來,正確辨認出有答案的那個單詞的用戶,很有可能也會正確辨認另一個單詞。有時候,CMU也會將一個未經(jīng)辨認的單詞提交給不同的用戶,如果得到的是相同的答案,那這個答案便可以肯定是正確的。

由于許多人氣極高的網(wǎng)站,如Facebook、Twitter和StumbleUpon等,都采用了reCAPTCHA,CMU每天都可以處理大約一百萬個單詞。不過,按照這個速度,要電子化“互聯(lián)網(wǎng)檔案館”提供的所有文本,估計還需要400年。

至今

reCAPTCHA已經(jīng)被廣泛的應(yīng)用于各個論壇以及類似的留言平臺。當(dāng)然,它也給網(wǎng)友們留下了"萬惡的驗證碼”等一系列笑談和吐槽。

參考資料 >

生活家百科家居網(wǎng)