談起驗證碼,大家都不陌生,登錄帳號,發布文章,網站都會要求輸入驗證碼,驗證碼長得規則也就算了,卻偏偏長得奇形怪狀,也許大家都會想,到底是誰發明這麼反人性的設計,它到底有什麼用?

用一句話總結它的作用:防止不法分子在短時間內用機器批量的重複操作。就是把冒充人類訪問網站的“機器人”給揪出來。

a0b57374b6a9973466e1f9901ed04d20

實際上,驗證碼最大的作用是為了防止機器人程式暴力登錄或攻擊。每一個確認按鈕上方都有一個驗證碼,意味著識別這個模糊的驗證碼需要時間,哪怕是一道加減法,也減輕了伺服器的壓力。隨著圖片識別技術的發展,驗證碼也是花樣百出。總而言之,驗證碼最初要驗證的不是智商,而是電腦前面的是不是人?是機器就無法登錄。

舉幾個通俗好懂的例子,例如有人想盜取你的帳號密碼,他可以寫一條程式進行無限的嘗試,如果沒有驗證碼,以計算機的計算能力,破解密碼就容易多了,但是有驗證碼就不一樣了,每一次嘗試都要輸入難是別的驗證碼,大批量重複操作就不可能了。

腦動大開

全世界有幾十億人,他們每天都在花費精力去識別那些嚴重模糊圖片裡的字元,如果光是用來“自證清白”,好像有點太可惜了,有沒有什麼地方可以把這個腦力工程給利用上呢?

2007年,reCAPTCHA的創辦人之一,卡內基梅隆大學教授路易斯想到:「如果人類與機器各有擅長,能不能利用驗證碼系統,讓人類和機器共同解決問題呢?」

當時,一個亟待解決的問題就是,如何把數以萬計的人類紙本典籍給數位化。

想要數位化文字,一種方法是手工輸入。這種方法耗時費力,還容易出現輸入錯誤。另一種方法是先掃描文字,再結合光學辨識技術輸入文字,但這些典籍有些年代久遠或本身品質就差,所以文字掃描出來後實在是太模糊了,以至於電腦是別出來的文本漏洞百出。

為了解決文本數位化的問題,路易斯推出了新的驗證碼系統reCAPTCHA。在reCAPTCHA 驗證碼系統裡,一個驗證碼會由兩部分構成。第一部分和船統驗證碼一樣,是自動生成並且經過變形處理的文字,用來檢驗你是不是真人。而第二部分,則是從無法辨識的文本中截取出來的詞。如果用戶正確輸入前半部分,那麼reCAPTCHA就會假設用戶輸入的後半部分也是正確的,然後把輸入結果返回至reCAPTCHA的專案主機。結果返回主機後,主機還會把這個結果再派發給多個用戶進行交叉驗證,以確保沒有不小心或故意輸錯單字的情況。也就是說,真正有效的人機測試在驗證碼的前半段已經完成,而後半段,就是用戶在義務為人類文明做貢獻了。

20210308-113656_U13380_M676380_272b

那麼,reCAPTCHA 到底做了多大貢獻呢?

2007年推出之初,reCAPTCHA每天都能幫助輸入3000萬個字元。2008年,這個數字飆升到了6000萬個。現在全世界每天都有兩億個字元透過reCAPTCHA 登入,相當於人類15萬小時的工作量。也就是說,一個人要不吃不喝不睡兩年半,才能完成reCAPTCHA 一天的工作量。

到今天為止,reCAPTCHA已經輸入了從1851年至今的所有紐約時報》,共計1300萬篇文章。除《紐約時報》外,reCAPTCHA還數位化了超過2500萬本書。

路易斯在接受媒體The Hustle採訪時這樣評價reCAPTCHA:「我創造了一個系統,以十秒為單位,數百萬小時為增量,來利用世界上最寶貴的資源:人的大腦。」

AI訓練師

2009年,Google以大約2780萬美元的價格收購了reCAPTCHA,並開始利用reCAPTCHA幫助標註數據。

Google每天有幾十億次的訪問量,用戶每天要在上面點擊上億次驗證碼,這就是龐大的人工是別免費勞動力。收購這項驗證碼技術之後,2012年,Google開始把Google街景中難以辨識的門牌和路牌加入驗證碼,請用戶幫忙標註。除了標註門牌路牌,讓用戶幫忙給數據庫分類也是常見的形式之一。

Screen-Shot-2018-12-14-at-10.19.23-AM

而辨是這些街景圖片也不是吃飽撐著,而是為了訓練AI,告訴他們正常的人類是怎麼想的,透過數億人對AI的細心調教,如今,Google AI已經能精確辨認路牌上的文字和數字,準確度和人眼不相上下。而GOOGLE研發的無人駕駛汽車Waymo已經在自動駕駛領域大幅領先其他公司。

所以當有一天我們終於用上Google 的自動駕駛技術,依靠AI來辨識路牌和路燈時,這背後不能不說沒有上千萬用戶無償標註的苦勞。雖然這相當於大家免費在幫GOOGLE打工,但往好處想,至少你以後可以驕傲的對你的子孫說,你參與了人類偉大的自駕車AI訓練計畫。

    JT才知道 發表在 痞客邦 留言(0) 人氣()