Google приобретает reCAPTCHA для улучшения технологий распознавания текста

Для регистрации новых пользователей, а также для предотвращения компьютерных атак, часто применяется так называемая технология CAPTCHA. Ее суть заключается в создании специального изображения с текстом, цифрами и другими символами. Зашифрованное слово или набор символов без особого труда сможет распознать человек, а вот компьютер практически беспомощен перед такого рода защитой. Компания reCAPTCHA, технологию которой использует более чем 100 тыс. сайтов для предотвращения рассылок спама и защиты от мошенничества, была вчера приобретена Google.

Интересно, что слова отображаемые на CAPTCHA часто получены из отсканированных книг и документов. Из-за того, что с течением времени бумага и чернила меняют свои свойства, компьютеру бывает сложно распознать что же именно запечатлено на странице. Таким образом, при вводе слов люди улучшают возможности распознавания текста компьютерными программами.

Что касается Google, то приобретение новой компании не только позволит ей улучшить защиту от спама в своих сервисах, например в Gmail, но также улучшит качество распознавания печатного текста в проектах Google Books и Google News Archive Search. Новая технология не только поможет переводу печатных книг и новостных изданий в электронный вид, но также сделает возможным поиск по ним.

Напомним, что у Google существует собственное программное обеспечение для распознавания текста (OCR) OCRopus, качество работы которого также должно выиграть от приобретения reCAPTCHA.