Recaptcha

Recaptcha

Recaptcha

El logo de reCAPTCHA

reCAPTCHA es una extensión de la prueba CAPTCHA que se utiliza para reconocer texto presente en imágenes.

reCAPTCHA se basa en el hecho de que para un ser humano puede ser simple determinar el texto presente en una imagen cuando para una máquina esta tarea resulta en ocasiones demasiado compleja.

Contenido

Funcionamiento

Ejemplo de una prueba de reCAPTCHA que contiene las palabras del idioma ingles following finding.

Al digitalizar un documento impreso se toman fotografías del mismo y esas fotografías se convierten a texto empleando sistemas OCR. Sin embargo, hay palabras que presentan dificultades para ser reconocidas automáticamente; como aquellas que contienen letras deformes, manchas producto de defectos en la impresión del papel, páginas con polvo, entre otras. Estas palabras pueden ser identificadas por personas de manera mucho más confiable que por un sistema OCR comptuarizado. reCAPTCHA emplea esta facilidad del ser humano, para así lograr un método de reconocimiento de texto mucho más confiable.

El uso de reCAPTCHA consiste en sustituir al sistema CAPTCHA, colocando dos palabras a reconocer (en lugar de una que emplea típicamente la prueba CAPTCHA). Una de las palabras es conocida y la otra es desconocida. La palabra desconocida es una que no pudo ser obtenida de una imagen mediante un sistema OCR automatizado. El sistema pide al usuario (quien desconoce cuál palabra es conocida y cuál no lo es) que introduzca ambas palabras como texto, y si la palabra conocida se introduce correctamente, el sistema reCAPTCHA asume que hay probabilidades altas de que el usuario haya introducido también la palabra desconocida correctamente. Si la palabra desconocida recibe en múltiples ocasiones la misma traducción (traducción de imagen a texto) se considera que esa traducción es correcta.

Las palabras que fueron traducidas en muchas ocasiones de la misma manera, se pueden reutilizar como palabras conocidas dentro del propio sistema.[1]

Actualmente reCAPTCHA es utilizado para digitalizar ediciones impresas del New York Times.[2] La compañía dueña del sistema reCAPTCHA fue adquirida por Google que podrá usar el sistema como apoyo para su proyecto Google Books.[3]

Google compra reCAPTCHA

Inicialmente escindida de un proyecto de investigación de la Universidad Carnegie Mellon, reCAPTCHA protege 100.000 páginas web del fraude y el spam. Google ha aumentado sus capacidades de reconocimiento óptico de caracteres con la compra de reCAPTCHA, una compañía que se originó en un proyecto de investigación de la Universidad Carnegie Mellon y protege a 100.000 sitios web del spam y el fraude mediante imágenes distorsionadas que se supone que una máquina no puede comprender.

Desde Google explican que Captcha está diseñado para el ojo humano con el objetivo de impedir que programas maliciosos consigan millones de cuentas de correo electrónico para enviar spam. Un detalle que desvela Google es que la mayoría de los Captchas que ofrece la compañía proceden de periódicos y libros viejos escaneados. Por lo tanto para los ordenadores es difícil reconocer estas palabras porque la tinta y el papel se han degradado con el tiempo, de forma que la tecnología de la compañía también se puede utilizar para mejorar procesos de OCR para convertir imágenes escaneadas en texto plano.

La tecnología se puede utilizar para proyectos de escaneo de textos a gran escala como Google Books y Google News Archive Search. Tener la versión en texto de un documento es importante porque el texto plano se puede buscar, exportar a dispositivos móviles y mostrar visualmente a usuarios incapacitados.

Con la compra Google afirma que no sólo incrementará la protección ante el fraude y el spam de los productos de la compañía, sino que también mejorará el proceso de escaneado de sus libros y periódicos.[4]


Referencias

  1. Timmer, John (2008-08-14). «CAPTCHAs work? for digitizing old, damaged texts, manuscripts». Ars Technica. Consultado el 2008-12-09.
  2. «Learn more». reCAPTCHA.net. Consultado el 2008-11-23.
  3. «Teaching computers to read: Google acquires reCAPTCHA». Google. Consultado el 2009-09-16.
  4. http://www.itespresso.es/es/news/2009/09/17/google-compra-recaptcha

Enlaces externos

Obtenido de "Recaptcha"

Wikimedia foundation. 2010.

Игры ⚽ Нужна курсовая?

Mira otros diccionarios:

  • ReCAPTCHA — is a system developed at Carnegie Mellon University which utilizes CAPTCHA to assist in the process of digitizing the text of books, while protecting websites from bots attempting to access restricted areas. reCAPTCHA supplies subscribing… …   Wikipedia

  • ReCAPTCHA — Logo du reCAPTCHA …   Wikipédia en Français

  • ReCaptcha — Logo du reCAPTCHA …   Wikipédia en Français

  • ReCAPTCHA — Логотип reCAPTCHA reCAPTCHA  это система для защиты веб сайтов от интернет ботов (спам ботов), основанная на тесте Тьюринга и призванная оградить веб ресурсы от автоматических алгоритмов и программ путём генерации случайного текста и вывода… …   Википедия

  • reCAPTCHA — The reCAPTCHA logo reCAPTCHA is a system originally developed at Carnegie Mellon University s main Pittsburgh campus. It uses CAPTCHA to help digitize the text of books while protecting websites from bots attempting to access restricted areas.[ …   Wikipedia

  • reCAPTCHA — Логотип reCAPTCHA. reCAPTCHA  система, разработанная в университете Карнеги  Меллон для защиты веб сайтов от интернет ботов, и одновременной помощи в оцифровке текстов книг. Является продолжением проекта …   Википедия

  • reCAPTCHA — Logo du reCAPTCHA. Un exemple de reCAPTCHA : les mots à reconnaître sont «  …   Wikipédia en Français

  • reCAPTCHA — Beispiel einer reCAPTCHA Eingabebox reCAPTCHA ist ein CAPTCHA Dienst, also ein Verfahren, um sicherzustellen, dass eine bestimmte Handlung im Internet von einem Menschen und nicht von einem Bot vorgenommen wird. Das Besondere ist die Tatsache,… …   Deutsch Wikipedia

  • ReCAPTCHA — CAPTCHA [ kæptʃə] ist ein Akronym für Completely Automated Public Turing test to tell Computers and Humans Apart. Wörtlich übersetzt bedeutet das „Vollautomatischer öffentlicher Turing Test, um Computer und Menschen zu unterscheiden“. CAPTCHAs… …   Deutsch Wikipedia

  • Captcha — [ kæptʃə] ist ein Akronym für Completely Automated Public Turing test to tell Computers and Humans Apart. Wörtlich übersetzt bedeutet das „Vollautomatischer öffentlicher Turing Test, um Computer und Menschen zu unterscheiden“. CAPTCHAs werden… …   Deutsch Wikipedia

Compartir el artículo y extractos

Link directo
Do a right-click on the link above
and select “Copy Link”