/ análisis

ASÍ AYUDA UN CAPTCHA

Gracias a los captchas hemos digitalizado libros y ahora ayudamos a identificar mapas e imágenes

Un proceso tan sencillo como el captcha ha ayudado a preservar libros extrairdinariamente raros, y no se queda ahí

Yago Rosa Fernández

13 de Septiembre de 2016

Si eres de los que apsas constantemente tus días navegando por Internet, lo más seguro es que una de las cosas que más hagas sea rellenar captchas. es un proceso habitual para cualquier procedimiento para el que se quiera evitar que participen robots, como pudiera ser el registro en páginas web, algunos logueos en páginas web o incluso en otros procesos según decida una página web.

Los captchas llevan con nosotros desde hace un buen tiempo, desde que se vio que los bots podrían causar problemas en servidores por registros masivos.Desde entonces el captcha ha sido uno de los métodos más efectivos para evitar procesos automáticos, con un procedimiento muy sencillo que evita los ataquen mediante acceso web, protegiendo lo suficiente un sistema para evitar males.

De los captchas sencillos a los que tenemos hoy en día



Para los profanos, un captcha es un proceso de confirmación que nos asegura que quien lo hace es un ser humano. Para ello se requiere de hacer una labor, como por ejemplo distinguir las letras de una imagen, que no sea para todos el mismo resultado, asegurando que un bot no sea capaz de completarlo de forma sencilla.

El proceso más sencillo siempre ha sido el de distinguir una serie de letras en una imagen, a menudo se interponían todo tipo de imperfecciones para hacer que un programa no pudiese distinguirlo fácilmente, pues quien tuviese eso bien podría registrarlo y ganar sus buenos royalties en detección de letras.

Sin embargo, esto atrajo la atención de muchas empresas, con algunas que querían sacarle rédito económico. Ha habido empresas que aprovecharon para poner publicidad y hacer que para pasarlo hubiese que responder con la publicidad que se había mostrado, y aunque hay algunos sitios de baja calidad que lo usan, no es que sea un método muy usado.

Gracias a los captchas hemos digitalizado libros y ahora ayudamos a identificar mapas e imágenes


Sin embargo, hubo una empresa que quiso aprovechar para darle un impulso a un proyecto que necesitaba de ayuda humana de muy reducidos conocimientos y no muy laborioso, pero altamente repetitivo por la cantidad de veces que había que hacer una labor.

Se trata de Re-Captcha, una empresa que ahora se encuentra bajo propiedad de Google y ofrece a todas las webs interesadas un proceso de captcha de gran calidad, fácil de entender y que no les supone demasiado coste para sus servidores, algo muy atractivo para quienes quieren evitar bots en ciertos procesos sus webs.

En un principio era una servicio de captcha más, pero tras su tecnología oculta la capacidad para conseguir un gran colectivo de procesamiento humano. La mayor labor que han hehco es la de digitalizar libros antiguos a ritmos muy acelerados, con una gran capacidad de acierto sin tener que dedicar muchos esfuerzos, tiempo y dinero a expertos mayormente debido a la naturaleza simplista de la labor.

Muchos recordaremos cuando en un captcha nos ponían dos palabras que teníamos que identificar, a veces estaba en un idioma que conocíamos y otras veces en uno que desconocíamos totalmente su existencia. Sin embargo, debido a que el ser humano puede reconocer los patrones de una letra si está en su alfabeto aún sin estar en su idioma, puede responder a un captcha de dos palabras.

Aquí viene el procedimiento más complicado, pero realmente es una idea muy sencilla que necesita de distribución masiva. Cuando nos salen dos palabras, solamente una es la palabra de control, la que se usa para verificar que realmente somos un ser humano con capacidad de razonamiento complejo. La otra palabra es una palabra que un sistema de reconocimiento no ha conseguido distinguir todas las letras, pero que define como una o dos palabras. La idea es que en ningún caso se sabe exactamente cuál de las palabras se intenta digitalizar y corregir ni cual la que ya se sabe que está bien, con lo que es labor del usuario hacer bien las dos para pasar seguir adelante.

Eso sí, no se guarda el primer resultado que se obtiene, sino que se consiguen tomar estadísticas de cuál puede ser la palabra que estamos intentando conseguir. Se toman todos los resultados y se coge la que tiene más probabilidades de ser según las respuestas que se han recibido y se cotejan cuales pueden ser las más probables según la gramática y el vocabularios que se correspondan en el contexto.

De libros a identificar imágenes



El gran tema es que debido a la gran cantidad de gente que ha estado usando el servicio, ya no quedan tantos libros que digitalizar, con lo que había que buscarle un nuevo uso al servicio. La idea sigue necesitando de ser un proceso que una persona con capacidad de lectura básica pueda cumplir, que no consuma mucho tiempo y que pueda aprovechar el que mucha gente lo vaya a usar en periodos de tiempo muy cortos.

La solución es la identificación de imágenes, que es lo que ahora mismo se está viendo en Re-Captcha. El proceso es igual en base: una imagen de control que es la que nos asegura que es un ser humano y luego imágenes que confirmar. En este caso es más complejo, porque hay que ir seleccionando los que son ciertos y evitar los que se sabe que no son correctos. Como antes, el usuario no sabe cuales son los que hay de control y cuales son los que hay que identificar para completar la información.

Gracias a los captchas hemos digitalizado libros y ahora ayudamos a identificar mapas e imágenes


Las peticiones ahora son para dos grandes proyectos. El primero es poder identificar contenido de las imágenes que pasan por el proceso de inteligencia artificial, con el objetivo de ir mejorando la búsqueda de imágenes de Google, preguntando por cosas como elementos del paisaje, carteles y núumeros de calles.

El otro objetivo es mejorarlo para StreetView, identificando carteles en su mayor medida, pero también pueden surgir otras peticiones. Esto está rumoreado que sirve para mejorar la identificación elementos en los coches autónomos, pero no hay pruebas de que sirvan para más que Steer View.

Hemos llegado muy lejos desde que se empezó a digitalizar libros, se han conseguido gracias a los pequeños esfuerzos de muchas personas el poder preservar una copia digital de libros de los que ya no hay apenas copias, y ahora estamos mejorando la inteligencia artificial. Todo ello se ha conseguido además aportando una solución a las webs para protegerlas de registros invasivos, simplemente sabiendo aprovechar un problema en una oportunidad para mejorar el mundo.
0

Positivo:

Negativo: