Video: ELVICTV: COMO TRIUNFAR EN YOUTUBE ROBANDO CONTENIDO DOCUMENTAL MARCIANOTECH (Noviembre 2024)
Digamos que es un proveedor en línea de productos electrónicos usados. Su negocio depende de que ese tipo que quiera un iPad usado encuentre sus excelentes precios. Pero no sería tan feliz si un competidor capturara toda su lista de precios para superar sus precios lo suficiente. ¿Cómo puede permitir el acceso completo a los usuarios mientras evita el raspado al por mayor de su contenido? Bueno, podría usar ScrapeDefender, una solución anti-raspado basada en la nube que se lanzó hoy. Hablé con Robert Kane, CEO de ScrapeDefender, sobre cómo funciona el producto.
¿Quién lo necesita?
"Ya estamos trabajando con aerolíneas, productos electrónicos de consumo, mercados financieros y más como clientes beta", dijo Kane. "Cualquier sitio web que publique una gran cantidad de contenido importante, listas de precios, bienes raíces… todo ese contenido puede ser cosechado en masa". Kane señaló que, si bien algunos scrapers usan scripts simples, otros intentan disfrazarse de humanos capturando el sitio más lentamente o usando múltiples bots. "El desafío para los propietarios es: ¿cómo dejo entrar al mundo y evito los bots no autorizados", concluyó Kane.
Ahí es donde entra ScrapeDefender. "Nuestro monitor es una herramienta pasiva, como Google Analytics", dijo Kane. "Inserta una línea de código en su sitio que nos permite monitorearlo las 24 horas del día, los 7 días de la semana. Solo una línea de código en el encabezado de la página web. Dado que es pasivo, no hay ningún efecto en su red de producción".
Panel en línea
Un cliente de ScrapeDefender puede ver una descripción general de todas las actividades de raspado bloqueadas, pero también puede profundizar para obtener detalles completos. Kane demostró el sistema, mostrándome los tipos de actividades que levantan una bandera roja. Muchos son bastante sencillos. La dirección IP de un raspador tiende a hacer muchas más visitas al sitio y visitas a la página que la de un ser humano, y tiende a permanecer en cualquier página por un tiempo muy corto. Incluso cuando intentan ir despacio y evitar la detección, se ve un patrón. Las visitas de humanos generalmente vienen con un campo de referencia; Las visitas de los robots de raspado nunca lo hacen. Todos estos criterios contribuyen a una puntuación de riesgo general; un puntaje lo suficientemente alto casi siempre identifica la actividad de raspado.
"Los raspadores sofisticados usan múltiples direcciones IP", señaló Kane. "Pero utilizamos una huella digital para que coincida con las sesiones relacionadas, incluso cuando la IP es diferente. Puede ser un script que se ejecuta en diferentes máquinas, o diferentes máquinas virtuales, pero la huella digital es la misma".
¡Raspador, sin raspado!
Pregunté qué sucede una vez que se identifica un raspador. "Hacemos eso de dos maneras", dijo Kane. "Ofrecemos un módulo de seguridad que puede bloquearlos, pero estamos descubriendo que las organizaciones con las que trabajamos tienen su propio firewall. Por lo tanto, tenemos una API que puede enviar las direcciones IP sospechosas a su firewall"."
Entonces, ¿cuánto cuesta? El precio comienza en $ 79 por mes y se escala a sitios web de cualquier tamaño. "Alguien nos contactó la semana pasada", dijo Kane, "sobre un sitio web con 25 millones de visitas… ¡por día ! Lo apoyamos".
La compañía realizará un análisis de aproximadamente 150 vulnerabilidades relacionadas con el raspado para un nuevo cliente, pero cualquiera puede ejecutar un análisis gratuito que verifique un subconjunto de esos. Simplemente visite el sitio web de ScrapeDefender e ingrese el nombre de dominio. En unos minutos tendrás tu respuesta.
El futuro
"En mi opinión", dijo Kane, "el antiscraping ahora es similar al negocio de los primeros antivirus. Es una gran oportunidad. Todos tendrán que tenerlo". Señaló que Snapchat podría haber usado esta tecnología para evitar la recolección de datos de 4.6 millones de usuarios y, por lo tanto, evitar el reciente aumento en el spam de Snapchat.
"CAPTCHA no es una solución", dijo Kane. "Incluso si funcionó, ¿no han oído hablar de las granjas CAPTCHA? La solución real es observar el comportamiento y bloquear los comportamientos de raspado".
Queda por ver si suficientes propietarios de sitios web elegirán pagar por una solución antiarañazos. Estaré observando para ver cómo se desarrolla este.