Jornada 25 Aniversario Asociacion de Internautas


El lío del proxy-caché


Por su interés pedagógico reproducimos el artículo que nuestro compañero Antonio Caravantes ha publicado en su página web y donde explica que es un Proxy Caché, como funciona, para que sirve y que supone para los internautas. Especialmente recomendada su lectura para Internautas con escasos conocimientos técnicos





Hace poco más de dos meses, Infohackers denunciaba públicamente que "Telefónica y Terra espiaban a sus clientes de ADSL". Los medios de comunicación general se hacían eco de esta denuncia, y añadían el desmentido de Telefónica: "solo se han activado 'caches' de disco orientadas a mejorar la velocidad de navegación de sus clientes". Sin embargo, la denuncia causó cierto alarmismo, y Telefónica se sintió obligada a retirar esos sistemas 'caché' inmediatamente.

Un mes después, Telefónica enviaba un correo-e a todos sus clientes, explicando las supuestas ventajas de ese sistema, y avisando de que sería nuevamente activado el día 10 de enero. Así pues, volvemos a tener lío de opiniones, acusaciones de espionaje, desmentidos y todo lo habitual en estos casos. ¿Qué hay de cierto en todo este follón? Veamos si podemos aclarar algo...

En informática, desde hace muchos lustros se utilizan sistemas caché, que almacenan temporalmente la información utilizada, porque está comprobado que esa misma información suele volver a necesitarse. Este truco tiene cierto sentido cuando el sistema de almacenamiento temporal es mucho más ágil (rápido de consultar) que la fuente original que contenía la información. Por ejemplo, muchos sistemas operativos almacenan en memoria RAM la información obtenida del disco duro; hay bastantes posibilidades de que posteriormente vuelva a necesitarse esa misma información, y ya no será necesario volver a consultar el disco duro: podrá obtenerse directamente de la "copia" que se guarda en memoria RAM, con la ventaja de que es mucho más rápido consultar la memoria RAM que el disco.

Otro ejemplo: quizá hayas visto que algunos microprocesadores anuncian como una de sus características que disponen de memoria "caché". En esa pequeña memoria (incluída en el propio microprocesador) se va guardando una copia de la información recientemente obtenida de la memoria RAM, que -proporcionalmente- es mucho más lenta. De esa forma se agiliza el trabajo: puesto que muchas veces el microprocesador necesita volver a consultar los mismos datos de la memoria RAM, así puede obtenerlos más rápidamente de sus propios circuitos.

En Internet ocurre algo muy parecido. Muchas páginas son consultadas repetidamente al cabo del día; el proveedor de conexión puede instalar un sistema que actúe como memoria temporal intermedia para guardar una copia de las páginas que van visitando los usuarios. Así, cuando otro usuario (o el mismo usuario) quiera volver a consultar esa página, el proveedor de Internet ya no necesita solicitarla al servidor que la aloja en otro ordeandor remoto: puede pasarle al usuario los datos (una "copia") que están almacenados en alguno de sus propios ordenadores. Este sistema se le suele denominar PROXY-CACHÉ o PROXY-TRANSPARENTE (hay otro tipo de proxy, totalmente distinto, que no tiene nada que ver con todo esto).

Teóricamente, tiene la ventaja de que el usuario recibe la página más rápidamente, porque solo necesita que esa información le sea transferida desde su proveedor (y no desde un servidor remoto, más lejano y que habitualmente implica transmisiones más complicadas). Pero la realidad es que el proveedor tiene un interés más inmediato: él se evita mucho tráfico con otros servidores remotos, lo cual puede ahorrarle ancho de banda y -por consiguiente- también le ahorra importantes costes económicos. Cuantos más usuarios tenga ese proveedor, más ahorra porque ocurrirá que habrá más personas consultando páginas "repetidas" (que ya han sido consultadas por otros usuarios).

Una persona poco experta puede pensar que todo esto no tiene mucho sentido, puesto que para conseguir esas ventajas, el proveedor ha de instalar potentísimos sistemas de almacenamiento (discos duros) para esa inoformación que va a ser archivada temporalmente, y además necesita una serie de mecanismos (software y hardware) que organicen el almacenamiento y la recuperación de una forma adecuada. Es cierto que esto también conlleva gastos, pero suele ocurrir que estos gastos son menores que el ahorro económico derivado de un ancho de banda inferior. Aunque todo esto es complicado y caro, les merece la pena sobradamente.

Es por ese motivo que casi todos los grandes proveedores de acceso a Internet tienen instalados sistemas de este tipo, comenzando por American On Line (AOL, el mayor proveedor mundial de conexión a Internet) y acabando por cualquier proveedor español mediano. Y además hay que aclarar que esta tecnología vale para para toda clase de conexiones: ADSL, cable, línea telefónica convencional, etc.

Esto tampoco es algo que debiera sorprendernos mucho: la mayoría de los ordendores utilizados por el usuario también incorporan algún sistema de caché interno, que incluso puede ser utilizado para visitar páginas cuando no hay conexión. Este caché interno (los famosos "archivos temporales de Internet"), es usado por el navegador en más de una ocasión, incluso sin que el usuario se de cuenta (por ejemplo, cuando consultamos dos veces una página, en la misma sesión de navegación). El usuario que conoce bien los entresijos de su sistema y su navegador puede configurar algunos detalles de este caché interno para que trabaje de acuerdo a sus intereses concretos. Pero dejemos el "browser-caché" (caché del navegador) y volvamos al proxy-caché utilizado por los proveedores...

¿Que clase de información se maneja con estos sistemas proxy-caché? Lo normal es que los sistemas proxy-caché solo sean usados para páginas web: es fácil entender que no sirve para el correo-e, el IRC, etc. Podría usarse para FTP, pero ésta es una tecnología utilizada por muy pocos usuarios, así que ahí no aportaría ventajas significativas.

¿El sistema proxy-caché almacena todas las páginas web?

Normalmente no. Un sistema bien diseñado solo afectará a las páginas supuestamente estáticas. Existen otras páginas que el servidor remoto "construye" en el momento de servirlas. Por ejemplo, cuando consultas un buscador, la página de resultados se prepara en el momento, dependiendo de la consulta concreta. También hay otros sistemas de páginas no estáticas, como por ejemplo las páginas de los periódicos que pueden cambiar su contenido varias veces al día. Existen páginas que en todo momento ofrecen la situación de la bolsa, y esas cambian contínuamente (minuto a minuto) a lo largo de la jornada bursatil. Todo este tipo de páginas nunca deben ser almacenadas en un sistema proxy-caché.

¿Cuánto tiempo se mantiene en el proxy-caché la copia de una página concreta?

Eso depende de cómo esté configurado el proxy-caché, y de la actividad de los usuarios, y de otros detalles más. Lo normal es que el proxy-caché almacene cualquier página que sea solicitada por un internauta; si en ese momento ya estuviera lleno el espacio de almacenamiento temporal (disco-caché) entonces hay que liberar previamente algún espacio: lógicamente se descarta la página "más vieja", la que no ha sido solicitada hace más tiempo.

Por otro lado, una misma página puede estar siendo solicitada frecuentemente por distintos usuarios, y el proxy-caché no puede mantener indefinidamente la copia obtenida tiempo atrás. Podría ocurrir que el contenido de esa página también cambiase (aunque aparentemente sea una página estática, eso no significa que siempre vaya a permanecer igual). Las paginas almacenadas en el proxy-caché tienen un período de utilización máximo (que define el responsable de ese sistema) y transcurrido ese tiempo se vuelve a solicitar la página al servidor remoto.

¿Obtiene ventajas reales el usuario final?

Eso es más dudoso, y depende de la agilidad del sistema proxy-caché utilizado, así como de la cantidad de información almacenada. Algunas veces ocurre que los sistemas proxy-caché son demasiado lentos en proporción al número de usuarios y de páginas almacenadas, con lo cual el usuario acaba siendo perjudicado: se tarda más en recibir la información del proxy-caché que si se solicitara esa misma información del servidor remoto. Si el sistema proxy-caché no está bien dimensionado y ajustado, esto puede ocasionar una ralentización en la navegación de los usuarios, pero el proveedor sigue obteniendo su ventaja principal: ahorrarse ancho de banda hacia el exterior, y dinero relacionado con eso.

Por otro lado, muchas veces ocurre que una página es modificada y los usuarios que acceden a través del proxy-caché siguen recibiendo durante algún tiempo la "copia" que fue obtenida antes de esa modificación.

¿Qué hay de cierto en las denuncias de que este tipo de sistemas favorecen el espionaje del proveedor hacia los usuarios?

Ciertamente, el proveedor que instala uno de estos sistemas proxy-caché puede fácilmente saber cuáles son las páginas visitadas por uno de sus usuarios, y eso ya constituye una violación de la privacidad. Pero esos mecanismos de vigilancia y control podrían activarse también sin necesidad de usar un proxy-caché. Si quiere, un proveedor siempre puede configurar sus sistemas para controlar cuáles páginas visita cada usuario. Y -repito- eso podría estarle ocurriendo también a los usuarios cuyo proveedor no tiene un sistema de proxy-caché.

Por otro lado, este tipo de espionaje también puede ser realizado por sistemas de otras entidades, sistemas también implicados en la transmisión de datos hacia/del servidor remoto: en Internet, las transmisiones suelen pasar por varios routers y servidores intermedios, y cualquiera de esas máquinas podría estar tomando nota de quién (cuál IP) consulta qué páginas, la frecuencia de esas consultas y todo lo demás. En este sentido, el proxy-caché evita este riesgo, puesto que la transmisión real solo implica al ordenador del usuario y a los servidores del proveedor, dejando fuera de juego a otros intermediarios e incluso al propio servidor remoto que originalmente aloja la página. Por lo tanto no creo que tenga mucho decir que los usuarios afectados por un sistema proxy-caché tienen más riesgo de ser espiados.

Incluso se ha llegado a decir que el sistema proxy-caché podría usarse para que el proveedor obtuviera contraseñas, números de tarjeta de crédito y otros datos que el usuario escribe en páginas web, pero me parece una afirmación totalmente improcedente, por dos razones: la primera es idéntica a la del párrafo anterior: un proveedor que no tiene proxy-caché también puede estar interceptando y archivando toda esa información (que pasa por sus máquinas), e igualmente podrías estar siendo fisgoneado por otros sistemas que están "más allá" de tu proveedor.

El segundo argumento es que la información más sensible (número de tarjeta de crédito, y similar) suele anotarse en páginas web seguras (https). Cuando el usuario está manejando páginas de este tipo, las transmisiones entre el ordenador del usuario y el servidor remoto van encriptadas: ningún intermediario puede ver realmente cuál es el contenido de la página o los datos transmitidos en una u otra dirección.

Pero aquí no se acaban los recelos, porque esto también afecta a algún detalle técnico, como el siguiente. Habrás visto que muchas páginas tienen un contador de visitas, y ese contador no registará las consultas realizadas por usuarios que están usando un proxy-caché.

Supongamos que mil usuarios consultan diariamente una página concreta. El contador de visitas debería marcar esos mil accesos diarios. Pero puede ocurrir que la mitad de esos usuarios conecten a través de un servidor que tiene un proxy-caché. Este sistema quizá obtenga una copia diaria de esa página, y luego suministra esa información a todos sus clientes, hasta completar otro ciclo de 24 horas. Curiosamente, el contador de visitas solo registrará 501 visitas diarias (500 usuarios que acceden realmente al servidor remoto, y un solo acceso diario del sistema proxy-caché).

Aparentemente esto puede perjudicar al dueño de la página, que obtiene unas estadísticas desvirtuadas, pero igualmente puede provocar cierta desinformación entre los visitantes: una página que registra mil consultas diarias tiene más "crédito" que otra con registros inferiores.

Pero también es cierto que los sistemas servidores remotos no tendrán que soportar tantas consultas directas de páginas, y eso conlleva que esos servidores también se ahorrarán una parte del ancho de banda. Eso implica que los usuarios que accedan sin proxy-caché obtendrán una respuesta más ágil de ese servidor, y que el responsable del servidor economizará parte del coste relacionado con el ancho de banda: podrá ofrecer un mejor servicio a menor coste, porque los sistemas proxy-caché de otros provedores funcionarán como "sucursales" o "delegaciones" de ese servidor, haciendo parte del trabajo que a él le correspondería.

En casos muy particulares, un sistema proxy-caché puede añadir algún otro inconveniente, siempre que los sistemas (del proveedor, del servidor remoto y/o del propio usuario) no estén correctamente afinados.

¿Quieres saber si tu proveedor está utilizando un sistema proxy-caché? La Asociación de Internautas pone a disposición de los internautas un Test -accesible desde la pagina principal- para que conozca si esta detrás de un Proxy transparente.






¿Puedes exigir a tu proveedor que tu conexión no sea afectada por un sistema de ese tipo?

Lamentablemente, los usuarios no pueden elegir si quieren usar el proxy-caché o prescindir de él. La legislación no dice nada a este respecto, y por lo tanto el proveedor puede hacer cualquier cosa en este sentido. Para más seguridad, consulta tu contrato (el que "aceptaste" cuando contrataste el acceso a Internet, ese contrato marca los derechos y las obligaciones de ambas partes); quizá en ese contrato haya alguna cláusula que pueda interpretarse como incompatible con un proxy-caché, y en ese caso podrías obligar al proveedor, pero eso es muy poco probable. Como máximo, algunos proveedores "muy generosos" permiten a sus usuarios definir ciertas páginas que no deben ser afectadas por el sistema proxy-caché: el responsable añadirá esas URLs en la configuración del sistema, para que esas páginas siempre sean obtenidas del servidor remoto. Si no te gusta cómo funciona tu proveedor de conexión, ya sabes lo que tienes que hacer: busca, compara, y si encuentras otro mejor...

¿Que pueden hacer los internautas para tratar de minimizar los inconvenientes de un proxy-caché?

Los visitantes de una página, si creen que la página obtenida no está suficientemente actualizada, siempre pueden pulsar el botón del navegador que sirve para recargar esa página. Teóricamente eso sería suficiente para saltarse el proxy-caché (y que en él quedara una copia totalmente actualizada), pero en la práctica suele ocurrir que hay que insistir varias veces en la pulsación de ese botón, e incluso ni insistiendo llegas a obtener una copia actualizada de la página.

Los creadores de páginas web pueden incluír en la cabecera de su página una línea como la siguiente: Teóricamente, el sistema proxy-caché no debería almacenar las páginas que contengan esa indicación.

Otras conclusiones:

Está bien que Telefónica avise a sus clientes de cualquier cambio tecnológico que les afecte. Hasta ahora, Telefónica no tiene fama de ser muy considerada con quienes le pagan, y no le viene mal una dosis de transparencia. Además, así evita que los usuarios puedan sentirse "tecnológicamente traicionados", por cosas como ésta.

Pero también creo ver que algunos sectores de internautas aprovechan cualquier ocasión para atacar a Telefónica. Ningún buen informático diría que un proxy-caché es una herramienta para espiar a los usuarios, y si lo dice es por otros motivos distintos a la objetividad técnica. Existe mucha animadversión a Telefónica... y no me sorprende porque Telefónica parece haber hecho muchas cosas orientadas a ganarse la enemistad de los ciudadanos (por ejemplo, poner un sistema proxy-caché sin avisar a sus clientes).

Quizá aún sea peor que haya medios de comunicación tan malos como para dar crédito a cualquier rumor lanzado por cualquier grupo de internautas. Hay demasiados periodistas sin la preparación técnica mínima para entender de lo que están hablando esos rumores... falsos.

Finalmente...

En cierto modo creo que los usuarios tenemos cierta responsabilidad en estas "maniobras rastreras" de los proveedores, porque hay una competencia feroz que nosotros mismos estamos propiciando: normalmente acabamos contratando con el proveedor más barato, así que luego no debería sorprendernos que la calidad vaya en detrimento contínuo: instalación de sistemas proxy-caché, servicios de atención al cliente que son un teléfono 906 (con recargo), etc. Lógicamente, los proveedores tratan de ajustar los precios según demanda el público, y luego nos sorprende que esos precios tan ajustados conlleven servicios raquíticos. ¿O es que TODOS los proveedores son unos miserables que quieren ganar más y más a costa de ofrecernos menos y menos? Quizá sea un poco de ambas cosas.

Más información y enlaces relacionados en: Caravantes.com .


pdfprintpmail