Volver arriba
2012-09-10
Un incauto lector (¡gracias por el aviso, MA!) me informa
de que vuelve a haber cambios en el sistema de obtención de vídeo
y audio de la página de RTVE.
Aquí documento cómo obtener el contenido en esta nueva situación.
El material publicado en la página de RTVE está pagado por los
contribuyentes españoles y éstos pueden, de hecho, grabar dicho
material cuando se emite por señales aéreas de radio y televisión.
Si un ciudadano tiene previsto ver un vídeo o escuchar un segmento de
audio más de una vez, puede ahorrar recursos del Estado si descarga
el contenido y a partir de entonces recurre a su copia local.
Sigue el nuevo procedimiento paso a paso. Hay un
algoritmo necesario para recuperar la dirección
del contenido (que está ofuscada); este algoritmo aparece en el
siguiente artículo de la serie. He actualizado rtve-mediateca-dl,
el pequeño programita para sistemas *nix que implementa
el método.
Procedimiento paso a paso
- Vamos a la página en la que se encuentra el contenido que nos
interesa. Inspeccionamos su código.
- Hay un elemento
<div>
con clase
VideoContainer (para vídeo) o AudioContainer
para audio y en el que irá incrustado el contenido que nos interesa.
- Este elemento tiene una propiedad llamada data-assetID
cuyo valor es, simbólicamente,
[IDENTIFICADOR]_es_[TIPO].
- [IDENTIFICADOR] es un número;
- [TIPO] es videos o audios.
- También necesitamos otra información, una cosa llamada
[MANAGER]. Parece que depende del navegador
utilizado. Si cogemos identificador de nuestro navegador
(la famosa cadena de texto User Agent), lo codificamos
en base64 y sustituimos las barras («/») por guiones
bajos («_») y los símbolos de suma («+») por
guiones («-»), tendremos un texto al que llamaremos
[UA]. Una línea en blanco vale y su codificación
es Cg==. Con el valor de [UA],
construimos la dirección
http://www.rtve.es/odin/loki/[UA]/
y descargamos lo que contiene. Dentro habrá un texto
semejante a éste:
{"manager":"[MANAGER]"}
Anotamos el valor de [MANAGER].
- Ahora podemos descargar los metadatos. Éstos se encuentran
en la siguiente dirección:
http://www.rtve.es/ztnr/movil/thumbnail/[MANAGER]/[TIPO]/[IDENTIFICADOR].png
En efecto: es una imagen, pero una imagen cargada.
- Descargamos la imagen de la anterior direcció. Resulta que
está codificada en base64, así que la decodificamos.
- La imagen contiene campos de propiedades que son texto.
Podemos obtener estas propiedades con un programa adecuado
para imágenes (por ejemplo, con identify -verbose
de ImageMagick
o con gm identify -verbose de GraphicsMagick), usar
strings o incluso mirar directamente con un editor de
texto decente. Lo que nos interesa está al principio del fichero
e inmediatamente a continuación de la secuencia
tEXt
(que no aparecerá en la salida de los programas de tratamiento
de imágenes). Habrá dos partes de interés separadas por unos
pocos caracteres:
[TEXTO OFUSCADO]#: [CLAVE NUMÉRICA]
- [TEXTO OFUSCADO] es una secuencia de caracteres,
números y símbolos. Contiene la dirección del contenido que deseamos
descargar, pero hay que desofuscarla.
- [CLAVE NUMÉRICA] es la clave necesaria para
desofuscar.
El algoritmo para recuperar la dirección aparece en un
artículo posterior, ya que el actual ya es bastante largo.
- Una vez recuperada la dirección, podemos descargar el contenido
para nuestro disfrute posterior y para mejor uso de los recursos
estatales.
Categorías:
Informática
Artículos publicados el mismo mes
Permalink:
https://sgcg.es/articulos/2012/09/10/nuevos-cambios-en-el-mecanismo-para-descargar-contenido-multimedia-de-rtve-es-1/
Volver arriba