web-backup

La idea es crear una copia de seguridad de la información pública en los portales web. La misma que sacarías haciendo scraping, pero aprovechando el tener acceso a la base de datos para que sea mucho más rápido y eficiente.

Actualmente solo funciona para wordpress, phpbb y parcialmente mediawiki y mailman pero lo deseable es que se extienda a todos los servicios posibles. Adicionalmente busca en la configuración de apache dominios que no se hayan detectado aún.

En funcionamiento básico es el siguiente:

Mediante un tunel ssh nos conectamos a la base de datos en el servidor
Detectamos los esquemas que nos interesan
Construimos las consultas que extraigan la información pública
Enriquecemos la información con:
- la api wordpress
- la api mediawiki
Obtenemos un mapa de mailman generado con mailman-map.py
Buscamos en apache más sitios web
Creamos la base de datos SQLite con dicha información

Fichero de configuración y scripts

core/config.yml contiene la configuración para conectarse a la base de datos. Obviamente no se incluye en el repositorio, pero tienes un ejemplo con el que crear el tuyo.
export.py se conecta a la base de datos MySQL y crea la base de datos SQLite
release.py prepara las releases y genera:
- sites.7z: una copia reducida de la base de datos que genera export.py
- out/README.md: descripción y estadística básica del contenido de la base de datos
- out/links.txt: listado con las urls de todas las páginas recuperadas para facilitar el uso por terceros con propósitos, como por ejemplo, hacer copias en webarchive o descargar los portales con WebHTTrack
- out/links.html: listado en html con las urls

Diagrama de la base de datos SQLite

Diagrama de la base de datos

This site is open source. Improve this page.