La idea es crear una copia de seguridad de la información pública
en los portales web. La misma que sacarías haciendo scraping, pero aprovechando el tener acceso a la base de datos
para que sea mucho más rápido y eficiente.
Actualmente solo funciona para wordpress, phpbb y parcialmente mediawiki y mailman pero lo deseable es que se extienda a todos los servicios posibles. Adicionalmente busca en la configuración de apache dominios que no se hayan detectado aún.
En funcionamiento básico es el siguiente:
ssh nos conectamos a la base de datos en el servidormailman generado con mailman-map.pyapache más sitios webSQLite con dicha informacióncore/config.yml contiene la configuración para conectarse a la base de datos.
Obviamente no se incluye en el repositorio, pero tienes
un ejemplo con el que crear el tuyo.export.py se conecta a la base de datos MySQL y crea la base de datos SQLiterelease.py prepara las releases y genera:
sites.7z: una copia reducida de la base de datos que genera export.pyout/README.md: descripción y estadística básica del contenido de
la base de datosout/links.txt: listado con las urls
de todas las páginas recuperadas para facilitar el uso por terceros
con propósitos, como por ejemplo, hacer copias en
webarchive o
descargar los portales con WebHTTrackout/links.html: listado en html con las urls