A blog about data, information and IT, by Mario Alberich

Aug 12
2013

mysqldump, backup comprimido con gzip

En algunas ocasiones el espacio disponible para almacenar copias de seguridad de la base de datos es escaso, por lo que quizá no disponemos del espacio para realizar un volcado completo de la base de datos, y en segunda fase comprimir ese resultado. También puede ser que queramos acortar el proceso evitando la escritura en disco (que puede ser lento), y al disponer de un cierto margen de CPU, podemos comprimir al vuelo.

Pipes


Suponiendo que el comando básico de mysqldump sea como sigue:

mysqldump --opt -u [usuario] -p[clave] [base_de_datos] > [copiaseguridad.sql]

Sabemos que mysqldump devuelve por stdout todo el texto de las sentencias SQL que conforman la base de datos. Eso se guarda en el archivo copiaseguridad.sql.  Lo que se puede hacer es añadir un pipe hacia gzip, y que éste programa sea el que realmente genera el archivo de backup:

mysqldump -u [usuario] -p[clave] [base_de_datos] | gzip > [copiaseguridad.sql.gz]

En este caso, gzip capturará todo el contenido que antes enviábamos a copiaseguridad.sql y lo comprimirá. Una vez hecho esto, ahora sí, lo guardamos en un archivo. Por convención se le añade el sufijo ".sql.gz", ya que de este modo queda claro que está comprimido y del contenido.  Además, al descomprimir desaparece el ".gz", por lo que nos queda la extensión ".sql".

Importar el archivo comprimido


Llega el fatídico día que requiere recuperar la base de datos.  ¿Cómo procedemos? Vamos a incorporar a gunzip, la utilidad de descompresión.  Como en el caso anterior, podríamos ejecutar gunzip y luego mysql. Pero la idea es economizar la escritura en disco, así que seguiremos usando pipes:

gunzip < [copiaseguridad.sql.gz] | mysql -u [usuario] -p[clave] [base_de_datos]

Simplemente:

  • Enviamos a gunzip el contenido del archivo gz.
  • gunzip envía el resultado por stdout.
  • Este resultado es recogido por la pipe de mysql, que lo importa a base_de_datos.

Ratios de compresión


Los archivos SQL son ni más ni menos que archivos de texto. En estos casos los ratios de compresión (tamaño del archivo comprimido en comparación al archivo normal) son bastante notables, y pueden variar según el nivel de compresión. La contrapartida es que a mayor nivel de compresión, más uso de CPU (y más lento).

Sin embargo, si lo tuyo es una necesidad apremiante de espacio en disco, puedes añadir el nivel de compresión (entre 1 y 9, siendo 6 el valor por defecto) al ejecutar gzip:

mysqldump -u [usuario] -p[clave] [base_de_datos] | gzip -9 > [copiaseguridad.sql.gz]

Puedes hacer pruebas para revisar los ratios de compresión. La decisión final depende de todos los factores (CPU disponible, espacio/velocidad de disco, etc.).

En último término, también puedes usar bzip2, aunque la relación entre velocidad y compresión respecto a gzip puede desmotivarte.

Tags

gestión documental 10     Recuperación información 11     Linux 7     Usabilidad 5     open source 3     Tagging 12     lógica borrosa 2     fuentes de información 12     Google 6     off-topic 6     spam 2     grafos 6     Web social 11     modelización 12     Productividad 11     buscadores 2     utilidades 17     Profesionales 9     SEO 5     estándares 3     veracidad 3     relevancia 2     lingüística 2     PLN 2     lenguajes documentales 2     apis-mashups 3     reseñas 7     Flash 7     Gráficos estadísticos 13     Publicidad 3     Innovación 5     muestreo estadístico 9     PHP 14     internet 2     testeo 12     desarrollo 3     visualizacion 36     javascript 16     datos abiertos 9     elecciones 2     simulación 5     html5 7     phing 9     ssh 2     seguridad 3     indicadores 2     demografía 3     media 2     algoritmos 7     shell 4     mysql 2     backup 2     big data 6     twitter 2     d3js 11     revealjs 2     metodología 6     data-journalism 6     smartcities 2     NYT 2     privacidad 3     benchmarking 4     recopilaciones 21     magento 5     formacion 2     github 2     HHVM 3     psicología 2     angularjs 3     grep 2     nodejs 5     promises 2     mapreduce 3     crossfilter 2     exploración de datos 2     machine learning 2    

© 2007 and beyond Mario Alberich, licensed under CC-BY-SA unless stated otherwise.