Poda – alvarezp

Versión resumida: 0.1
Tipo de proyecto: herramienta para detectar directorios duplicados y similares
Página del proyecto: https://gitlab.com/alvarezp2000/poda
Descarga: Versión 0.1
Uso principal: entender cómo se repiten, divergen o se respaldan directorios entre múltiples almacenamientos
Entornos previstos: laptops, PCs, NAS, discos USB y memorias flash

Poda es una herramienta pensada para encontrar directorios duplicados o muy parecidos entre múltiples ubicaciones de almacenamiento, incluso cuando esos dispositivos no están conectados al mismo tiempo. La idea central es ayudar a entender cómo se ha duplicado la información con el paso del tiempo: respaldos parciales, copias manuales, versiones divergentes y estructuras repetidas entre laptops, servidores, NAS y memorias externas.

A diferencia de los programas que comparan un solo disco en tiempo real, Poda trabaja en dos fases. Primero genera índices del contenido de cada almacenamiento. Después procesa esos índices juntos para descubrir duplicados y similitudes. Ese diseño permite indexar un dispositivo hoy, otro la semana siguiente y luego comparar todo en una sola máquina.

Cómo funciona

En su planteamiento original, cada almacenamiento se registra como un hamper. Cada hamper se indexa de forma independiente y después los índices se reúnen para analizarlos en conjunto. Esto permite escenarios muy prácticos: indexar el directorio personal de una laptop, luego una memoria USB, luego otra, y más tarde comparar todo con índices generados en un NAS.

poda-hamper-add laptop-home /home/alvarezp .
poda-hamper-add flash-8gb /media/alvarezp/ABCD-EF00 .
poda-hamper-add flash-32gb /media/alvarezp/0123-4567 .

poda-reindex laptop-home
# Insertar la memoria de 8 GB
poda-reindex flash-8gb
# Cambiar a la memoria de 32 GB
poda-reindex flash-32gb

Una vez reunidos los índices en una sola máquina, el análisis se realiza con una tubería de postprocesamiento. El resultado no es una orden automática de borrado, sino un reporte que revela cuántos bytes son únicos y cuántos están duplicados entre dos directorios, junto con su porcentaje de similitud.

poda-ls | sort | poda-dirdupes.py | sort -n

Un resultado como 23 80.85% 57 entre dos rutas indica que los directorios comparados comparten una gran parte de su contenido. Esa información sirve para investigar qué ocurrió entre ambos: si uno fue respaldo del otro, si divergieron con el tiempo o si todavía conviene conservar ambos.

Uso real y alcance

El proyecto está pensado para uso real sobre infraestructuras mixtas. El autor describe pruebas con doce almacenamientos distintos, incluyendo varias computadoras Linux, dos NAS muy diferentes entre sí, discos duros externos y memorias USB. En ese contexto, Poda ya permitió identificar más de 2 TB de respaldos duplicados, con ubicaciones precisas.

Esto deja claro que la intención del proyecto no es sólo detectar duplicados exactos dentro de una carpeta aislada, sino reconstruir relaciones entre copias repartidas a lo largo del tiempo y entre dispositivos que van y vienen.

Requerimientos y filosofía de uso

El indexador está planteado como una etapa relativamente eficiente, aunque leer discos completos y conservar los índices puede requerir bastante espacio. El buscador de duplicados trabaja con todos los índices a la vez y compara directorios entre sí, de modo que su demanda de memoria crece con el tamaño del proyecto.

La filosofía de Poda es deliberadamente conservadora: no borra archivos. Lee, indexa, procesa y genera reportes. La decisión de eliminar o reorganizar datos queda en manos del usuario, después de interpretar patrones y validar los hallazgos. En ese sentido, Poda está concebido más como una herramienta para entender el almacenamiento que como una utilidad de limpieza automática.