added MIN_TAR_SIZE cludge as variable
[BackupPC.git] / bin / BackupPC_incPartsUpdate
index 272dd83..cc37b07 100755 (executable)
@@ -6,12 +6,19 @@ use lib "__INSTALLDIR__/lib";
 use DBI;
 use BackupPC::Lib;
 use BackupPC::View;
+use BackupPC::Attrib qw/:all/;
 use Data::Dumper;
 use Time::HiRes qw/time/;
 use POSIX qw/strftime/;
 use BackupPC::SearchLib;
 use Cwd qw/abs_path/;
 use File::Which;
+use Archive::Tar::Streamed;
+use Algorithm::Diff;
+use Getopt::Std;
+
+# cludge: minimum .tar.gz size
+my $MIN_TAR_SIZE = 80;
 
 my $path = abs_path($0);
 $path =~ s#/[^/]+$#/#;
@@ -24,8 +31,12 @@ foreach my $c (qw/gzip split/) {
        $bin->{$c} = which($c) || die "$0 needs $c, install it\n";
 }
 
+my %opt;
+getopts("cd", \%opt );
+
+my $debug = $opt{d};
+my $check = $opt{c} && print STDERR "NOTICE: tar archive check forced\n";
 
-my $debug = 0;
 $|=1;
 
 my $start_t = time();
@@ -62,6 +73,88 @@ sub curr_time {
        return strftime($t_fmt,localtime());
 }
 
+sub tar_join($) {
+       my $filename = shift;
+
+       my $in = my $out = $filename;
+       $out .= '.tmp';
+
+       # FIXME I should really order parts manually!
+       system("cat $in/part* > $out && rm -Rf $in && mv $out $in") == 0 or die "can't join $in: $?";
+
+}
+
+sub tar_check($$$$) {
+       my ($host,$share,$num,$filename) = @_;
+
+       if ($debug) {
+               print STDERR " {{ CHECK: ${host}:${share}#${num} and $filename";
+       } else {
+               print " check";
+       }
+
+       if (-d $filename) {
+               print STDERR ", joining";
+               tar_join($filename);
+       }
+
+       print STDERR ", opening" if ($debug);
+       open(my $fh, "gzip -cd $filename |") or die "can't open $filename: $!";
+       binmode($fh);
+       my $tar = Archive::Tar::Streamed->new($fh);
+
+       print STDERR ", tar" if ($debug);
+       my @tar_files;
+       while(my $entry = $tar->next) {
+               push @tar_files, $entry->name;
+       }
+       @tar_files = sort @tar_files;
+       print STDERR " ",($#tar_files + 1), " files" if ($debug);
+
+       print STDERR ", database" if ($debug);
+
+       my $sth = $dbh->prepare(qq{
+               SELECT path,type
+               FROM files
+               JOIN shares on shares.id = shareid
+               JOIN hosts on hosts.id = shares.hostid
+               WHERE hosts.name = ? and shares.name = ? and backupnum = ?
+       });
+       $sth->execute($host, $share, $num);
+       my @db_files;
+       while( my $row = $sth->fetchrow_hashref ) {
+
+               my $path = $row->{'path'} || die "no path?";
+               $path =~ s#^/#./#;
+               $path .= '/' if ($row->{'type'} == BPC_FTYPE_DIR);
+               push @db_files, $path;
+       }
+
+       print STDERR " ",($#db_files + 1), " files, diff" if ($debug);
+
+       @db_files = sort @db_files;
+
+       my $same = 1;
+       if ($#tar_files != $#db_files) {
+               $same = 0;
+               print STDERR " NUMBER" if ($debug);
+       } else {
+               my $diff = Algorithm::Diff->new(\@tar_files, \@db_files);
+               while ( $diff->Next() ) {
+                       next if $diff->Same();
+                       $same = 0;
+                       print "< $_\n" for $diff->Items(1);
+                       print "> $_\n" for $diff->Items(2);
+               }
+       }
+
+       print " ",($same ? 'ok' : 'DIFFERENT');
+       print STDERR " }} " if ($debug);
+
+       return $same;
+}
+
+
 #----- main
 
 my $sth = $dbh->prepare( qq{
@@ -82,34 +175,42 @@ order by backups.date
 
 } );
 
-$sth->execute();
-
 my $sth_inc_size = $dbh->prepare(qq{ update backups set inc_size = ?, parts = ? where id = ? });
 my $sth_inc_deleted = $dbh->prepare(qq{ update backups set inc_deleted = ? where id = ? });
 
 %BackupPC::SearchLib::Conf = %Conf;
 
+$sth->execute();
+my $num_backups = $sth->rows;
+my $curr_backup = 1;
+
 while (my $row = $sth->fetchrow_hashref) {
        my $tar_file = BackupPC::SearchLib::getGzipName($row->{'host'}, $row->{'share'}, $row->{'num'});
 
        # this will return -1 if file doesn't exist
        my $size = BackupPC::SearchLib::get_tgz_size_by_name($tar_file);
 
-       print curr_time, " ", $row->{'host'}, ":", $row->{'share'}, " #", $row->{'num'}, " -> $tar_file";
+       print curr_time, " $curr_backup/$num_backups ", $row->{'host'}, ":", $row->{'share'}, " #", $row->{'num'}, " -> $tar_file";
+       $curr_backup++;
 
        my $t = time();
 
        # re-create archive?
-       if ($row->{'inc_size'} == -1 || $size == -1 || $row->{'inc_size'} != $size) {
-               my $cmd = qq{rm -Rf $tar_dir/$tar_file && $tarIncCreate -h "$row->{'host'}" -s "$row->{'share'}" -n $row->{'num'} | $bin->{'gzip'} -9 > $tar_dir/$tar_file};
+       if ($row->{'inc_size'} == -1 || $size == -1 ||
+               $row->{'inc_size'} != $size ||
+               $check && ! tar_check($row->{'host'}, $row->{'share'}, $row->{'num'}, "$tar_dir/$tar_file")
+       ) {
+               my $cmd = qq{rm -Rf $tar_dir/$tar_file && $tarIncCreate -h "$row->{'host'}" -s "$row->{'share'}" -n $row->{'num'} | $bin->{'gzip'} $Conf{GzipLevel} > ${tar_dir}/${tar_file}.tmp};
                print STDERR "## $cmd\n" if ($debug);
 
                system($cmd) == 0 or die "failed: $?";
-       
+
+               rename("${tar_dir}/${tar_file}.tmp", "$tar_dir/$tar_file") or die "can't rename $tar_dir/$tar_file: $!";
+
                $size = (stat( "$tar_dir/$tar_file" ))[7];
        }
 
-       if ($size > 45) {
+       if ($size > $MIN_TAR_SIZE) {
 
                my $max_size = $Conf{'MaxArchiveSize'} || die "problem with MaxArchieSize parametar";
                $max_size *= 1024;      # convert to bytes
@@ -118,12 +219,7 @@ while (my $row = $sth->fetchrow_hashref) {
 
                if (-d "$tar_dir/$tar_file" && $parts != $row->{'parts'}) {
                        print " join";
-
-                       my $in = my $out = "$tar_dir/$tar_file";
-                       $out .= '.tmp';
-
-                       # FIXME I should really order parts manually!
-                       system("cat $in/part* > $out && rm -Rf $in && mv $out $in") == 0 or die "can't join $in: $?";
+                       tar_join("$tar_dir/$tar_file");
                }
 
                if ($size > $max_size && ! -d "$tar_dir/$tar_file") {