strip traling slash for dirs in _export_path
[MojoFacets.git] / lib / MojoFacets / Data.pm
index 11a6f24..3af006c 100644 (file)
@@ -13,9 +13,11 @@ use File::Find;
 use Storable;
 use Time::HiRes qw(time);
 use File::Path qw(mkpath);
+use Text::Unaccent::PurePerl;
 
 use MojoFacets::Import::File;
 use MojoFacets::Import::HTMLTable;
+use MojoFacets::Import::CSV;
 
 our $loaded;
 our $filters;
@@ -38,13 +40,16 @@ sub index {
                } elsif ( -d $file && $file =~ m/\.html$/ ) {
                        $file =~ s/$data_dir\/*//;
                        push @files, $file;
+               } elsif ( -f $file && $file =~ m/\.csv$/i ) {
+                       $file =~ s/$data_dir\/*//;
+                       push @files, $file;
                } else {
                        #warn "IGNORE: $file\n";
                }
        }, $data_dir);
 
-       @files = sort { lc $a cmp lc $b } @files;
-       unshift @files, grep { defined $loaded->{$_}->{generated} } keys %$loaded;
+       @files = sort { $loaded->{$b}->{mtime} <=> $loaded->{$a}->{mtime} || lc $a cmp lc $b } @files,
+                       grep { defined $loaded->{$_}->{generated} } keys %$loaded;
        my $size;
        $size->{$_} = -s "$data_dir/$_" foreach @files;
 
@@ -161,7 +166,7 @@ sub _load_path {
        return if defined $loaded->{$path}->{'generated'};
 
        my $full_path = $self->app->home->rel_file( 'data/' . $path );
-       die "$full_path $!" unless -r $full_path;
+       $self->redirect_to('/data/index') unless -r $full_path;
 
        my $dump_path = $self->_dump_path( $path );
 
@@ -178,7 +183,11 @@ sub _load_path {
 
        my $data;
        if ( -f $full_path ) {
-               $data = MojoFacets::Import::File->new( full_path => $full_path, path => $path )->data;
+               if ( $full_path =~ m/.csv/i ) {
+                       $data = MojoFacets::Import::CSV->new( full_path => $full_path )->data;
+               } else {
+                       $data = MojoFacets::Import::File->new( full_path => $full_path, path => $path )->data;
+               }
        } elsif ( -d $full_path && $full_path =~ m/.html/ ) {
                $data = MojoFacets::Import::HTMLTable->new( dir => $full_path )->data;
        } else {
@@ -244,7 +253,7 @@ sub load {
        if ( ! defined $loaded->{$path}->{columns} ) {
                my $columns_path = $self->_permanent_path( 'columns' );
                if ( -e $columns_path ) {
-                       my @columns = map { s/[\r\n]+$//; $_ } read_file $columns_path;
+                       my @columns = map { s/[\r\n]+$//; $_ } read_file $columns_path, binmode => ':utf8';
                        $loaded->{$path}->{columns} = [ @columns ];
                        warn "# columns_path $columns_path ",dump(@columns);
                } else {
@@ -308,6 +317,22 @@ sub _permanent_path {
        $self->app->home->rel_dir('data') . '/' . join('.', $path, @_);
 }
 
+sub __unac {
+       my $n = shift;
+       $n = unac_string($n);
+       $n =~ s/\W+/_/g;
+       return $n;
+}
+
+sub _column_from_unac {
+       my ($self,$name) = @_;
+
+       my $stats = $self->_loaded('stats');
+       my $cols_norm = { map { __unac( $_ ) => $_ } keys %$stats };
+
+       $cols_norm->{$name} || die "can't find column $name in ", dump($cols_norm);
+}
+
 sub _export_path {
        my $self = shift;
        my $path = $self->_param_or_session('path');
@@ -317,7 +342,10 @@ sub _export_path {
        }
        my $dir = $self->app->home->rel_dir('public') . "/export/$path";
        mkpath $dir unless -e $dir;
-       $dir . '/' . join('.', @_);
+       my $name = join('.', map { __unac($_) } @_ );
+       my $full = $dir . '/' . $name;
+       $full =~ s/\/+$// if -d $full; # strip trailing slash for dirs
+       return $full;
 }
 
 sub columns {
@@ -325,7 +353,7 @@ sub columns {
 
        if ( $self->param('columns') ) {
                my @columns = $self->_param_array('columns');
-               write_file( $self->_permanent_path( 'columns' ), map { "$_\n" } @columns );
+               write_file( $self->_permanent_path( 'columns' ), { binmode => ':utf8' }, map { "$_\n" } @columns );
                $self->redirect_to('/data/items');
        }
 
@@ -398,7 +426,7 @@ sub filter {
                $self->_filter_on_data( $name, @vals );
                if ( my $permanent = $self->param('_permanent') ) {
                        my $permanent_path = $self->_export_path( 'filter', $name, $permanent );
-                       write_file $permanent_path, map { "$_\n" } @vals;
+                       write_file $permanent_path, { binmode => ':utf8' }, map { "$_\n" } @vals;
                        warn "permanent filter $permanent_path ", -s $permanent_path;
                }
        }
@@ -456,15 +484,12 @@ sub _filter_on_data {
 sub _current_filters {
        my $self = shift;
        my $current_filters;
-       my $columns = $self->_loaded('header');
-       if ( my $sc = $self->session('columns') ) {
-               $columns = $sc;
-       }
+       my $stats = $self->_loaded('stats');
 
        $current_filters->{ $_ } = $filters->{ $_ }
-               foreach ( grep { defined $filters->{ $_ } } @$columns )
+               foreach ( grep { defined $filters->{ $_ } } keys %$stats )
        ;
-       warn "# _current_filters ",dump($columns);
+       warn "# _current_filters ",dump( keys %$current_filters );
        return $current_filters;
 }
 
@@ -493,8 +518,16 @@ sub _data_sorted_by {
                        $a->[1] cmp $b->[1]
                }
        } map {
-               [ $nr++, exists $_->{$order} ? join('', @{$_->{$order}}) : $missing ]
-       } grep { ref $_->{$order} eq 'ARRAY' } @{ $data->{items} }
+               my $v;
+               if ( ! exists $_->{$order} ) {
+                       $v = $missing;
+               } elsif ( ref $_->{$order} eq 'ARRAY' ) {
+                       $v = join('', @{$_->{$order}});
+               } else {
+                       $v = $_->{$order};
+               }
+               [ $nr++, $v ]
+       } @{ $data->{items} }
        ;
 
        warn "sorted: $order numeric: $numeric items: ", $#sorted + 1, "\n";
@@ -504,6 +537,11 @@ sub _data_sorted_by {
 }
 
 
+sub __all_filters {
+       my $order = pop @_;
+       join(',', sort(@_), 'order', $order);
+}
+
 sub items {
        my $self = shift;
 
@@ -547,7 +585,7 @@ sub items {
                }
        }
 
-       my $all_filters = join(' ',sort @filter_names,'order:',$order);
+       my $all_filters = __all_filters( @filter_names,$order );
 
 #      warn "# all_filters $all_filters ", dump( $loaded->{$path}->{filtered}->{$all_filters} );
 
@@ -555,7 +593,7 @@ sub items {
 
                my $path_filters = $loaded->{$path}->{filters};
 
-               warn "create combined filter for $all_filters\n";
+               warn "create combined filter for $all_filters from ", $#$sorted + 1, " items\n";
 
                my @filtered;
                foreach my $i ( 0 .. $#$sorted ) {
@@ -591,34 +629,34 @@ sub items {
        my $commit = $self->param('commit');
        my $test = $self->param('test');
 
-       my $cols_changed;
+       my $commit_changed;
 
        if ( $code && ( $test || $commit ) ) {
                # XXX find columns used in code snippet and show them to user
-               foreach my $column ( $code =~ m/\$row->{(.+?)}/g ) {
+               my $order = 0;
+               foreach my $column ( $code =~ m/\$row->{([^}]+)}/g ) {
                        if ( $column =~ s/^(['"])// ) {
                                $column =~ s/$1$//;
                        }
-                       $cols_changed->{$column}++;
-                       next if grep { /$column/ } @columns;
-                       $cols_changed->{$column}++;
-                       unshift @columns, $column;
-                       if ( $commit ) {
-                               $self->session('columns', [ @columns ]);
-                               $loaded->{$path}->{columns} = [ @columns ];
-                               __path_modified( $path, 2 );
-                       }
+                       next if $column =~ m/\$/; # hide columns with vars in them
+                       $commit_changed->{$column} = 0;
                }
        }
 
        my $code_path = $self->app->home->rel_dir('public') . "/code";
        if ( $commit ) {
+
                warn "# commit on ", $#$filtered + 1, " items:\n$code\n";
                my $out;
                foreach ( 0 .. $#$filtered ) {
                        my $i = $filtered->[$_];
                        my $row = $data->{items}->[$i];
+                       my $update;
                        eval $code;
+                       foreach ( keys %$update ) {
+                               $commit_changed->{$_}++;
+                               $row->{$_} = $update->{$_};
+                       }
                }
                if ( my $description = $self->param('code_description') ) {
                        my $depends = $self->param('code_depends') || die "no code_depends?";
@@ -626,7 +664,7 @@ sub items {
                        if ( -e $path && ! $self->param('overwrite') ) {
                                warn "# code $path not saved\n";
                        } else {
-                               write_file $path, $code;
+                               write_file(  $path, { binmode => ':utf8' }, $code );
                                warn "code $path ", -s $path, " bytes saved\n";
                        }
                }
@@ -635,6 +673,7 @@ sub items {
                        my $commit_dataset = join('.'
                                , $self->param('code_depends')
                                , $self->param('code_description')
+                               , time()
                        );
                        my $key = $self->param('code_depends');
                        $key =~ s/,.+$//;
@@ -642,7 +681,16 @@ sub items {
                        my $items;
                        foreach my $n ( keys %$out ) {
                                my $i = { $key => [ $n ] };
-                               $i->{$_} = [ $out->{$n}->{$_} ] foreach keys %{ $out->{$n} };
+                               my $ref = ref $out->{$n};
+                               if ( $ref eq 'HASH' ) {
+                                       $i->{$_} = [ $out->{$n}->{$_} ] foreach keys %{ $out->{$n} };
+                               } elsif ( $ref eq 'ARRAY' ) {
+                                       $i->{$_} = $out->{$n};
+                               } elsif ( ! $ref ) {
+                                       $i->{value} = [ $out->{$n} ];
+                               } else {
+                                       $i->{_error} = [ dump($out->{$n}) ];
+                               }
                                push @$items, $i;
                        };
                        undef $out;
@@ -663,42 +711,88 @@ sub items {
                        $self->session('columns', [ @columns ]);
                        $self->session('order', $key);
                        $self->redirect_to('/data/items');
+                       return; # FIXME needed to correctly show columns
                }
+
+               # this might move before $out to recalculate stats on source dataset?
+               __path_modified( $path, 2 );
+               my $c = { map { $_ => 1 } @columns };
+               my @added_columns = sort grep { ! $c->{$_} } keys %$commit_changed;
+               warn "# added_columns ",dump( @added_columns );
+               unshift @columns, @added_columns;
+
+               $self->session('columns', [ @columns ]);
+               $loaded->{$path}->{columns} = [ @columns ];
+               warn "# new columns ",dump( @columns );
+
+               __invalidate_path_column( $path, $_ ) foreach keys %$commit_changed;
        }
 
        my $sorted_items;
        my $from_end = $sort eq 'd' ? $#$filtered : 0;
+       my $test_changed;
        my $out;
        foreach ( 0 .. $limit ) {
                my $i = $_ + $offset;
                last unless defined $filtered->[$i];
                $i = $from_end - $i if $from_end;
                my $id = $filtered->[$i];
-               my $row = $data->{items}->[ $id ];
+               my $row = Storable::dclone $data->{items}->[ $id ];
                if ( $code && $test ) {
-                       $row = Storable::dclone $row;
+                       my $update;
                        eval $code;
                        if ( $@ ) {
                                warn "ERROR evaling\n$code\n$@";
                                $self->stash('eval_error', $@) if $@;
                        } else {
-                               warn "EVAL ",dump($row);
+                               warn "EVAL ",dump($update);
+                               foreach ( keys %$update ) {
+                                       $test_changed->{$_}++;
+                                       $row->{$_} = $update->{$_};
+                               }
                        }
                }
                $row->{_row_id} ||= $id;
                push @$sorted_items, $row;
        }
 
+       if ( $self->param('export') ) {
+               my $export_path = $self->_export_path( 'items', @columns);
+               open(my $fh, '>', $export_path) || warn "ERROR: can't open $export_path: $!";
+               foreach my $f ( 0 .. $#$filtered ) {
+                       print $fh join("\t", map {
+                               my $i = $data->{items}->[ $filtered->[$f] ];
+                               my $v = '\N';
+                               if ( ! defined $i->{$_} ) {
+                                       # nop
+                               } elsif ( ref $i->{$_} eq 'ARRAY' ) {
+                                       $v =join(',', @{ $i->{$_} });
+                                       $v = '\N' if length($v) == 0;
+                               } else {
+                                       $v = dump $i->{$_};
+                               }
+                               $v;
+                       } @columns),"\n";
+               }
+               close($fh);
+               warn "export $export_path ", -s $export_path, " bytes\n";
+       }
+
+       warn "# test_changed ",dump( $test_changed );
+       my $c = { map { $_ => 1 } @columns };
+       my @added_columns = sort grep { ! $c->{$_} } keys %$test_changed;
+       unshift @columns, @added_columns;
+
        warn "# sorted_items ", $#$sorted_items + 1, " offset $offset limit $limit order $sort";
 
        my $code_depends = $self->param('code_depends')||
-       join(',', grep { defined $cols_changed->{$_} && $cols_changed->{$_} == 1 } @columns );
+       join(',', sort grep { $test_changed->{$_} == 0 } keys %$test_changed );
        my $code_description = $self->param('code_description') ||
-       join(',', grep { defined $cols_changed->{$_} && $cols_changed->{$_} == 2 } @columns );
+       join(',', @added_columns);
 
        $code_depends ||= $code_description; # self-modifing
 
-       warn "# cols_changed ",dump( $cols_changed, $code_depends, $code_description );
+       warn "# test_changed ",dump( $test_changed, $code_depends, $code_description );
 
        $self->render(
                order => $order,
@@ -708,9 +802,10 @@ sub items {
                columns => [ @columns ],
                rows => $#$filtered + 1,
                numeric => { map { $_, $self->_is_numeric($_) } @columns },
+               unique  => { map { $_, $self->_is_unique( $_) } @columns },
                filters => $self->_current_filters,
                code => $code,
-               cols_changed => $cols_changed,
+               cols_changed => $commit ? $commit_changed : $test_changed,
                code_depends => $code_depends,
                code_description => $code_description,
                code_path => $code_path,
@@ -739,6 +834,12 @@ sub _is_numeric {
                $stats->{$name}->{numeric} > $count / 2;
 }
 
+sub _is_unique {
+       my ( $self, $name ) = @_;
+       my $stats = $self->_loaded( 'stats' );
+       defined $stats->{$name}->{unique};
+}
+
 sub _remove_filter {
        my ($self,$name) = @_;
        warn "_remove_filter $name\n";
@@ -775,7 +876,7 @@ sub facet {
        my $data = $self->_loaded('data');
 
        my $filters = $self->_current_filters;
-       my $all_filters = join(' ',sort keys %$filters,'order:',$self->session('order'));
+       my $all_filters = __all_filters( keys %$filters,$self->session('order') );
        my $filtered = $loaded->{$path}->{filtered}->{$all_filters}
                if defined $loaded->{$path}->{filtered}->{$all_filters};
 
@@ -948,12 +1049,16 @@ sub save {
 sub export {
        my $self = shift;
 
+       my $dir = $self->app->home->rel_dir('public');
+
        if ( my $import = $self->param('import') ) {
 
                if ( $import =~ m{/filter\.(.+?)\..+} ) {
-                       my $name = $1;
+                       my $name = $self->_column_from_unac( $1 );
+
                        my @vals = map { chomp; $_ }
-                               read_file $self->app->home->rel_dir('public') . "/export/$import";
+                               read_file "$dir/export/$import", binmode => ':utf8';
+
                        $self->_remove_filter( $name );
                        $self->_filter_on_data( $name, @vals );
                        $self->session( 'offset' => 0 );
@@ -963,9 +1068,19 @@ sub export {
                }
        }
 
-       $self->render( export => [
-               glob( $self->_export_path . '*' )
-       ] );
+       if ( my $remove = $self->param('remove') ) {
+               my $path = "$dir/export/$remove";
+               unlink $path if -e $path;
+               $path .= '.png';
+               unlink $path if -e $path;
+       }
+
+       my $path = $self->_export_path || $self->redirect_to('/data/index');
+
+       my @files = grep { ! /\.png$/ } glob "$path/*";
+       my $mtime = { map { $_ => (stat($_))[9] } @files };
+       @files = sort { $mtime->{$b} <=> $mtime->{$a} } @files;
+       $self->render( export => [ @files ] );
 }
 
 sub __loaded_paths {