make indexer and searcher lazy
[BackupPC.git] / lib / BackupPC / Search / KinoSearch.pm
1 package BackupPC::Search::KinoSearch;
2 use warnings;
3 use strict;
4
5 use KinoSearch::Index::Indexer;
6 use KinoSearch::Plan::Schema;
7 use KinoSearch::Analysis::PolyAnalyzer;
8 use KinoSearch::Plan::FullTextType;
9 use KinoSearch::Search::IndexSearcher;
10 use Data::Dump qw(dump);
11
12 # my $tokenizer = KinoSearch::Analysis::Tokenizer->new( pattern => '\\w' );
13
14 sub new {
15         my $class = shift @_;
16         my %Conf = @_;
17
18         my $index_path = $Conf{KinoPath} || die "no KinoPath";
19
20         my $self = bless { index => $index_path }, $class;
21         warn "# ",dump($self);
22         return $self;
23 }
24
25 sub indexer {
26         my $self = shift;
27         return $self->{_indexer} if defined $self->{_indexer};
28
29         my $schema = KinoSearch::Plan::Schema->new;
30
31
32         my $case_folder  = KinoSearch::Analysis::CaseFolder->new;
33         my $tokenizer    = KinoSearch::Analysis::Tokenizer->new;
34         my $polyanalyzer = KinoSearch::Analysis::PolyAnalyzer->new(
35                 analyzers => [ $case_folder, $tokenizer ], 
36         );
37
38         my $ft_type = KinoSearch::Plan::FullTextType->new(
39             analyzer => $polyanalyzer,
40         );
41         my $blob_type = KinoSearch::Plan::BlobType->new( stored => 1 );
42         my $string_type = KinoSearch::Plan::StringType->new; # non-tokenized
43         my $num_type = KinoSearch::Plan::Int64Type->new;
44
45         $schema->spec_field( name => $_, type => $string_type ) foreach ( qw/
46                 backup_date
47                 backupnum
48                 date
49                 fid
50                 shareid
51                 size
52                 type
53         / );
54
55         $schema->spec_field( name => $_, type => $string_type ) foreach ( qw/
56                 _uri _file_path_split filepath hname sname
57         /);
58
59 #       $schema->spec_field( name => '_doc', type => $blob_type );
60
61         my $indexer = KinoSearch::Index::Indexer->new(
62                 schema => $schema,
63                 index  => $self->{index},
64                 create => 1,
65         );
66
67         $indexer->commit; # make sure that index exists
68
69         warn "# created indexer";
70
71         return $self->{_indexer} = $indexer;
72
73 };
74
75 our $searcher;
76 sub searcher {
77         my $self = shift;
78         return $self->{_searcher} if $self->{_searcher};
79         $self->{_searcher} =
80         KinoSearch::Search::IndexSearcher->new( index => $self->{index} )
81 }
82
83 sub exists {
84         my ($self,$row) = @_;
85
86         my $uri = $row->{hname} . ':' . $row->{sname} . '#' . $row->{backupnum} . ' ' . $row->{filepath};
87         my $hits = $self->searcher->hits( query => "_uri:$uri" );
88         return $hits->total_hits;
89 }
90
91 sub add_doc {
92         my ($self,$row) = @_;
93
94         $row->{_uri} = $row->{hname} . ':' . $row->{sname} . '#' . $row->{backupnum} . ' ' . $row->{filepath};
95         my $path = $row->{filepath};
96         $path =~ s/(.)/$1 /g; # XXX our tokenize
97         $row->{_file_path_split} = $path;
98
99         warn "XXX ",dump($row) if $ENV{DEBUG};
100
101         $self->indexer->add_doc( $row );
102
103 }
104
105 sub commit {
106         my $self = shift;
107         $self->indexer->commit;
108         warn "# commit index";
109 }
110
111 sub search {
112         my ( $self, $offset, $on_page, $sort, $q, $shareid, $backup_from, $backup_to, $files_from, $files_to ) = @_;
113
114         warn "# search $offset/$on_page [$q] shareid: $shareid backup: $backup_from - $backup_to files: $files_from - $files_to";
115
116         my $sort_field = (split(/_/,$sort,2))[0];
117
118         my $rules = [ KinoSearch::Search::SortRule->new( type => 'score' ) ];
119         $rules->[0] = KinoSearch::Search::SortRule->new( field => $sort_field, reverse => $sort =~ m/_a$/ ? 0 : 1 ) if $sort_field;
120
121         my $sort_spec = KinoSearch::Search::SortSpec->new( rules => $rules );
122
123 #       $q =~ s/(.)/$1 /g;
124         my $hits = $self->searcher->hits(
125                 query => $q,
126                 sort_spec => $sort_spec,
127         );
128
129
130         warn "# ", $hits->total_hits, " hits for $q\n";
131
132         return (0,[]) if $hits->total_hits == 0;
133
134         my $results;
135         while ( my $hit = $hits->next ) {
136 warn "XXX ",dump($hit);
137                 push @$results, $hit;
138         }
139
140         return ( $hits->total_hits, $results );
141 }
142
143 1;