fix CROASCII (B1.002:1982) filter
[webpac] / index_DBI_cache.pm
1 #
2 # this file implements index functions using DBI
3 # and huge amounts of memory for cache speedup
4 #
5 # this version doesn't support ident (which sould be location in
6 # library). But, that functionality is not used anyway...
7 #
8
9 package index_DBI;
10 use strict qw(vars);
11 use vars qw($Count);
12 use HTML::Entities;
13 use URI::Escape;
14 use locale;
15
16 use DBI;
17
18 my %Table;      # index tables which where visited in this run
19 my %sth_cache;  # cache prepared statements
20
21 # cache var
22 my $c_table;
23 my $c_count;
24
25 # bench time
26 my $bench_time = time();
27
28 sub bench {
29         my $self = shift;
30         my $msg = shift;
31
32         print STDERR "last operation took ",time()-$bench_time," seconds...\n";
33         $bench_time=time();
34         print STDERR "$msg\n";
35 }
36
37 sub new {
38         my $class = shift;
39         my $self = {};
40         bless($self, $class);
41
42         my $dbd = shift || die "need dbi_dbd= in [global] section of configuration file";
43         my $dsn = shift || die "need dbi_dsn= in [global] section of configuration file";
44         my $user = shift || die "need dbi_user= in [global] section of configuration file";
45         my $passwd = shift || die "need dbi_passwd= in [global] section of configuration file";
46
47         $self->{dbd} = $dbd;
48
49         $self->{dbh} = DBI->connect("DBI:$dbd:$dsn",$user,$passwd) || die $DBI::errstr;
50         $Count++;
51
52         $self->bench("connected to $dbd as $user");
53
54         # force SQLite to support binary 0 in data (which shouldn't
55         # happend, but it did to me)
56         eval {
57                 no warnings 'all';
58                 $self->{dbh}->{sqlite_handle_binary_nulls} = 1;
59         };
60
61         return $self;
62 }
63
64 sub delete_and_create {
65         my $self = shift;
66
67         my $field = shift;
68
69 #print "#### delete_and_create($field)\n";
70
71         my $sql = "select count(*) from $field";
72         my $sth = $self->{dbh}->prepare($sql) || die $self->{dbh}->errstr();
73 # FIX: this is not a good way to check if table exists!
74         if ($sth->execute() && $sth->fetchrow_hashref) {
75                 my $sql = "drop table $field";
76                 my $sth = $self->{dbh}->do($sql) || warn "SQL: $sql - ".$sth->errstr();
77         }
78         $sql = "create table $field (
79                         item varchar(255),
80                         display text,
81                         count int,
82                         ord int,
83                         primary key (item)
84                 )";
85
86         $sth = $self->{dbh}->do($sql) || warn "SQL: $sql ".$self->{dbh}->errstr();
87 }
88
89 sub insert {
90         my $self = shift;
91
92         my $field = shift;
93         my $index_data = shift || print STDERR "\$index->insert($field,NULL,...)";
94         my $display = shift || $index_data;
95
96         if (! $index_data) {
97                 print STDERR "\$index->insert() -- no value to insert\n";
98                 return;
99         }
100
101         $Table{$field}++;
102
103         #$sth_cache{$field."select"}->execute($index_data) || die "cache: $field select; ".$self->{dbh}->errstr();
104
105         # XXX for some strange reason, it seems that some entries in my
106         # database produce strings which start with null byte. I suspect
107         # this to be bug in OpenIsis 0.9.0.
108         # This should fix it..
109         $index_data =~ s/^[^\w]+//;
110         $index_data = substr($index_data,0,255);
111
112         my $uc = uc($index_data);
113         if (! $c_table->{$field}->{$uc}) {
114 #print stderr "in index: $index_data\n";
115                 $c_table->{$field}->{$uc} = $index_data;
116                 $c_table->{$field}->{$uc}->{display} = $display;
117                 $c_count->{$field}->{$uc} = 1;
118         } else {
119                 $c_count->{$field}->{$uc}++;
120         }
121 }
122
123 sub count {
124         my $self = shift;
125
126         my $field = shift;
127         my $where = shift;
128
129         my $sql = "select count(*) from $field where upper(item) like upper(?)||'%'";
130
131         my $sth = $self->{dbh}->prepare($sql) || die $self->{dbh}->errstr();
132         $sth->execute($where) || die "sql: $sql; ".$self->{dbh}->errstr();
133
134         my ($total) = $sth->fetchrow_array();
135
136         # no results, count all
137         if (! $total) {
138                 my $sql = "select count(*) from $field";
139
140                 my $sth = $self->{dbh}->prepare($sql) || die $self->{dbh}->errstr();
141                 $sth->execute() || die "sql: $sql; ".$self->{dbh}->errstr();
142                 $total = $sth->fetchrow_array();
143
144         }
145
146         return $total || 1;
147 }
148
149
150 sub fetch {
151         my $self = shift;
152
153         my $field = shift;
154         my $where = shift;
155
156         my $from_ord = shift || 0;
157         my $rows = shift || 10;
158
159         my @sql_args;
160
161         my $sql = "select item,display,ord from $field";
162
163         if ($where) {
164                 my $sql2 = "select ord from $field where upper(item) like upper(?)||'%'";
165                 my $sth = $self->{dbh}->prepare($sql2) || die "sql2: $sql2; ".$self->{dbh}->errstr();
166
167                 $sth->execute($where) || die "sql2: $sql2; ".$self->{dbh}->errstr();
168                 if (my $row = $sth->fetchrow_hashref) {
169                         $from_ord += $row->{ord} - 1;
170                 } else {
171                         # if no match is found when searching from beginning
172                         # of word in index, try substring match anywhere
173                         $sql2 = "select ord from $field where upper(item) like '% '||upper(?)||'%'";
174                         $sth = $self->{dbh}->prepare($sql2) || die "sql2: $sql2; ".$self->{dbh}->errstr();
175                         $sth->execute($where) || die "sql2: $sql2; ".$self->{dbh}->errstr();
176                         if (my $row = $sth->fetchrow_hashref) {
177                                 $from_ord += $row->{ord} - 1;
178                         }
179                 }
180         }
181         $sql .= " order by ord limit $rows offset $from_ord";
182
183         my $sth = $self->{dbh}->prepare($sql) || die "prepare: $sql; ".$self->{dbh}->errstr();
184         $sth->execute() || die "execute: $sql; ".$self->{dbh}->errstr();
185         my @arr;
186         while (my $row = $sth->fetchrow_hashref) {
187                 $row->{item} = HTML::Entities::encode($row->{item},' <>&"');
188                 $row->{display} = HTML::Entities::encode($row->{display},'<>&"');
189                 push @arr,$row;
190         }
191         return @arr;
192 }
193
194 sub close {
195         my $self = shift;
196
197         return if (! $self->{dbh});
198
199         foreach my $table (keys %Table) {
200                 $self->bench("Crating table $table");
201                 $self->delete_and_create($table);
202
203                 $self->{dbh}->begin_work || die $self->{dbh}->errstr();
204
205                 $self->bench("Sorting ".$Table{$table}." (with duplicates) items in $table");
206                 my @keys = sort keys %{$c_table->{$table}};
207
208                 $self->bench("Dumping ".($#keys+1)." items into $table");
209                 my $sql = "insert into $table (ord,item,display,count) values (?,?,?,?)";
210                 my $sth = $self->{dbh}->prepare($sql) || die "sql: $sql; ".$self->{dbh}->errstr();
211
212                 my $ord = 0;
213                 foreach my $key (@keys) {
214                         $sth->execute(++$ord,
215                                 $c_table->{$table}->{$key},
216                                 $c_table->{$table}->{$key}->{display},
217                                 $c_count->{$table}->{$key}
218                         );
219                 }
220
221                 $self->{dbh}->commit || die $self->{dbh}->errstr();
222         }
223
224         if ($self->{dbd} =~ m/(Pg|SQLite)/) {
225                 $self->{dbh}->do(qq{vacuum}) || warn "vacumming failed. It shouldn't if you are using PostgreSQL or SQLite: ".$self->{dbh}->errstr();
226         }
227
228         $self->bench("disconnecting from database");
229
230         $self->{dbh}->disconnect;
231         undef $self->{dbh};
232 }
233
234 END {
235         $Count--;
236         print STDERR "index_DBI fatal error: \$index->close() not called... $Count references left!\n" if ($Count > 0);
237         # FIX: debug output
238 #       print STDERR "usage\ttable\n";
239 #       foreach (keys %Table) {
240 #               print STDERR $Table{$_},"\t$_\n";
241 #       }
242 }
243
244 1;