follow next links to crawl all data
[ILL-Zotero-RT] / zotero.pl
1 #!/usr/bin/perl
2 use warnings;
3 use strict;
4
5 use LWP::Simple;
6 use XML::Simple;
7 use JSON;
8 use Data::Dump qw(dump);
9 use RT::Client::REST;
10
11 use CouchDB;
12 use Digest::MD5 qw(md5_hex);
13
14 my $UserID = $ENV{UserID} || die "usage: UserID=1234 key=abcd $0";
15 my $key    = $ENV{key}    || die "key required";
16
17 my $FETCH  = $ENV{FETCH}  || 0;
18
19 my $db = CouchDB->new('10.60.0.95', 5984);
20 eval { $db->put("z_$UserID") }; # create user database
21
22 my $url = "https://api.zotero.org/users/$UserID/items?format=atom&content=json&order=dateModified&sort=desc";
23
24 my $tree;
25 my $ticket_items;
26 my $items;
27
28 restart:
29
30 $url .= '&key=' . $key;
31
32 my $file = $UserID . '.' . md5_hex($url) . '.atom';
33 $FETCH = 1 if ! -e $file;
34
35 warn "# $url -> $file\n";
36 if ( $FETCH && mirror( $url => $file ) == RC_NOT_MODIFIED ) {
37         warn "not modified";
38 #       exit 0;
39 }
40
41 my $feed = XMLin( $file );
42 #warn "# feed ",dump($feed);
43
44 foreach my $entry ( keys %{ $feed->{entry} } ) {
45         warn "# entry $entry ",dump($entry);
46         my $id = $entry;
47         $id =~ s{.+/items/}{}; # leave just ID
48
49         my $item = $feed->{entry}->{$entry};
50         warn "# entry $entry ",dump($item);
51
52         foreach my $i ( 0 .. $#{ $item->{link} } ) {
53                 my $link = $item->{link}->[$i];
54                 warn "# link $id $i:",dump($link);
55
56                 my $key = $link->{href};
57                 $key =~ s{.+/items/}{};
58                 $key =~ s{\?.+}{};
59                 $item->{link}->[$i]->{key} = $key;
60
61                 if ( $link->{rel} eq 'up' ) {
62                         push @{ $tree->{$key} }, $id;
63                 }
64         }
65
66         $item->{zapi_etag} = $item->{content}->{'zapi:etag'};
67
68         if ( $item->{content}->{'zapi:type'} eq 'json' ) {
69                 my $json = $item->{content}->{content};
70                 warn "# $json\n";
71                 $json = $item->{content} = decode_json $json;
72                 warn "# json $id ", dump $json;
73
74                 foreach my $tag ( @{ $json->{tags} } ) {
75                         $tag = $tag->{tag};
76                         warn "# tag $id $tag\n";
77                         next unless $tag =~ m/#(\d+)/;
78                         push @{ $ticket_items->{$1} }, $id;
79                 }
80         }
81
82         $items->{$id} = $item;
83
84         my $json_md5 = md5_hex encode_json $item;
85         $item->{json_md5} = $json_md5;
86
87         if ( my $old_item = eval { $db->get( "z_$UserID/$id" ) } ) {
88                 warn "# old_item ",dump($old_item);
89
90                 if ( $old_item->{zapi_etag} ne $item->{zapi_etag} || $json_md5 ne $old_item->{json_md5} ) {
91                         $item->{_rev} = $old_item->{_rev};
92                         $db->put( "z_$UserID/$id" => $item );
93                 } else {
94                         warn "# unchanged";
95                 }
96         } else {
97                 $db->put( "z_$UserID/$id" => $item );
98         }
99 }
100
101 delete $feed->{entry};
102 warn "# feed without entry ",dump( $feed );
103
104 if ( my @next = map { $_->{href} } grep { $_->{rel} eq 'next' && $_->{type} eq 'application/atom+xml' } @{ $feed->{link} } ) {
105         warn "## next ",dump(@next);
106         $url = $next[0];
107         goto restart;
108 }
109
110 warn "# tree ",dump( $tree );
111
112 warn "# ticket_items ",dump( $ticket_items );
113
114
115 my $rt = RT::Client::REST->new(
116         server => 'http://rt.rot13.org/rt',
117         timeout => 30,
118 );
119
120 $rt->login(username => $ENV{RT_USER}, password => $ENV{RT_PASSWORD});
121
122 foreach my $nr ( keys %$ticket_items ) {
123
124         my $ticket = $rt->show(type => 'ticket', id => $nr);
125         warn "# ticket $nr ",dump($ticket);
126
127         if ( $ticket->{Queue} !~ m/ILL/i ) {
128                 warn "SKIP $ticket not in ILL queue!";
129                 next;
130         }
131
132         foreach my $id ( @{ $ticket_items->{$nr} } ) {
133                 warn "# item $id ",dump( $items->{$id} );
134
135 #               $rt->comment( ticket_id => $nr, message => dump( $items->{$id} ) );
136
137                 last; # FIXME just first
138
139         }
140
141 }