r1399@llin: dpavlin | 2007-10-31 11:19:39 +0100
[webpac2] / conf / llin.yml
1 --- #YAML:1.0
2 # DO NOT USE TABS FOR INDENTATION OR label/value SEPARATION!!!
3
4 # encoding of this configuration file
5 config_encoding: 'ISO-8859-2'
6 # encoding in Catalyst.
7 catalyst_encoding: 'UTF-8'
8 # relative path to sites templates under Catalyst root
9 sites_root: 'sites'
10
11 # which indexing engine to use? (hyperestraier is default)
12 # disable indexer
13 use_indexer: ''
14 #use_indexer: 'hyperestraier'
15 #use_indexer: 'hyperestraier-native'
16 #use_indexer: 'kinosearch'
17
18 # configuration for Hyper Estraier full text search engine
19 hyperestraier:
20   #url: 'http://localhost:1978/node/webpac2'
21   masterurl: 'http://localhost:1978'
22   defaultnode: 'webpac2'
23 #  defaultnode: 'ps'
24   defaultdepth: 1
25   user: 'admin'
26   passwd: 'admin'
27   # don't turn this on! it will spit huge amounts of output
28   #debug: 1
29   #
30   # if using hyperestraier-native use following:
31   path: 'casket/'
32   #
33   # number of results on each page
34   hits_on_page: 10
35   # number of results to fetch for suggestion (it will fold multiple sameones)
36   hits_for_suggest: 20
37   #
38   # options used while indexing
39   #
40   # which tag type to use for search engine (used while indexing)
41   type: 'search'
42   #
43
44 # options for pager
45 pager:
46   # how many pages to show for navigation?
47   max_pages: 20
48
49 # configuration for KinoSearch search engine library
50 kinosearch:
51   index_path: './kinosearch/'
52   database: 'unconfigured database name'
53   label: 'unconfigured database label'
54   encoding: 'iso-8859-2'
55   # clean database before opening? (WARNING: this erases existing database)
56   clean: 1
57   # which field type to index?
58   type: 'search'
59
60 webpac:
61   # default template to use
62   template: 'html_ffzg_results_short.tt'
63   # path to database files
64   db_path: '/data/webpac2/db'
65   # path to templates used by WebPAC::Output
66   template_path: '/data/webpac2/conf/output/tt'
67   # default template for results
68   default_template: 'html_ffzg.tt'
69   # default user editable css file
70   default_css: 'user.css'
71   css_path: 'root/css'
72   # encoding comming from webpac
73   webpac_encoding: 'iso-8859-2'
74   # encoding expected by Catalyst
75   out_encoding: 'utf-8'
76   # define different input formats (types) and perl modules to handle them
77   inputs:
78     isis: 'WebPAC::Input::ISIS'
79     marc: 'WebPAC::Input::MARC'
80     excel: 'WebPAC::Input::Excel'
81     gutenberg: 'WebPAC::Input::Gutenberg'
82     dbf: 'WebPAC::Input::DBF'
83   # define delimiters for validation
84   delimiters:
85     - ' ; '
86     - ' : '
87     - ' / '
88     - ' \. '
89
90 editor:
91   # open this record when opening editor
92   # (it will also be used to deduce default database and input)
93   default_record_uri: 'ps/libri/1'
94
95 # directives after this are used when indexing using core WebPAC modules
96
97 databases:
98   # This is empty database created only in Hyper Estraier to merge
99   # all three databases
100   'webpac2':
101     name: 'Search all'
102     links:
103       - to: ps
104         credit: 10000
105       - to: kk
106         credit: 10000
107       - to: jzav
108         credit: 10000
109
110   # site with alternative databases
111   'hr':
112     name: 'Primjer za hrvatsko suèelje'
113     links:
114       - to: ffps
115         credit: 10000
116       - to: ffkk
117         credit: 5000
118       - to: fffo
119         credit: 10000
120
121   # Psihologija
122   'ffps':
123     # all variables here will be available as config variables in template
124     name: 'Knji¾nica psihologije'
125     code: 'ps'
126   
127     # define input source
128     input:
129       # this will create unique name with name of database and mfn
130       - name: libri
131         # isis
132         type: isis
133     
134         # full path to database
135         path: '/data/isis_data/ffps-libri/LIBRI'
136     
137         # encoding of character set in isis data
138         encoding: 'cp852'
139     
140         # limit number of records to read from database
141         #limit: 100
142     
143         # define normalisation for that source
144         normalize:
145           # which tag to use in normalize xml for data?
146           - tag: 'isis'
147             # path to normalization xml
148             path: 'conf/normalize/common.pl'
149             #path: 'conf/normalize/isis_ffzg.yml'
150           # convert input to MARC21
151 #          - tag: 'marc21'
152 #            #
153 #            path: 'conf/normalize/mapping.pl'
154 #            output: 'out/marc/ps-libri.marc'
155   
156       # another input database
157       - name: peri
158         type: isis
159         path: '/data/isis_data/ffps-peri/PERI'
160         encoding: 'cp852'
161         #limit: 100
162         normalize:
163           tag: 'isis'
164           path: 'conf/normalize/common.pl'
165
166   # Komparativna
167   ffkk:
168     name: 'Komparativna knji¾evnost, Filozofski fakultet u Zagrebu'
169   
170     input:
171       - name: libri
172         type: isis
173         path: '/data/isis_data/ffkk-libri/LIBRI'
174         encoding: 'cp852'
175         modify_file: 'conf/modify/common.pl'
176         normalize:
177 #          path: 'conf/normalize/common.pl'
178           path: 'conf/normalize/mapping.pl'
179       - name: peri
180         type: isis
181         path: '/data/isis_data/ffkk-peri/PERI'
182         encoding: 'cp852'
183         modify_file: 'conf/modify/common.pl'
184         normalize:
185 #          path: 'conf/normalize/common.pl'
186           path: 'conf/normalize/mapping.pl'
187       - name: arti
188         type: isis
189         path: '/data/isis_data/ffkk-arti/ARTI'
190         encoding: 'cp852'
191         modify_file: 'conf/modify/ffkk-arti.pl'
192         normalize:
193 #          - path: 'conf/normalize/common.pl'
194           - path: 'conf/normalize/mapping.pl'
195           - path: 'conf/lookup/ffkk-arti.pl'
196   
197   fffo:
198     name: 'Filozofski Fakultet - Fonetika'
199   
200     input:
201       name: libri
202       type: isis
203       path: '/data/isis_data/fffo-libri/LIBRI'
204       encoding: 'cp852'
205       #limit: 100
206       normalize:
207         tag: 'isis'
208         path: 'conf/normalize/common.pl'
209
210   jzav:
211     name: 'Jadranski zavod'
212     input:
213       name: knjige
214       type: isis
215       path: '/data/isis_data/jzav/BIB'
216       encoding: 'cp852'
217       #limit: 100
218       normalize:
219         tag: 'isis'
220         path: 'conf/normalize/common.pl'
221   
222   efzg:
223     name: 'Ekonomski fakutet u Zagrebu'
224     input:
225       name: knjige
226       type: marc
227       path: '/data/isis_data/efzg/unimarc.iso'
228       encoding: 'cp852'
229       # CroList recoding pairs to fix encoding problems
230       recode: 'ÏC È Ïc è ÂC Æ Âc æ ò ð ÏS © Ïs ¹ ÏZ ® Ïz ¾'
231       #limit: 100
232       normalize:
233         tag: 'isis'
234         path: 'conf/normalize/common.pl'
235   
236   ffsfb:
237     name: 'Slavenska filologija (B), Filozofski fakulteti u Zagrebu'
238     input:
239       name: libri
240       type: isis
241       path: '/data/isis_data/ffsfb-libri/'
242       encoding: 'cp852'
243       #limit: 10
244       modify_records:
245         200:
246           '^a':
247             ' ; ': '^k'
248           '^d':
249             '^e': ' : '
250           '^e':
251             '^d': ' = '
252           '*':
253             '^g': ' ; '
254         210:
255           '*':
256             '^c': '^b'
257             '^d': '^c'
258             '. (': '. (^e'
259             ' : ': ' :^f' 
260         700:
261           '^a':
262             '^b': ', '
263         701:
264           '^a':
265             '^b': ', '
266         702:
267           '^a':
268             '^b': ', '
269       normalize:
270         path: 'conf/normalize/common.pl'
271   fflo:
272     name: 'Lingvistika, Filozofski fakultet u Zagrebu'
273     input:
274       name: libri
275       type: isis
276       path: '/data/isis_data/fflo-libri/LIBRI'
277       encoding: 'cp852'
278       #limit: 10
279       modify_records:
280         200:
281           '^d':
282             '^e': ' : '
283           '^e':
284             '^d': ' = '
285           '*':
286             '^g': ' ; '
287             '^c': '. '
288         210:
289           '*':
290             '^c': '^b'
291             '^d': '^c'
292         700:
293           '^a':
294             '^b': ', '
295         701:
296           '^a':
297             '^b': ', '
298         702:
299           '^a':
300             '^b': ', '
301       normalize:
302         path: 'conf/normalize/common.pl'
303
304   gutenberg:
305     name: 'Project Gutenberg archive'
306     input:
307       name: archive
308       type: gutenberg
309       path: 't/data/gutenberg-small.rdf'
310       normalize:
311         path: 'conf/normalize/common.pl'
312
313   sand:
314     name: 'SAND'
315     input:
316       name: casopisi
317       type: dbf
318       path: 't/data/cas2000.dbf'
319       normalize:
320         path: 'conf/normalize/common.pl'
321 #      mapping_path: 'conf/input/dbf/cas2000.yml'
322
323   exhibit:
324     name: 'SMILE Exhibit based ouptput for WebPAC'
325     input:
326       name: 'FFZG - Psihologija'
327       type: marc
328       path: 'out/marc/ffsf-peri.marc'
329       encoding: 'cp852'
330       normalize:
331         path: 'conf/normalize/json.pl'
332     output:
333       module: 'JSON'
334       path: 'out/exhibit/ps.js'
335
336   webpacus:
337     name: 'Webpacus'
338     input:
339       name: 'foobar'
340       type: marc
341 #      path: 'out/marc/ffsf-peri.marc'
342       path: 'out/marc/ffkk-libri.marc'
343       encoding: 'cp852'
344       normalize:
345         path: 'conf/normalize/webpacus.pl'
346     output:
347       - module: 'KinoSearch'
348         path: 'var/kinosearch'
349       - module: 'Sorted'
350         path: 'var/sorted'
351       - module: 'Webpacus'
352         path: '/data/Webpacus2'
353