delete swp
[webpac2] / conf / sqeak.yml
1 --- #YAML:1.0
2 # DO NOT USE TABS FOR INDENTATION OR label/value SEPARATION!!!
3
4 # encoding of this configuration file
5 config_encoding: 'ISO-8859-2'
6 # encoding in Catalyst.
7 catalyst_encoding: 'UTF-8'
8 # relative path to sites templates under Catalyst root
9 sites_root: 'sites'
10
11 # which indexing engine to use? (hyperestraier is default)
12 # disable indexer
13 use_indexer: ''
14 #use_indexer: 'hyperestraier'
15 #use_indexer: 'hyperestraier-native'
16 #use_indexer: 'kinosearch'
17
18 # configuration for Hyper Estraier full text search engine
19 hyperestraier:
20   #url: 'http://localhost:1978/node/webpac2'
21   masterurl: 'http://localhost:1978'
22   defaultnode: 'webpac2'
23 #  defaultnode: 'ps'
24   defaultdepth: 1
25   user: 'admin'
26   passwd: 'admin'
27   # don't turn this on! it will spit huge amounts of output
28   #debug: 1
29   #
30   # if using hyperestraier-native use following:
31   path: 'casket/'
32   #
33   # number of results on each page
34   hits_on_page: 10
35   # number of results to fetch for suggestion (it will fold multiple sameones)
36   hits_for_suggest: 20
37   #
38   # options used while indexing
39   #
40   # which tag type to use for search engine (used while indexing)
41   type: 'search'
42   #
43
44 # options for pager
45 pager:
46   # how many pages to show for navigation?
47   max_pages: 20
48
49 # configuration for KinoSearch search engine library
50 kinosearch:
51   index_path: './kinosearch/'
52   database: 'unconfigured database name'
53   label: 'unconfigured database label'
54   encoding: 'iso-8859-2'
55   # clean database before opening? (WARNING: this erases existing database)
56   clean: 1
57   # which field type to index?
58   type: 'search'
59
60 webpac:
61   # default template to use
62   template: 'html_ffzg_results_short.tt'
63   # path to database files
64   db_path: '/data/webpac2/db'
65   # path to templates used by WebPAC::Output
66   template_path: '/data/webpac2/conf/output/tt'
67   # default template for results
68   default_template: 'html_ffzg.tt'
69   # default user editable css file
70   default_css: 'user.css'
71   css_path: 'root/css'
72   # encoding comming from webpac
73   webpac_encoding: 'iso-8859-2'
74   # encoding expected by Catalyst
75   out_encoding: 'utf-8'
76   # define different input formats (types) and perl modules to handle them
77   inputs:
78     isis: 'WebPAC::Input::ISIS'
79     marc: 'WebPAC::Input::MARC'
80     excel: 'WebPAC::Input::Excel'
81     gutenberg: 'WebPAC::Input::Gutenberg'
82     dbf: 'WebPAC::Input::DBF'
83   # define delimiters for validation
84   delimiters:
85     - ' ; '
86     - ' : '
87     - ' / '
88     - ' \. '
89
90 editor:
91   # open this record when opening editor
92   # (it will also be used to deduce default database and input)
93   default_record_uri: 'ps/libri/1'
94
95 # directives after this are used when indexing using core WebPAC modules
96
97 databases:
98   # This is empty database created only in Hyper Estraier to merge
99   # all three databases
100   'webpac2':
101     name: 'Search all'
102     links:
103       - to: ps
104         credit: 10000
105       - to: kk
106         credit: 10000
107       - to: jzav
108         credit: 10000
109
110   # site with alternative databases
111   'hr':
112     name: 'Primjer za hrvatsko suèelje'
113     links:
114       - to: ffps
115         credit: 10000
116       - to: ffkk
117         credit: 5000
118       - to: fffo
119         credit: 10000
120
121   # Psihologija
122   'ffps':
123     # all variables here will be available as config variables in template
124     name: 'Knji¾nica psihologije'
125     code: 'ps'
126   
127     # define input source
128     input:
129       # this will create unique name with name of database and mfn
130       - name: libri
131         # isis
132         type: isis
133     
134         # full path to database
135         path: '/data/FF/ps/LIBRI'
136     
137         # encoding of character set in isis data
138         encoding: 'cp852'
139     
140         # limit number of records to read from database
141         #limit: 100
142     
143         # define normalisation for that source
144         modify_file: 'conf/modify/common.pl' 
145         normalize:
146           # which tag to use in normalize xml for data?
147             # path to normalization xml
148           path: 'conf/normalize/ff-libri.pl'
149   
150       # another input database
151       - name: peri
152         type: isis
153         path: '/data/isis_data/ffps-peri/PERI'
154         encoding: 'cp852'
155         #limit: 100
156         normalize:
157           tag: 'isis'
158           path: 'conf/normalize/common.pl'
159
160   # Komparativna
161   ffkk:
162     name: 'Komparativna knji¾evnost, Filozofski fakultet u Zagrebu'
163   
164     input:
165       - name: libri
166         type: isis
167         path: '/data/isis_data/ffkk-libri/LIBRI'
168         encoding: 'cp852'
169         modify_file: 'conf/modify/common.pl'
170         normalize:
171 #          path: 'conf/normalize/common.pl'
172           path: 'conf/normalize/mapping.pl'
173       - name: peri
174         type: isis
175         path: '/data/isis_data/ffkk-peri/PERI'
176         encoding: 'cp852'
177         modify_file: 'conf/modify/common.pl'
178         normalize:
179 #          path: 'conf/normalize/common.pl'
180           path: 'conf/normalize/mapping.pl'
181       - name: arti
182         type: isis
183         path: '/data/isis_data/ffkk-arti/ARTI'
184         encoding: 'cp852'
185         modify_file: 'conf/modify/ffkk-arti.pl'
186         normalize:
187 #          - path: 'conf/normalize/common.pl'
188           - path: 'conf/normalize/mapping.pl'
189           - path: 'conf/lookup/ffkk-arti.pl'
190   
191   fffo:
192     name: 'Filozofski Fakultet - Fonetika'
193   
194     input:
195       name: libri
196       type: isis
197       path: '/data/isis_data/fffo-libri/LIBRI'
198       encoding: 'cp852'
199       #limit: 100
200       normalize:
201         tag: 'isis'
202         path: 'conf/normalize/common.pl'
203
204   jzav:
205     name: 'Jadranski zavod'
206     input:
207       name: knjige
208       type: isis
209       path: '/data/isis_data/jzav/BIB'
210       encoding: 'cp852'
211       #limit: 100
212       normalize:
213         tag: 'isis'
214         path: 'conf/normalize/common.pl'
215   
216   efzg:
217     name: 'Ekonomski fakutet u Zagrebu'
218     input:
219       name: knjige
220       type: marc
221       path: '/data/isis_data/efzg/unimarc.iso'
222       encoding: 'cp852'
223       # CroList recoding pairs to fix encoding problems
224       recode: 'ÏC È Ïc è ÂC Æ Âc æ ò ð ÏS © Ïs ¹ ÏZ ® Ïz ¾'
225       #limit: 100
226       normalize:
227         tag: 'isis'
228         path: 'conf/normalize/common.pl'
229   
230   ffsfb:
231     name: 'Slavenska filologija (B), Filozofski fakulteti u Zagrebu'
232     input:
233       name: libri
234       type: isis
235       path: '/data/isis_data/ffsfb-libri/'
236       encoding: 'cp852'
237       #limit: 10
238       modify_records:
239         200:
240           '^a':
241             ' ; ': '^k'
242           '^d':
243             '^e': ' : '
244           '^e':
245             '^d': ' = '
246           '*':
247             '^g': ' ; '
248         210:
249           '*':
250             '^c': '^b'
251             '^d': '^c'
252             '. (': '. (^e'
253             ' : ': ' :^f' 
254         700:
255           '^a':
256             '^b': ', '
257         701:
258           '^a':
259             '^b': ', '
260         702:
261           '^a':
262             '^b': ', '
263       normalize:
264         path: 'conf/normalize/common.pl'
265   fflo:
266     name: 'Lingvistika, Filozofski fakultet u Zagrebu'
267     input:
268       name: libri
269       type: isis
270       path: '/data/isis_data/fflo-libri/LIBRI'
271       encoding: 'cp852'
272       #limit: 10
273       modify_records:
274         200:
275           '^d':
276             '^e': ' : '
277           '^e':
278             '^d': ' = '
279           '*':
280             '^g': ' ; '
281             '^c': '. '
282         210:
283           '*':
284             '^c': '^b'
285             '^d': '^c'
286         700:
287           '^a':
288             '^b': ', '
289         701:
290           '^a':
291             '^b': ', '
292         702:
293           '^a':
294             '^b': ', '
295       normalize:
296         path: 'conf/normalize/common.pl'
297
298   gutenberg:
299     name: 'Project Gutenberg archive'
300     input:
301       name: archive
302       type: gutenberg
303       path: 't/data/gutenberg-small.rdf'
304       normalize:
305         path: 'conf/normalize/common.pl'
306
307   sand:
308     name: 'SAND'
309     input:
310       name: casopisi
311       type: dbf
312       path: 't/data/cas2000.dbf'
313       normalize:
314         path: 'conf/normalize/common.pl'
315 #      mapping_path: 'conf/input/dbf/cas2000.yml'
316
317   exhibit:
318     name: 'SMILE Exhibit based ouptput for WebPAC'
319     input:
320       name: 'FFZG - Psihologija'
321       type: marc
322       path: 'out/marc/ffsf-peri.marc'
323       encoding: 'cp852'
324       normalize:
325         path: 'conf/normalize/json.pl'
326     output:
327       module: 'JSON'
328       path: 'out/exhibit/ps.js'
329
330   hidra:
331     name: 'HIDRA'
332     input:
333       - name: bib
334         type: isis
335         path: '/data/hidra/BIB'
336         encoding: 'cp852'
337         #modify_file: 'conf/modify/common.pl'
338         normalize:
339           path: 'conf/normalize/minimal.pl' 
340
341   webpacus:
342     name: 'Webpacus'
343     input:
344       name: 'foobar'
345       type: marc 
346 #      path: 'out/marc/ffsf-peri.marc'
347 #      path: 'out/marc/ffkk-libri.marc'
348 #      path: '/data/hidra/BIB'
349 #      path: '/data/FF/ps/LIBRI'
350       path: '/data/FF/iz/ffiz-libri.marc'
351       encoding: 'UTF-8'
352       normalize:
353         path: 'conf/normalize/webpacus.pl'
354     output:
355       - module: 'KinoSearch'
356         path: 'var/kinosearch'
357       - module: 'Sorted'
358         path: 'var/sorted'
359       - module: 'Webpacus'
360         path: '/data/Webpacus2'
361