configiration for ISI format as input
authorMarijana Glavica <mglavica@ffzg.hr>
Wed, 27 May 2009 00:08:57 +0000 (00:08 +0000)
committerMarijana Glavica <mglavica@ffzg.hr>
Wed, 27 May 2009 00:08:57 +0000 (00:08 +0000)
git-svn-id: svn+ssh://mjesec/home/dpavlin/svn/webpac2/trunk@1193 07558da8-63fa-0310-ba24-9fe276d99e06

conf/mjesec-isi.yml [deleted file]
conf/normalize/isi/isi.yml [new file with mode: 0644]
conf/normalize/isi/isi2sorted.pl [new file with mode: 0644]

diff --git a/conf/mjesec-isi.yml b/conf/mjesec-isi.yml
deleted file mode 100644 (file)
index 6564bae..0000000
+++ /dev/null
@@ -1,128 +0,0 @@
---- #YAML:1.0
-# DO NOT USE TABS FOR INDENTATION OR label/value SEPARATION!!!
-
-# encoding of this configuration file
-config_encoding: 'ISO-8859-2'
-# encoding in Catalyst.
-catalyst_encoding: 'UTF-8'
-# relative path to sites templates under Catalyst root
-sites_root: 'sites'
-
-# which indexing engine to use? (hyperestraier is default)
-#use_indexer: 'hyperestraier'
-#use_indexer: 'hyperestraier-native'
-#use_indexer: 'kinosearch'
-
-# configuration for Hyper Estraier full text search engine
-hyperestraier:
-  #url: 'http://localhost:1978/node/webpac2'
-  masterurl: 'http://localhost:1978'
-  defaultnode: 'webpac2'
-#  defaultnode: 'ps'
-  defaultdepth: 1
-  user: 'admin'
-  passwd: 'admin'
-  # don't turn this on! it will spit huge amounts of output
-  #debug: 1
-  #
-  #
-  path: 'casket/'
-  # number of results on each page
-  hits_on_page: 10
-  # number of results to fetch for suggestion (it will fold multiple sameones)
-  hits_for_suggest: 20
-  #
-  # options used while indexing
-  #
-  # which tag type to use for search engine (used while indexing)
-  type: 'search'
-  #
-
-# options for pager
-pager:
-  # how many pages to show for navigation?
-  max_pages: 20
-
-# configuration for KinoSearch search engine library
-kinosearch:
-  index_path: './kinosearch/'
-  database: 'unconfigured database name'
-  label: 'unconfigured database label'
-  encoding: 'iso-8859-2'
-  # clean database before opening? (WARNING: this erases existing database)
-  clean: 1
-  # which field type to index?
-  type: 'search'
-
-webpac:
-  # default template to use
-  template: 'html_ffzg_results_short.tt'
-  # path to database files
-  db_path: '/data/webpac2/db'
-  # path to templates used by WebPAC::Output
-  template_path: '/data/webpac2/conf/output/tt'
-  # default template for results
-  default_template: 'html_ffzg.tt'
-  # default user editable css file
-  default_css: 'user.css'
-  css_path: 'root/css'
-  # encoding comming from webpac
-  webpac_encoding: 'iso-8859-2'
-  # encoding expected by Catalyst
-  out_encoding: 'utf-8'
-  # define different input formats (types) and perl modules to handle them
-  inputs:
-    isis: 'WebPAC::Input::ISIS'
-    marc: 'WebPAC::Input::MARC'
-    excel: 'WebPAC::Input::Excel'
-    dbf: 'WebPAC::Input::DBF'
-    isi: 'WebPAC::Input::ISI'
-  # define delimiters for validation
-  delimiters:
-    - ' ; '
-    - ' : '
-    - ' / '
-    - ' = '
-editor:
-  # open this record when opening editor
-  # (it will also be used to deduce default database and input)
-  default_record_uri: 'ps/peri/1'
-
-# directives after this are used when indexing using core WebPAC modules
-
-databases:
-  # This is empty database created only in Hyper Estraier to merge
-  # all three databases
-  'webpac2':
-    name: 'Search all'
-    links:
-      - to: isi
-        credit: 10000
-  
-  citirani:
-    name: 'CITIRANI' 
-    input:
-      - name: radovi
-        type: excel
-        path: '/data/citiranje/proba.xls'
-        encoding: 'windows-1250'
-        # modify_file: 'conf/modify/common.pl'
-        normalize:
-          path: 'conf/normalize/isi2xls-citirani.pl'
-    output:
-      - module: 'Excel'
-        path: '/data/citiranje/citirani.xls'
-  
-  isi:
-    name: 'ISI' 
-    input:
-      - name: isi
-        type: isi
-        path: '/home/mglavica/citiranje/citirajuci_clanci/sverkob.txt'
-        encoding: 'ISO-8859-1'
-        # modify_file: 'conf/modify/common.pl'
-        normalize:
-          path: 'conf/normalize/isi2xls.pl'
-    output:
-      - module: 'Excel'
-        path: '/data/citiranje/sverko.xls'
diff --git a/conf/normalize/isi/isi.yml b/conf/normalize/isi/isi.yml
new file mode 100644 (file)
index 0000000..da05dbe
--- /dev/null
@@ -0,0 +1,132 @@
+--- #YAML:1.0
+# DO NOT USE TABS FOR INDENTATION OR label/value SEPARATION!!!
+
+# encoding of this configuration file
+config_encoding: 'ISO-8859-2'
+# encoding in Catalyst.
+catalyst_encoding: 'UTF-8'
+# relative path to sites templates under Catalyst root
+sites_root: 'sites'
+
+# which indexing engine to use? (hyperestraier is default)
+#use_indexer: 'hyperestraier'
+#use_indexer: 'hyperestraier-native'
+#use_indexer: 'kinosearch'
+
+# configuration for Hyper Estraier full text search engine
+hyperestraier:
+  #url: 'http://localhost:1978/node/webpac2'
+  masterurl: 'http://localhost:1978'
+  defaultnode: 'webpac2'
+#  defaultnode: 'ps'
+  defaultdepth: 1
+  user: 'admin'
+  passwd: 'admin'
+  # don't turn this on! it will spit huge amounts of output
+  #debug: 1
+  #
+  #
+  path: 'casket/'
+  # number of results on each page
+  hits_on_page: 10
+  # number of results to fetch for suggestion (it will fold multiple sameones)
+  hits_for_suggest: 20
+  #
+  # options used while indexing
+  #
+  # which tag type to use for search engine (used while indexing)
+  type: 'search'
+  #
+
+# options for pager
+pager:
+  # how many pages to show for navigation?
+  max_pages: 20
+
+# configuration for KinoSearch search engine library
+kinosearch:
+  index_path: './kinosearch/'
+  database: 'unconfigured database name'
+  label: 'unconfigured database label'
+  encoding: 'iso-8859-2'
+  # clean database before opening? (WARNING: this erases existing database)
+  clean: 1
+  # which field type to index?
+  type: 'search'
+
+webpac:
+  # default template to use
+  template: 'html_ffzg_results_short.tt'
+  # path to database files
+  db_path: '/data/webpac2/db'
+  # path to templates used by WebPAC::Output
+  template_path: '/data/webpac2/conf/output/tt'
+  # default template for results
+  default_template: 'html_ffzg.tt'
+  # default user editable css file
+  default_css: 'user.css'
+  css_path: 'root/css'
+  # encoding comming from webpac
+  webpac_encoding: 'iso-8859-2'
+  # encoding expected by Catalyst
+  out_encoding: 'utf-8'
+  # define different input formats (types) and perl modules to handle them
+  inputs:
+    isis: 'WebPAC::Input::ISIS'
+    marc: 'WebPAC::Input::MARC'
+    excel: 'WebPAC::Input::Excel'
+    dbf: 'WebPAC::Input::DBF'
+    isi: 'WebPAC::Input::ISI'
+  # define delimiters for validation
+  delimiters:
+    - ' ; '
+    - ' : '
+    - ' / '
+    - ' = '
+editor:
+  # open this record when opening editor
+  # (it will also be used to deduce default database and input)
+  default_record_uri: 'ps/peri/1'
+
+# directives after this are used when indexing using core WebPAC modules
+
+databases:
+  # This is empty database created only in Hyper Estraier to merge
+  # all three databases
+  'webpac2':
+    name: 'Search all'
+    links:
+      - to: isi
+        credit: 10000
+  
+  citirani:
+    name: 'CITIRANI' 
+    input:
+      - name: radovi
+        type: excel
+        path: '/data/citiranje/proba.xls'
+        encoding: 'windows-1250'
+        # modify_file: 'conf/modify/common.pl'
+        normalize:
+          path: 'conf/normalize/isi/isi2xls-citirani.pl'
+    output:
+      - module: 'Excel'
+        path: '/data/citiranje/citirani.xls'
+  
+  isi:
+    name: 'ISI' 
+    input:
+      - name: sverko
+        type: isi
+        path: '/home/mglavica/citiranje/citirajuci_clanci/sverkob.txt'
+        encoding: 'ISO-8859-1'
+        # modify_file: 'conf/modify/common.pl'
+        normalize:
+        #  path: 'conf/normalize/isi/isi2xls.pl'
+          path: 'conf/normalize/isi/isi2sorted.pl'
+    output:
+#      - module: 'Excel'
+#        path: '/data/citiranje/sverko.xls'
+      - module: 'Sorted'
+        path: '/data/citiranje/sverko/'
+
diff --git a/conf/normalize/isi/isi2sorted.pl b/conf/normalize/isi/isi2sorted.pl
new file mode 100644 (file)
index 0000000..05d154a
--- /dev/null
@@ -0,0 +1,3 @@
+sorted('cited',
+       rec('CR','full')
+);