Erfaring med gards-data inlegging

Frå Vaksdal Historielag

Jump to: navigation, search


Innhaldsliste

Innleiing

Test og erfaring

Eg har lagt inn data for garden Trefall på "wiki-format" som ein test på om eit wiki-verktøy som MediaWiki kan egna seg til dette.

Fyrstre testen gjorde eg med ein Årbok artikkel Flyet på Kvitanosi. Her var formatteringa brukt i artikkel lettare og mindre avansert enn den blei for bygdebok testen.


I Trefall eksempelet har eg brukt mogiligheiter som eg trur normalt blir for tidkrevande og/eller plasskrevande å bruka. Desse er:

  1. Eg har lagt inn side-nummerering frå orginalboka der sideskift kjem i papirutgåva. Dette gjer det lettare å navigera med orginalen som referanse. Dette er kanskje lurt å leggja inn, men må leggjast inn heilt manuellt og er difor tidkrevande.
  2. Ved desse sideskifta har eg lagt inn bilete til den scanna orginalsida. Igjen er dette gjort manuellt - men legg ein fyrst inn side-nummerering (forrige punkt) er ikkje ekstraarbeidet så stort. Det som imidlertid er tidkrevande er å laga/lasta opp kvar side-biletfil. Pluss at det er plasskrevjande på webserveren. Mogelegheita kan sjølvsagt brukast berre enkelte stadar der "det gjev utteljing".
  3. Eg har fått listene med "Born:" til å sjå ut som i orginalen - med alfanumerisk nummerering (a, b, c, ...). Dette krev ein del ekstra innsats - og godtek ein numeriske lister (1, 2, 3, ...) er jobben myje enklare (sjå meir om dette lenger nede på denne sida). Eller "dott" fromfor eksisterande "a", "b", "c" - som er det aller enklaste å leggja inn (sjå Trefall2). Dette er sikker kompromiss me kan leva med pga mindre arbeide.


I eksempelet Trefall2 er lister forenkla (og svært rask å leggja inn), sidetal ikkje tatt med, og heller ikkje bileta av dei enkelte sidene. Denne versjonen er sikkert god nok, og kan når som helst oppgraderast til "sprækare utgåve" av den som vil. Inlegging av forenkla versjon av Trefall + formatterings gjennomgang (=Trefall2) tok ca 30 minutt (scanning og OCR-ing kjem utanom).


På grunn av den "flate strukturen" wiki-teknologien namngjev sidene med, må ein nok tenkje gjennom navninga (var fyrst inne på tanken om å bruka namnerom a.la "Bygdebok:Trefall" i staden for "Trefall" - men trur kanskje dette ikkje er måten å gjera det på).


Det er i denne omgang ikkje gjort noko grundig undesøkjing om det fins verktøy som f.eks "OCR til wiki-format plugin", eller f.eks som "MS Word (eller PDF eller anna) til wiki-format konvertering", slik at nokre av dei manuelle "få fin utsjånad" jobbane nemde under blir mindre og enklare. Eit søk etter slike verktøy for koma i neste omgang.


Scanning og OCR

Saman med ein scanner har eg brukt OCR verktøyet Omini Page Versjon 15.0. OCR resultatet blei lagra i MS Word format, + at alle dei scann side-bileta blei lagra i eit pdf dokument.

Der det finns bilete i orginal boka kan desse hentast ut frå MS Word fila, slik at dei kan lastast opp og brukast i wiki versjonen.


Lage ny side i wiki

Ny side lagar du ved å leggja inn pekar til den i ei eksisterande side f.eks slik:

 [[Ny side]]

Som gjev ein slik lenk: Ny side. Ved å trykka på denne lenken kjem du inn i MediaWiki sin web-editor og kan leggja inn tekst og trykka "Lagre" kappen under. Og vips: den nye sida er der.


Innlegging av data

Inlegging av data blei gjort ved å selektere og kopiere i MS Word, for så å ta "lim inn" i web-grensesnitt editor vindauga som WikiMedia tilbyr i web lesaren din (det du får fram ved å veja "endre" mappa øverst på ei side - eller når du byrjar på ei ny side).

Teksten som du då får i WikiMedia editor vindauga må rettast ein del før den blir lesbar på ei wiki-side. Etter kvart som du endrar kan du teste resultatet ved å bruka "Førehandsvis" knappen under editor vindauga.

Bilete frå boka må lastast opp spesiellt. Enklaste måten: så under "Få fint utsjåande", "Bilete".


Få fint utsjånad

Her ei oversikt over kva endringar som må gjerast i kelde-teksten - og alternative måtar å gjera desse på.


Kommentar i wiki-tekst

Det kan væra nyttig å leggja frå seg "eigne notatar" i teksten du legg inn - om ymse du vil minnast på i framtida, eller vil mainna andre på - UTAN at desse kommentarane blir VIST.

Ved å bruka "<--" framfor kommentaren ok "-->" bak blir teksten i mellom borte. To eksempler:

 <-- Denne teksen er ein kommentar og blir ikkje vist -->

 <-- 
   Denne teksten er og ein kommentar
 -->


Overskrift

"A" viser orginal OCR tekst, "B" korleis vi i dette tilfelle vel at kvart bruk (her bruk nr 2) skall ha si eiga overskrift. Brukt i Trefall eksempelet.

wikitekstrendring

A: Teksten slik den ser ut i OCR fila. Til høgre slik dette blir vist i wiki.

Bnr. 2. 1838: L.nr. 100. G1. skyld 6 mk. smør, ny 4
ort 1 skill. 1886: Mk. 0,84

Bnr. 2. 1838: L.nr. 100. G1. skyld 6 mk. smør, ny 4 ort 1 skill. 1886: Mk. 0,84

B: Overskrifta på eiga linje med == rundt. Til høgre slik dette blir vist i wiki.

== Bnr. 2== 
1838: L.nr. 100. G1. skyld 6 mk. smør, ny 4 ort 1 skill.
1886: Mk. 0,84

Bnr. 2


1838: L.nr. 100. G1. skyld 6 mk. smør, ny 4 ort 1 skill. 1886: Mk. 0,84


Avsnitt

I wiki tekst, både kjelde og vist på web - ei tom linje. Legg difor inn ei tom linje som vist i "B".

wikitekstrendring

A: Teksten slik den ser ut i OCR fila. Til høgre slik dette blir vist i wiki.

  1924 får Blaauw eigedomshevdsdom. Stølen var verds. til
kr. 4500.
  1926. Skøyte frå Henrik Ameln og Erling Gjestland til
Bergenshalvøens kommunale kraftselskap — vedteke av D. V.
Blaauw — på d.m.fl. bruk.

1924 får Blaauw eigedomshevdsdom. Stølen var verds. til kr. 4500. 1926. Skøyte frå Henrik Ameln og Erling Gjestland til Bergenshalvøens kommunale kraftselskap — vedteke av D. V. Blaauw — på d.m.fl. bruk.

B: Ei tom linje gjev avsnitt. Til høgre slik dette blir vist i wiki.

1924 får Blaauw eigedomshevdsdom. Stølen var verds. til
kr. 4500.

1926. Skøyte frå Henrik Ameln og Erling Gjestland til
Bergenshalvøens kommunale kraftselskap — vedteke av D. V.
Blaauw — på d.m.fl. bruk.

1924 får Blaauw eigedomshevdsdom. Stølen var verds. til kr. 4500.

1926. Skøyte frå Henrik Ameln og Erling Gjestland til Bergenshalvøens kommunale kraftselskap — vedteke av D. V. Blaauw — på d.m.fl. bruk.


Linjeskift

I eksempelet over vil vi kanskje berre leggje inn eit linjeskift i staden for tom linje som i eksempelet under "Avsnitt". Dette er vist "B".

wikitekstrendring

A: Teksten slik den ser ut i OCR fila. Til høgre slik dette blir vist i wiki.

  1924 får Blaauw eigedomshevdsdom. Stølen var verds. til
kr. 4500.
  1926. Skøyte frå Henrik Ameln og Erling Gjestland til
Bergenshalvøens kommunale kraftselskap — vedteke av D. V.
Blaauw — på d.m.fl. bruk.

1924 får Blaauw eigedomshevdsdom. Stølen var verds. til kr. 4500. 1926. Skøyte frå Henrik Ameln og Erling Gjestland til Bergenshalvøens kommunale kraftselskap — vedteke av D. V. Blaauw — på d.m.fl. bruk.

B: Html tag-en <br> gjev linjeskift. Til høgre slik dette blir vist i wiki.

  1924 får Blaauw eigedomshevdsdom. Stølen var verds. til
kr. 4500.<br>
  1926. Skøyte frå Henrik Ameln og Erling Gjestland til
Bergenshalvøens kommunale kraftselskap — vedteke av D. V.
Blaauw — på d.m.fl. bruk.

1924 får Blaauw eigedomshevdsdom. Stølen var verds. til kr. 4500.
1926. Skøyte frå Henrik Ameln og Erling Gjestland til Bergenshalvøens kommunale kraftselskap — vedteke av D. V. Blaauw — på d.m.fl. bruk.


Bilete

Bilete legg du inn i wiki teksten feks ved hjelp av utrykket:

 [[Fil:NyBiletFil.jpg|mini|Ny bilet fil]]
som blir vist som "boksen" i høgre marg:
Fil:NyBiletFil.jpg
Ny bilet fil

Ved å trykke på "Fil:NyBiletFil.jpg" lenken til høgre, får du tilbod om å lasta opp biletfila til web-serveren.


Uformattert tekst

At teksten du skriv inn ikkje blir formattert, det vil sei stå akkurat som du har skreve den, kan du gjera dette på ein av to måtar:

wikitekstrendring

Omslutt tekstem med <pre></pre>:

<pre>
Teksten slik du vil ha den.
  Ny tekst.
    Ny tekstatt.
</pre>
Teksten slik du vil ha den.
  Ny tekst.
    Ny tekstatt.

Inrykk forrerst på ei linje gjer at denne ikkje blir formattert.

 Tesksten  s l i k duvilha d e n
Tesksten  s l i k duvilha d e n


Tabellar

Det var ingen tabellar i dette eksempelet. Korleis laga tabellar kjem difor her seinare.


Namnerom

Her kjem etter kvart forslag og retningslinjer for bruk av namnerom.


Krav til webtenar

For å kjøyre fri-produkta WikiMedia, phpBB og MySQL som er brukt i dette forsøket, set det fyljande krav til webtenaren som skal hysa desse sidene:

  1. Linux operativsystem
  2. PHP 5.x installert
  3. Apache web-server installert (også eit fri-produkt)
  4. Rettar til å installere eigen programmvare som: MySQL (kan væra forhånds installert av den som vi kjøper web-tenat tenesta hos), phpBB og MediaWiki.
  5. Plassbehovet er så langt ikkje vurdert. Men ein start på 4GB vil væra eit godet utgangspunkt.


Gjennomføring av data inlegging

Jobben med å få inn bygdebok data består av:

  1. Scanning og OCR (f.eks ein gard pr. "batch")
  2. Innlegging på wiki-sida av "rådata" (copy/past)som wiki-tekst
  3. Lage + oppdater med eventuelle bilete
  4. Formattere wiki-teksten slik at den blir vakker og ven

Desse jobbane egnar seg svært godt som ein dugnads-jobb fordelt på forskjellige personar (flest mogelege). Den som scanner/OCR-er fordelar "råmaterialet" til forskjellige dugnads personar. Som i sin tur legg inn rådata som wiki-tekst via WikiMedia sitt web-grensesnitt (einaste desse treng er internett tilgang og ein web-lesar). Personar som kjemnner WikiPedia/wiki-formatet litt (som f.eks. eg - eller dei eg "lærer opp") kan så gå igjennom "gard for gard", passa på at sidene er namna rett (ev. flytta sider hvis ikkje), og gå igjennom formattering slik at sidene blir fine.

Personlege verktøy