Hafan Llyfrau or Gorffennol
Hafan| Chwilio Casgliad | Cymorth| Atborth| Cefndir| English

Cefndir y Prosiect

Cyflwyniad i Lyfrau o'r Gorffennol

Mae Llyfrau o'r Gorffennol yn gasgliad ar-lein o lyfrau o ddiddordeb diwylliannol cenedlaethol sydd allan o brint ers amser maith, ac sy'n annhebygol o gael eu hailargraffu drwy ddulliau traddodiadol. Mae'r testunau ar gael ar ddwy ffurf - delweddau o dudalennau'r llyfr gwreiddiol, ynghyd â thestun electronig y gellir ei chwilio'n hawdd ac sy'n addas ar gyfer argraffu.

Datblygwyd Llyfrau o'r Gorffennol gan Culturenet Cymru a Chyngor Llyfrau Cymru, ac mae'n adnodd sydd ar gael am ddim i bawb. Bydd y wefan yn cael ei datblygu a'i hehangu dros y blynyddoedd i ddod i gynnwys llawer yn fwy o destunau yn y ddwy iaith.

Ar hyn o bryd mae'r prosiect hwn yn ei gyfnod peilot a chroesawir atborth ynglŷn â'i berfformiad technegol ynghyd â sylwadau ar ba lyfrau i'w cynnwys yn y dyfodol.

Wrth wneud y prosiect, mae Culturenet wedi datblygu cymhwysiad meddalwedd i wneud casgliad o destunau Cymreig ar gael drwy un pwynt mynediad gyda chwilio mewn crynswth ar draws bob gair yn y casgliad ar wefan ddwyieithog. Yn ystod cwrs y prosiect mae ein staff wedi datblygu amrediad o sgiliau ym meysydd digido, metadata, rheoli cynnwys a datblygu ar y we. Mae'r dechnoleg a'r sgiliau hefyd yn addas ar gyfer cyflwyno mathau eraill o fetadata testun a graffigol dros y rhyngrwyd.

Dyfodol Llyfrau o'r Gorffennol

Llyfrau o'r Gorffennol II

Wrth i'r prosiect dyfu bydd materion dethol cynnwys yn dod yn gynyddol bwysig. Mae Cyngor Llyfrau Cymru wedi dewis 200 o lyfrau pellach posibl i'w cynnwys. Bwriedir digido rhwng 9 ac 20 o lyfrau newydd yn 2004. Dewisir y llyfrau ar sail eu gwerth addysgol a diwylliannol. Er mwyn gwthio ffiniau technoleg ymhellach, bydd llyfrau mawr neu lyfrau gyda llawer o ddeunydd graffig a chyfresi yn cael eu dethol.

Ehangu'r Bartneriaeth

Dymuna Culturenet Cymru a Chyngor Llyfrau Cymru ehangu'r bartneriaeth i gynnwys cyrff eraill o'r sector treftadaeth. Gobeithir y bydd prosiectau digido eraill yn gallu defnyddio cymhwysiad Culturenet. Wrth i sylfaen y bartneriaeth a nifer y testunau sy'n cael eu digido dyfu, mae yna nifer o faterion sydd angen ymchwilio iddynt ymhellach ac am y rheswm hwn, bydd Culturenet Cymru yn ymgymryd ag astudiaeth ddichonoldeb.

Astudiaeth Ddichonoldeb

Nod yr astudiaeth ddichonoldeb yw egluro'r ffordd ymlaen ar gyfer aelodau Cultrenet Cymru ym maes digido testun ac amgodio testun. Y prif bynciau fydd angen eu harchwilio fydd: safonau, ymgyfnewid data, datrysiadau technegol, rhannu arbenigedd ac adnoddau, perchnogaeth cynnwys, rheolaeth olygyddol, ffynonellau nawdd a chynaliadwyedd.

Bydd yr astudiaeth ddichonoldeb yn cynhyrchu cynigion cadarn ar y ffordd ymlaen. Gobeithir mai'r canlyniad fydd rhaglen ddigido testun gydweithredol ar raddfa fawr.

Sut aethpwyd ati i wneud y Prosiect

Dechreuwyd y prosiect hwn gan un o'n haelodau, Cyngor Llyfrau Cymru, a welodd yr angen am fynediad i lyfrau allan o brint o bwysigrwydd diwylliannol. Mae Culturenet Cymru yn bodoli er mwyn cynorthwyo'r sefydliadau sy'n aelod ohono i osod diwylliant ar-lein. Felly, dechreusom gyda rhestr o nodau Cyngor Llyfrau Cymru gan ychwanegu rhestr o'n rhai ni ein hunain cyn edrych am y ffordd orau o gyflawni cymaint ohonynt â phosibl.

Nodau'r Partneriaid

Roedd Cyngor Llyfrau Cymru eisiau i'r prosiect gyflwyno:


Roedd Culturenet Cymru eisiau i'r prosiect:

Dod o hyd i'r ateb

Roedd yn amlwg ar unwaith o nodau'r partneriaid y byddai'n rhaid gwneud y prosiect hwn mewn ffordd wahanol i'r rhan fwyaf o brosiectau digido. Mae'n fater gweddol syml i ddigido cardiau post, ffotograffau a gweithiau celf bach a rheoli'r cynnwys. Cafodd Culturenet Cymru brofiad o'r math hwn o ddigido gyda Chasglu'r Tlysau. Ond, mae gwrthrychau cymhleth gyda nifer o rannau perthnasol, er enghraifft llyfrau gyda nifer o dudalennau, angen math gwahanol o ddigido, rheoli a chyflwyno. Nid oedd delweddu digidol y llyfrau yn ormod o broblem, ac eithrio cadwraeth y llyfr yn ystod y broses. Y broblem anoddaf yw cyflwyno'r llyfrau ar y we. Roedd cyflwyno miloedd o dudalennau fel tudalennau unigol ac yn y drefn gywir tra'n sicrhau fod modd llywio yn hawdd drwy gasgliad mwy o lyfrau ar y cyfan yn cynnig sialens sylweddol i Culturenet.

Mae yna brosiectau gweddol sefydledig yn fyd-eang wedi cyflawni'r manylion technoleg hyn yn llwyddiannus. Cyflwynir testun ar y we mewn o leiaf dair ffordd. Y ffordd fwyaf poblogaidd yw testun electronig, fel arfer ar ffurf html. Defnyddir dogfennau PDF yn eang hefyd. Mae rhai prosiectau yn arddangos testun fel delweddau o dudalennau o destun. Diystyrwyd yr olaf yn fuan oherwydd mai ychydig iawn o nodau'r partneriaid yr oedd yn ei ddiwallu.

Yr achos dros PDF

Teimlwyd yn wreiddiol y dylai Llyfrau o'r Gorffennol fod yn gasgliad o ffeiliau PDF. Mae PDF yn datrys nifer o'r problemau llywio ac mae hyd yn oed yn cynnig chwyddo tudalen ynghyd â swyddogaeth chwilio elfennol. Ond mae gan y dull hwn ei broblemau ei hunan, yn arbennig gyda thestunau hir (amserau llwytho i lawr) ac wrth i archif y llyfrau dyfu. Teimlwyd y byddai chwilio testun llawn ar draws archif cyfan y llyfrau yn anodd iawn i'w gyflawni gyda PDF. Byddai hefyd yn gofyn i ddefnyddwyr lwytho ffeiliau PDF mawr iawn i lawr cyn gallu perfformio chwiliadau gair a phori. Mae defnyddwyr yn galw am lywio sythweledol sy'n eu harwain hwy at yr union ran o'r llyfr y maent ei eisiau heb orfod llwytho testun cyfan i lawr. Ar gyfer eglurdeb, mae defnyddwyr angen testun clir, darllenadwy heb orfod aberthu atgynhyrchiad ffyddlon y darluniau. Gallai defnyddio PDF ar ei ben ei hun ar gyfer cyflwyno cynnwys y we achosi problemau hygyrchedd a cheir cwestiynau ynglŷn â hirhoedledd y gefnogaeth ar gyfer y ffurf PDF yn yr hir dymor.

Gellir datrys nifer o'r problemau hyn drwy drosi llyfrau yn destun electronig ac yna cynnig nifer o fformatau i'r defnyddwyr gan gynnwys PDF ar gyfer ei lwytho i lawr. Roeddem yn teimlo byddai testun electronig yn caniatáu chwilio testun cyfan, pori hawdd a chwilio ar draws casgliadau.

Testun Electronig

Yn aml trosir testun i ffurf electronig gan adnabyddiaeth nodau gweledol (OCR) neu drwy ailallweddu neu drwy gyfuniad o'r ddau. Yn gyffredinol, mae ailallweddu yn ddull cywirach. Mae penderfynu ar ba un sy'n fwyaf priodol ar gyfer ei ddefnyddio yn dibynnu'n helaeth ar nodweddion gwreiddiol y deunydd a mecanwaith cyflwyno ar y we. Mae rhai mecanweithiau cyflwyno ar y we yn dibynnu ar destun ‘quick and dirty’ OCR ar gyfer chwilio geiriau, ond dim ond yn cyflwyno delwedd o'r dudalen i'r defnyddiwr. Mae'r systemau hyn weithiau'n defnyddio chwilio ‘fuzzy’ sy'n galluogi defnyddwyr i ddod o hyd i dermau chwilio yn ddigon effeithiol heb destun 100% cywir. Mae'r systemau hyn wedi'u defnyddio'n eang ar gyfer papurau newydd a deunydd sydd â llawer o ddiddordeb gweledol. Mae systemau eraill yn dibynnu ar destun OCR cywir iawn wedi'i olygu neu destun wedi'i ailallweddu gan eu bod yn cyflwyno'r defnyddiwr â'r testun electronig ei hunan. Fel arfer, mae'r rhain yn fwy priodol ar gyfer testunau llenyddol neu ieithyddol.

Menter Amgodio Testun (TEI)

Heb amheuaeth, y safon sydd wedi'i ddefnyddio yn eang ac sydd wedi'i sefydlu hwyaf ar gyfer y system olaf yw Menter Amgodio Testun (TEI). Mae TEI yn safon rhyngwladol a chyd-ddisgyblaethol ar gyfer cynrychioli testunau llenyddol ac ieithyddol ar-lein. Fe'i lansiwyd ym 1987. Mae TEI yn galluogi i destun electronig llawn y llyfr gael ei amgodio ynghyd â metadata ychwanegol mewn ffurf safonol ddiberchenogaeth ac agored. Mae TEI hefyd yn darparu set o dagiau marcio cyfoethog ac estynadwy, sy'n galluogi marcio rhannau o'r llyfrau ar gyfer chwilio mwy deallus ac adfer cynnwys. Lle defnyddir y tagiau marcio hyn, gall defnyddwyr chwilio am linellau o benillion, enwau, lleoliadau daearyddol, teitlau penodau ac yn y blaen. Mae TEI hefyd yn cynnig yr hyblygrwydd i gyflwyno testunau gyda tagiau marcio minimal ac yna ychwanegu mwy o dagiau marcio yn ddiweddarach er mwyn ychwanegu gwerth i'r testun.

Ei Glymu i Gyd Ynghyd

Tra byddai testun electronig wedi'i ailallweddu yn TEI yn bodloni meini prawf chwilio a chywirdeb ar gyfer y prosiect, ni fyddai'n ddigonol (ar ei ben ei hun) ar gyfer cyflwyno'r orgraff a'r gosodiad gwreiddiol. Mae natur y we yn golygu bod gosodiad a chyflwyniad tudalennau y we yn cael eu rheoli gan y defnyddiwr. Yn ddelfrydol, roeddem eisiau cyflwyno delwedd o bob tudalen a thestun electronig o bob tudalen i'r defnyddiwr. Ar gyfer hyn roeddem angen system fetadata a allai gysylltu delwedd o bob tudalen â'r testun wedi'i amgodio ar gyfer pob tudalen mewn dogfen TEI. Hefyd, roedd anegn arnom system fetadata a allai lapio yr holl wahanol rannau sy'n gwneud pob llyfr electronig. At y diben hwn, fe wnaethom benderfynu defnyddio safon sy'n ymddangos ac sydd eisoes wedi'i dderbyn o'r enw METS.

Safon Amgodio a Throsglwyddo Metadata (METS)

Mae'r cynllun METS yn safon ar gyfer amgodio gwahanol fathau o fetadata mewn perthynas â gwrthrychau o fewn gwrthrych digidol cymhleth (megis llyfr neu lyfrgell gyfan o lyfrau) ac fe'i mynegir trwy ddefnyddio XML. Fe'i datblygir fel menter gan Ffederasiwn Llyfrgell Digidol.

Mae METS yn darparu dogfen ganolbwynt sy'n dwyn ynghyd ffeiliau a chynnwys digidol gwasgaredig ond sy'n perthyn. Byddai gan ein system un ffeil TEI am bob llyfr a channoedd o ffeiliau delwedd. Mae METS yn darparu'r canolbwynt sy'n dwyn ffeiliau ynghyd er mwyn ffurfio endid digidol a allai wneud synnwyr i'r defnyddwyr. Mae METS yn darparu cystrawen er mwyn adnabod y darnau digidol sydd, gyda'i gilydd, yn ffurfio'r endid digidol, ar gyfer enwi lleoliad y darnau hyn, ac er mwyn mynegi y perthnasau rhwng y darnau digidol hyn.

Calon y ffeil METS yw adran y ffeil (fileSec) ac adran y map strwythur (structMap). Mae'r adran ffeil yn cofnodi gwybodaeth sy'n ymwneud â'r holl ffeiliau data sy'n ffurfio gwrthrych y llyfrgell ddigidol. Mae'r adran map strwythurol yn diffinio trefniant hierarchaidd y ddogfen gwreiddiol sy'n cael ei digido. Mae'r hierarchaeth hon yn cael ei hamgodio fel coeden o adrannau neu elfennau 'div'.

Mae'r map strwythur yn cynnwys pwyntydd ffeil ar gyfer pob ffeil sy'n gysylltiedig â'r dudalen gyfatebol. Er enghraifft, ar gyfer tudalen destun ceir cofnod ar gyfer delwedd y we, y crynodeb a'r ffeil XML cyfatebol. Mae'r pwyntydd ffeil yn adran y map strwythur yn pwyntio at ffeil unigryw yn yr adran ffeil a ddynodwyd gan ei ID. Mae'r adran ffeil yna'n pwyntio at y ffeiliau materol a storir ar y gweinyddwr ffeil.

Meddalwedd Llyfrgell Ddigidol Greenstone

Ar ei ben ei hun, ni all METS gyflwyno ffeiliau ar y we. Ni all ychwaith ddarparu offeryn gweinyddol ar gyfer trefnu a golygu rhannau y llyfrau electronig. Ar gyfer hyn mae angen rhyw fath o drawsffurfiad. Mewn rhai achosion gellir cyflawni hyn trwy ddefnyddio ffeiliau XSLT neu systemau rheoli cynnwys priodol sy'n trawsffurfio'r METS a'r TEI ar gyfer eu harddangos ar y wefan. Penderfynasom ddefnyddio system ffynhonnell agored o'r enw Greenstone. Mwy ynglŷn â Greenstone

Mae casgliadau a adeiledir yn defnyddio Greenstone yn cynnig chwilio testun llawn effeithiol a chyfleusterau pori yn seiliedig ar fetadata sy'n atyniadol ac yn hawdd eu defnyddio. Hefyd, maent yn hawdd i'w cynnal ac fe ellir ychwanegu atynt a'u hailadeiladu yn gyfan gwbl awtomataidd. Mae'r system yn estynadwy ac fe all gael mewnblygiadau meddalwedd i addasu gwahanol fathau o ddogfennau a metadata. Mae gan Greenstone ei XML DTD ei hunan o'r enw Fformat Archif Greenstone (GAF). Dyma fath o steil XML sy'n marcio dogfennau yn adrannau, ac fe all ddal metadata ar lefel y ddogfen neu'r adran. Yn hyn o beth mae'n debyg iawn i METS. Mae Culturenet wedi datblygu mewnblygiad sy'n caniatáu trawsnewid ffeiliau METS a TEI yn awtomataidd yn ffurf GAF.

Diagram o Bensaernïaeth Digido Testun

text digitisation architecture

Y Broses Drawsnewid

Digido, Amgodio a Marcio

Gwnaed y gwaith digido delweddau, ailallweddu ac amgodio testun a datblygiad y we yn allanol ar gyfer y prosiect hwn. Yn gyntaf, tynnwyd y llyfrau ar wahân a sganiwyd y tudalennau yn 300dpi mewn lliw 24did. Mae'r rhain wedi'u harchifo fel ffeiliau meistr ar gyfer eu cadw a'u hailddefnyddio'n y dyfodol o bosibl. Caiff copi o bob ffeil ei optimeiddio ar gyfer trosglwyddo ar y we. Yna caiff y testun ei ailallweddu a'i ychwanegu gan ddefnyddio dulliau safonol (TEI a METS) sy'n disgrifio'r llyfr a'i strwythur mewn modd y gellir ei ddeall gan brosesau awtomataidd (megis gweinyddwr y we). Mewn nifer o achosion, defnyddir ailallwedu dwbl, lle mae dau weithredwr yn ailallwedu'r testun yn annibynnol tra fod meddalwedd yn gwirio am wahaniaethau rhyngddynt.

Gwirio Ansawdd Delwedd

Mae staff Culturenet yn gwirio pob delwedd ar gyfer y canlynol:

Gwirio Ansawdd Testun

Wedi i ddelweddau a thestun electronig gael eu creu cânt eu llwytho i mewn i gymhwysiad y we gan ddefnyddio'r offeryn gweinyddu. Mae hyn yn cyhoeddi'r llyfr ar weinyddwr prawf y we. Mae Cyngor Llyfrau Cymru yn gwirio sampl o'r testun electronig yn erbyn delwedd o'r dudalen wedi'i sganio. Cofnodir y camgymeriadau ac fe gânt eu cywiro.

Safonau a ddefnyddir yn y prosiect

Cyflawni'r Prosiect

Adnabuwyd chwe phecyn gwaith. Rhannwyd y pecynnau gwaith rhwng Cyngor Llyfrau Cymru, Culturenet Cymru a Milan Associates a wnaeth dendro'n llwyddiannus ar gyfer pedwar o'r pecynnau gwaith. Fe wnaeth Milan Associates isgontractio i ddau gwmni sydd wedi'u lleoli yn India.

Pecynnau Gwaith

  1. Metadata Llyfryddiaethol

  2. Darparwyd y metadata llyfryddiaethol a oedd eu hangen ar gyfer pob pennawd TEI gan Gyngor Llyfrau Cymru

  3. Cipio Delwedd ac Amgodio Testun

  4. Cafodd hyn ei wneud gan Milan Associates mewn cydweithrediad â chwmni yn India.

  5. Rhaglennu a Datblygiad y We

  6. Gwnaed y gwaith datblygu gwe gan Milan Associates mewn cydweithrediad â chwmni yn India. Roedd y gwaith wedi'i seilio ar gôd ffynhonnell agored Greenstone.

  7. Gwirio Ansawdd

  8. Gwiriodd Cyngor Llyfrau Cymru gywirdeb sampl o'r testun electronig a gwiriodd Culturenet Cymru ansawdd y delweddau.

  9. Rheolaeth Prosiect

  10. Milan Associates oedd yn gyfrifol am yr ymgynhoriaeth wreiddiol gan reoli'r cyswllt rhwng y cwmnïau yn India a Culturenet Cymru

  11. Cynllunio'r We

  12. Cynlluniwyd tudalennau'r we gan Culturenet Cymru

  13. Dewis cynnwys a chlirio'r hawlfraint

  14. Cyngor Llyfrau Cymru a gafodd afael ar gopïau o'r llyfrau a rheoli clirio'r hawlfraint

Ynglŷn â Meddalwedd Llyfrgell Digidol Greenstone

Mae Greenstone yn becyn meddalwedd ar gyfer adeiladu a dosbarthu casgliadau llyfrgell ddigidol. Mae’n cynnig ffordd newydd o drefnu gwybodaeth a’i chyhoeddi ar y Rhyngrwyd neu ar CD-ROM. Cynhyrchir Greenstone gan Brosiect Llyfrgell Ddigidol Seland Newydd ym Mhrifysgol Waikato, a’i ddatblygu a’i ddosbarthu mewn cydweithrediad â UNESCO a’r Human Info NGO. Mae’n feddalwedd ffynhonnell agored, amlieithog, a ddosberthir o dan amodau Trwydded Gyhoeddus Cyffredinol GNU. Mwy ynglŷn â Greenstone http://www.greenstone.org/cgi-bin/library

Ynglŷn â Milan Associates

Sefydlwyd Milan Associates Ltd er mwyn cyflwyno meddalwedd o safon uchel a gwasanaethau i gwsmeriaid yn Ewrop, am brisiau rhad. Drwy ddefnyddio model busnes arloesol o'r enw "Glannau Deuol" gallwn gynnig gwerth uchel sy'n ein rhwymo'n agosach at fuddiannau'r cwsmeriaid, ac yn wahanol i gyflenwyr tramor, yn eu rhyddhau o'r angen i fasnachu tramor.

Mwy ynglŷn â Milan Associates http://www.milanassociates.com

Cyfeiriad: Milan Associates Limited, 327 West Barnes Lane, New Malden, Surrey. KT3 6JE. Y Deyrnas Unedig.

Ffôn: +44 208 255 6088, Ffacs: +44 208 286 2341

Datganiad hygyrchedd

 Cyngor Llyfrau Cymru  Lywodraeth Cynlliad Cymru  Cymru