{"id":259,"date":"2019-07-10T00:34:52","date_gmt":"2019-07-09T22:34:52","guid":{"rendered":"http:\/\/scriptores.pl\/efontes\/?p=259"},"modified":"2019-07-10T01:13:53","modified_gmt":"2019-07-09T23:13:53","slug":"tworzenie-korpusu-od-obrazu-do-tekstu-1","status":"publish","type":"post","link":"https:\/\/scriptores.pl\/efontes\/tworzenie-korpusu-od-obrazu-do-tekstu-1\/","title":{"rendered":"[:pl]Tworzenie korpusu: od obrazu do tekstu 1[:]"},"content":{"rendered":"<p>[:pl]<\/p>\n<blockquote><p>W cyklu kr\u00f3tkich wpis\u00f3w chcieliby\u015bmy przybli\u017cy\u0107 techniczn\u0105 stron\u0119 przygotowywania naszego korpusu. Nam samym informacje tu zgromadzone pos\u0142u\u017c\u0105 dokumentacji projektu, ale mamy nadziej\u0119, \u017ce\u00a0 przydadz\u0105 si\u0119 i pocz\u0105tkuj\u0105cym, a nieco bardziej do\u015bwiadczonych sk\u0142oni\u0105 do dyskusji. Wszystkich zainteresowanych zach\u0119camy do <a href=\"https:\/\/scriptores.pl\/efontes\/kontakt\/\">kontaktu<\/a>.<\/p><\/blockquote>\n<p>Punktem wyj\u015bcia tworzenia korpusu jest, oczywi\u015bcie, drobiazgowe planowanie. Gdy zdecydujemy ju\u017c, jakie teksty chcieliby\u015bmy do\u0144 w\u0142\u0105czy\u0107, pozostaje nam przetworzy\u0107 zeskanowane \u017ar\u00f3d\u0142o do tekstu, kt\u00f3ry mo\u017ce sta\u0107 si\u0119 podstaw\u0105 dalszej obr\u00f3bki.<\/p>\n<h3>Sk\u0105d pozyskujemy obrazy \u017ar\u00f3de\u0142?<\/h3>\n<p>W naszym projekcie pozyskujemy obrazy przede wszystkim z polskich bibliotek cyfrowych. Gdy interesuj\u0105cego nas \u017ar\u00f3d\u0142a w nich brak, skanujemy je samodzielnie.<\/p>\n<p>Polskie biblioteki cyfrowe naj\u0142atwiej przeszukiwa\u0107, korzystaj\u0105c z <a href=\"https:\/\/fbc.pionier.net.pl\/\">Wyszukiwarki FBC<\/a>, ale dla polskich \u017ar\u00f3de\u0142 w zagranicznych bibliotekach przydatna jest r\u00f3wnie\u017c <a href=\"https:\/\/www.europeana.eu\/portal\/pl\">Europeana<\/a>. Du\u017co rzadziej korzystamy z archive.org czy Google Books: dost\u0119pne w nich pliki nie zawsze nadaj\u0105 si\u0119 do p\u00f3\u017aniejszej obr\u00f3bki. I nie, nie chodzi tylko <a href=\"https:\/\/theartofgooglebooks.tumblr.com\/\">o s\u0142awetne artefakty<\/a>&#8230;<\/p>\n<p><img decoding=\"async\" class=\"alignnone wp-image-264\" src=\"https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/error3-300x233.png\" alt=\"\" width=\"193\" height=\"150\" \/><img decoding=\"async\" class=\"alignnone wp-image-262\" src=\"https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/error1-239x300.gif\" alt=\"\" width=\"119\" height=\"150\" \/><img decoding=\"async\" class=\"alignnone wp-image-263\" src=\"https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/error2-300x168.png\" alt=\"\" width=\"268\" height=\"150\" srcset=\"https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/error2-300x168.png 300w, https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/error2.png 500w\" sizes=\"(max-width: 268px) 100vw, 268px\" \/><\/p>\n<h3>Co dalej ze skanami?<\/h3>\n<h4>1. Od PDF\/DJVU do TIFF<\/h4>\n<p>Konwersj\u0119 do plik\u00f3w graficznych *.tiff zapewniaj\u0105 Uniksowe narz\u0119dzia:<\/p>\n<ul>\n<li>z PDF obrazy stron wydobywamy za pomoc\u0105 <a href=\"https:\/\/linux.die.net\/man\/1\/pdfimages\"><em>pdfimages<\/em><\/a><\/li>\n<li>DJVU konwertujemy do grafiki komend\u0105 <a href=\"https:\/\/djvu.sourceforge.net\/doc\/man\/ddjvu.html\">ddjvu<\/a>.<\/li>\n<\/ul>\n<h4>2. Optymalizacja obraz\u00f3w<\/h4>\n<p>Cho\u0107 programy OCR zawieraj\u0105 ju\u017c cz\u0119sto narz\u0119dzia optymalizacji obraz\u00f3w, a i istniej\u0105 r\u00f3wnie\u017c u\u017cyteczne s\u0142u\u017c\u0105ce temu skrypty, w naszej pracy u\u017cywamy <a href=\"https:\/\/scantailor.org\/\"><em>ScanTailora<\/em><\/a>. Program uruchamiamy w linii polece\u0144, jednak ma on i ca\u0142kiem intuicyjny interfejs, dzi\u0119ki czemu nawet mniej do\u015bwiadczeni u\u017cytkownicy nie b\u0119d\u0105 mieli problem\u00f3w z jego u\u017cywaniem.<\/p>\n<figure id=\"attachment_268\" aria-describedby=\"caption-attachment-268\" style=\"width: 300px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium wp-image-268\" src=\"https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/ScanTailor-300x159.png\" alt=\"Okno ScanTailora: dzielenie stron\" width=\"300\" height=\"159\" srcset=\"https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/ScanTailor-300x159.png 300w, https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/ScanTailor-768x406.png 768w, https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/ScanTailor.png 934w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><figcaption id=\"caption-attachment-268\" class=\"wp-caption-text\">Okno ScanTailora: dzielenie stron<\/figcaption><\/figure>\n<figure id=\"attachment_267\" aria-describedby=\"caption-attachment-267\" style=\"width: 300px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium wp-image-267\" src=\"https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/optymalizacja_wyrownanie-300x216.png\" alt=\"\" width=\"300\" height=\"216\" srcset=\"https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/optymalizacja_wyrownanie-300x216.png 300w, https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/optymalizacja_wyrownanie-768x552.png 768w, https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/optymalizacja_wyrownanie-1024x736.png 1024w, https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/optymalizacja_wyrownanie.png 1345w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><figcaption id=\"caption-attachment-267\" class=\"wp-caption-text\">ScanTailor: poprawianie orientacji<\/figcaption><\/figure>\n<figure id=\"attachment_266\" aria-describedby=\"caption-attachment-266\" style=\"width: 203px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium wp-image-266\" src=\"https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/optymalizacja_wybor-203x300.png\" alt=\"\" width=\"203\" height=\"300\" srcset=\"https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/optymalizacja_wybor-203x300.png 203w, https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/optymalizacja_wybor.png 620w\" sizes=\"(max-width: 203px) 100vw, 203px\" \/><figcaption id=\"caption-attachment-266\" class=\"wp-caption-text\">ScanTailor: wyb\u00f3r marginesu<\/figcaption><\/figure>\n<h4>3. Od obrazu do tekstu<\/h4>\n<p>W poprzednich latach wykorzystywali\u015bmy do rozpoznawania tekstu najpopularniejszego komercyjnego programu, tj. Abbyy FineReader. W nowej edycji postanowili\u015bmy wykorzystywa\u0107 wy\u0142\u0105cznie darmowe oprogramowanie, kt\u00f3re jednak dor\u00f3wnuje jako\u015bci\u0105, a cz\u0119sto i przewy\u017csza rozwi\u0105zania p\u0142atne. Nasz wyb\u00f3r (o jego powodach b\u0119dzie jeszcze okazja napisa\u0107) pad\u0142 na <a href=\"https:\/\/en.wikipedia.org\/wiki\/Tesseract_(software)\">Tesseract<\/a>, wspierany przez Google i wykorzystuj\u0105cy algorytmy g\u0142\u0119bokiego uczenia. <em>Tesseract<\/em> mo\u017cecie, oczywi\u015bcie, wytrenowa\u0107 sami, jednak z repozytori\u00f3w Linuksa i ze strony projektu pobra\u0107 mo\u017cecie <a href=\"https:\/\/github.com\/tesseract-ocr\/tesseract\/wiki\">gotowe do u\u017cycia dane dla ponad 130 j\u0119zyk\u00f3w i 35 rodzaj\u00f3w pisma<\/a>.<\/p>\n<p>Dla nas, jak mo\u017cna si\u0119 domy\u015bli\u0107, najwa\u017cniejsza jest obs\u0142uga:<\/p>\n<ul>\n<li>j\u0119zyk\u00f3w: \u0142aciny, polskiego, niemieckiego oraz<\/li>\n<li>pisma: <a href=\"https:\/\/pl.wikipedia.org\/wiki\/Fraktura_(kr%C3%B3j_pisma)\">tzw. fraktury.<\/a><\/li>\n<\/ul>\n<p>Co najwa\u017cniejsze, <em>tesseract<\/em> wcale nie\u017ale radzi sobie z tekstem wieloj\u0119zycznym, a tego w naszych \u017ar\u00f3d\u0142ach nie brakuje:<\/p>\n<figure id=\"attachment_270\" aria-describedby=\"caption-attachment-270\" style=\"width: 379px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-270 aligncenter\" title=\"Preussisches Urkundenbuch t. II: regest zapisany po niemiecku fraktur\u0105, tekst po \u0142acinie zapisany antykw\u0105\" src=\"https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/tess2-300x138.jpg\" alt=\"Preussisches Urkundenbuch t. II: regest zapisany po niemiecku fraktur\u0105, tekst po \u0142acinie zapisany antykw\u0105\" width=\"379\" height=\"174\" srcset=\"https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/tess2-300x138.jpg 300w, https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/tess2-768x354.jpg 768w, https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/tess2.jpg 800w\" sizes=\"(max-width: 379px) 100vw, 379px\" \/><figcaption id=\"caption-attachment-270\" class=\"wp-caption-text\"><a href=\"https:\/\/kpbc.umk.pl\/dlibra\/publication\/14081\">Pommersches Urkundenbuch t. II 1<\/a>: regest zapisany po niemiecku fraktur\u0105, tekst po \u0142acinie zapisany antykw\u0105<\/figcaption><\/figure>\n<figure id=\"attachment_271\" aria-describedby=\"caption-attachment-271\" style=\"width: 278px\" class=\"wp-caption alignright\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-271 aligncenter\" title=\"Akta grodzkie i ziemskie, t. 9: regest zapisany po polsku, tekst zapisany po \u0142acinie\" src=\"https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/tess1-300x193.jpg\" alt=\"Akta grodzkie i ziemskie, t. 9: regest zapisany po polsku, tekst zapisany po \u0142acinie\" width=\"278\" height=\"179\" srcset=\"https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/tess1-300x193.jpg 300w, https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/tess1-768x494.jpg 768w, https:\/\/scriptores.pl\/efontes\/wp-content\/uploads\/sites\/8\/2019\/07\/tess1.jpg 800w\" sizes=\"(max-width: 278px) 100vw, 278px\" \/><figcaption id=\"caption-attachment-271\" class=\"wp-caption-text\"><a href=\"https:\/\/www.wbc.poznan.pl\/dlibra\/docmetadata?id=61602\">Akta grodzkie i ziemskie, t. 9<\/a>: regest zapisany po polsku, tekst zapisany po \u0142acinie<\/figcaption><\/figure>\n<p>&nbsp;<\/p>\n<p>&nbsp;<\/p>\n<p>&nbsp;<\/p>\n<p>&nbsp;<\/p>\n<p>&nbsp;<\/p>\n<p>&nbsp;<\/p>\n<p>&nbsp;<\/p>\n<p>Rozpoznany tekst zapisujemy w dw\u00f3ch formatach: powszechnie znanym TXT oraz <a href=\"https:\/\/en.wikipedia.org\/wiki\/HOCR\">hOCR<\/a>, kt\u00f3ry przechowuje r\u00f3wnie\u017c informacj\u0119\u00a0 o rozpoznanych przez program do OCR blokach tekstu, po\u0142o\u017ceniu tekstu na stronie itd. Dlaczego te informacje s\u0105 dla nas istotne? O tym &#8230;<\/p>\n<h3>&#8230; w kolejnym odcinku naszego cyklu<\/h3>\n<ul>\n<li>hOCR, PAGE XML i inne stworzenia<\/li>\n<li>co to PoCoTo i po co to?<\/li>\n<li>jak przepisywa\u0107 z Transkribusem<\/li>\n<\/ul>\n<p>&nbsp;[:]<\/p>\n","protected":false},"excerpt":{"rendered":"<p>[:pl] W cyklu kr\u00f3tkich wpis\u00f3w chcieliby\u015bmy przybli\u017cy\u0107 techniczn\u0105 stron\u0119 przygotowywania naszego korpusu. Nam samym informacje tu zgromadzone pos\u0142u\u017c\u0105 dokumentacji projektu, ale mamy nadziej\u0119, \u017ce\u00a0 przydadz\u0105 si\u0119 i pocz\u0105tkuj\u0105cym, a nieco bardziej do\u015bwiadczonych sk\u0142oni\u0105 do dyskusji. Wszystkich zainteresowanych zach\u0119camy do kontaktu. Punktem wyj\u015bcia tworzenia korpusu jest, oczywi\u015bcie, drobiazgowe planowanie. Gdy zdecydujemy ju\u017c, jakie teksty chcieliby\u015bmy do\u0144 [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":264,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[10],"tags":[9],"class_list":["post-259","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-dokumentacja","tag-jak-to-robimy"],"blocksy_meta":[],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/scriptores.pl\/efontes\/wp-json\/wp\/v2\/posts\/259","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/scriptores.pl\/efontes\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/scriptores.pl\/efontes\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/scriptores.pl\/efontes\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/scriptores.pl\/efontes\/wp-json\/wp\/v2\/comments?post=259"}],"version-history":[{"count":0,"href":"https:\/\/scriptores.pl\/efontes\/wp-json\/wp\/v2\/posts\/259\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/scriptores.pl\/efontes\/wp-json\/wp\/v2\/media\/264"}],"wp:attachment":[{"href":"https:\/\/scriptores.pl\/efontes\/wp-json\/wp\/v2\/media?parent=259"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/scriptores.pl\/efontes\/wp-json\/wp\/v2\/categories?post=259"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/scriptores.pl\/efontes\/wp-json\/wp\/v2\/tags?post=259"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}