Skip to end of metadata
Go to start of metadata

You are viewing an old version of this page. View the current version.

Compare with Current Restore this Version View Page History

« Previous Version 2 Next »

Това са няколко нахвърляни точки при обработка на книги. Ще се добавят разяснения за всяка стъпка със примери и варианти за да може всеки да стане възможно за по-голям кръг от хора:

 

  1. Страниците се снимат с фотоапарат или смартфон (какъвто и да е). Дори със слаба камера (1-2 Мегапиксела) качеството за разпознаване е много добро. Все пак се снима черно/бял текстов материал
  2. Най добре е да се снимата СТРАНИЦА по СТРАНИЦА. - Снимането по две, както е показано по-долу причинява прегъване и разваляне на хоризонталната подредба на редовете. Така че ако книгата не го позволява - нека да е една по една.
  3. Файловете/Снимките/PDF файла се добавят в FineReader 11 или 12 и се сканират (детайлни стъпки по-късно)
  4. Прави се бърз преглед дали няма разбити пасажи преди запомняне . Добре е да се поправят докато са още във FineReader-a, защото се сравнява лесно с оригинала
  5. Запомня се в DOC/DOCX формат  за да може да се обработи допълнително в MS Word
  6. Отварят се файла в Word и се проверява за объркани символи, тиренца при пренасяне на нов ред, замяна на 'й' с 'ѝ'

    объркани символи като § , | , « , Я , единично ц, единично н,  & ,   „   “

    и кратко - ( й ) се заменя с ударено и -  (ѝ)

    Добавят се някой от символите  (ако е нужно):

    а̀ ъ̀ о̀ у̀ ѐ ѝ ю̀ я̀

    А̀ Ъ̀ О̀ У̀ Ѐ Ѝ ю̀ Я̀
    И най-големия изврат – Й̀ ѝ̀, Й́, ѝ́!
    ударена кирилска буква се прави като в HTML кода се добавя след нея ́ за дясно ударение и ̀ за от ляво.

  7. Запомня се в WORD, и HTML формат, Ако се ползва Word2013 може и направо в PDF.
  8. PDF файла: 
    се обработва чрез ''Foxt Pdf Editor'' - като че ли има много голям набор от настройки, обработва текста, добавя обекти, преформатира и т.н  (преопъчвам ви го)
    чрез 'Foxit pdf editor' може да добави нова страница най отгоре и да се добави 'Снимка на Корицата'
    чрез http://smallpdf.com/compress-pdf може да се компресира онлайн, защото понякога снимките, ако има, може да са доста големи и надуват файла
  9. HTML файла се добавя в CALIBRE . Добавяне на doc/pdf за преобразуване в калибре не дава много добри резултати. Затова в чист хипертекс формат  (html)
  10. Преобразува се в .EPUB като се добавя снимка на корицата (по желание)
  11. От готовия epub се преобразува в mobi . Mobi е почти същото като epub, което е пък един вид опростен html формат
  12. И най-важното - споделя се с всички:
    качва се във фейсбук
    слага се в http://rulit.me
    слага се в http://libgen.in/Качва се на торент в data-bg.net и zamunda.net, arena.bg. или все някаде
  13. И най-най-най важното : Книгата да се  прочете - само в краен случай може да се разпострани без прочит .. защото все по-често така става ; )

 

  Неправилно снимани страници - с примери. Ако се снима с умисъл да се разпознава/отцифрова това трябва да се избягва:

 

1.Снимане под ъгъл, а не фронтално на страницата:

Отгоре е по-тясно отколкото в долната част на страницата - вижте зеления правоъгълник и вертикалните линии:

 

 

Понякога става, но често се разбърква форматирането на текста

 

 

 

             2. Когато се снимат две страници има прегъване, особено при книги над 200-300 страници

Това разпознаване отнема много време за поправка. Препоръчително е дори да се преснима отново

 

 

 

 

3. Ето и следващите страници н Юноша от Достоевски:

 

4. Понякога се разпознава много добре (99%, което си е перфектно), но снимката не съдържа цялата страница.

Т.е някой ред не е засниман изцяло. Примерно при снимане от много близо и текста излиза извън снимката

Това е симулация за да дам пример - когато снимката обхваща само зеленото разпознавателно пространство

 

Ето така би се разпознало от Програмата - Тя ще започне да налучква и да добавя най-логичните за нея символи:

 

5. Снимката не е на фокус, или DPI e много нисък (под 72 DPI). Сега стандарнос е снима с много по-висока резолюция.

 

В този случай на извън фокус, програмата не може да разпознае езика на книгата и става боза:

 

 

 

 

6. Когато е равно така би изглеждал правилно разпознат текст:

Почти без грешки:

7. Това е вече оформена страница, където се избира шрифта и големината:
 
Очаквайте още десетки примери и правила за правилно снимане, осъзнати от няколко години ''опит- грешка'' !!! 

И Запомнете най-важното:

''Преди да е било твоето любимо място - то е било място на което никога не си бил!

Преди да е станала твоята любима книги - тя е била случаен непрочетен файл в твоя компютър!"

 

* * *

0 Comments

You are not logged in. Any changes you make will be marked as anonymous. You may want to Log In if you already have an account.