Основни стъпки при преобразуване на книги в дигитална форма

Всички етапи са налични като подточки отляво на страницата!

Ето някой нахвърляни точки при обработка на книги. Ще се добавят разяснения за всяка стъпка със примери и варианти за да може всеки да стане възможно за по-голям кръг от хора:

 

  1. Страниците се снимат с фотоапарат или смартфон (какъвто и да е). Дори със слаба камера (1-2 Мегапиксела) качеството за разпознаване е много добро. Все пак се снима черно/бял текстов материал
  2. Най добре е да се снимата СТРАНИЦА по СТРАНИЦА. - Снимането по две, както е показано по-долу причинява прегъване и разваляне на хоризонталната подредба на редовете. Така че ако книгата не го позволява - нека да е една по една.
  3. Файловете/Снимките/PDF файла се добавят в FineReader 11 или 12 и се сканират (детайлни стъпки по-късно)
  4. Прави се бърз преглед дали няма разбити пасажи преди запомняне . Добре е да се поправят докато са още във FineReader-a, защото се сравнява лесно с оригинала
  5. Запомня се в DOC/DOCX формат  за да може да се обработи допълнително в MS Word
  6. Отварят се файла в Word и се проверява за объркани символи, тиренца при пренасяне на нов ред, замяна на 'й' с 'ѝ'

    объркани символи като § , | , « , Я , единично ц, единично н,  & ,   „   “

    и кратко - ( й ) се заменя с ударено и -  (ѝ)

    Добавят се някой от символите  (ако е нужно):

    а̀ ъ̀ о̀ у̀ ѐ ѝ ю̀ я̀

    А̀ Ъ̀ О̀ У̀ Ѐ Ѝ ю̀ Я̀
    И най-големия изврат – Й̀ ѝ̀, Й́, ѝ́!
    ударена кирилска буква се прави като в HTML кода се добавя след нея ́ за дясно ударение и ̀ за от ляво.

  7. Запомня се в WORD, и HTML формат, Ако се ползва Word2013 може и направо в PDF.
  8. PDF файла: 
    се обработва чрез ''Foxt Pdf Editor'' - като че ли има много голям набор от настройки, обработва текста, добавя обекти, преформатира и т.н  (преопъчвам ви го)
    чрез 'Foxit pdf editor' може да добави нова страница най отгоре и да се добави 'Снимка на Корицата'
    чрез http://smallpdf.com/compress-pdf може да се компресира онлайн, защото понякога снимките, ако има, може да са доста големи и надуват файла
  9. HTML файла се добавя в CALIBRE . Добавяне на doc/pdf за преобразуване в калибре не дава много добри резултати. Затова в чист хипертекс формат  (html)
  10. Преобразува се в .EPUB като се добавя снимка на корицата (по желание)
  11. От готовия epub се преобразува в mobi . Mobi е почти същото като epub, което е пък един вид опростен html формат
  12. И най-важното - споделя се с всички:
    качва се във фейсбук
    слага се в http://rulit.me
    слага се в http://libgen.in/Качва се на торент в data-bg.net и zamunda.net, arena.bg. или все някаде
  13. И най-най-най важното : Книгата да се  прочете - само в краен случай може да се разпострани без прочит .. защото все по-често така става ; )

ВРЕМЕТРАЕНЕТО за Извършване на работата е ТАКОВА:

1.Снимане полека лека 1-2 часа

2.Слагане в компютъра 20-30мин средно

3.Зареждане в FineRade и автоматична OCR обработка - зависи от Процесора .. от 5 мин до 30 мин за книга (300-400 стр)

4. Попаравка на грешките от разпознаването - ЧАСОВЕ - (от 1 час до 10-20+ часа) Зависи от самите снимки, ако са справилно  разпознати един бърз преглед по 10сек на страница стигат.

5.Обработка в Word (подравняване, шрифт, Съдържание, слагане на снимка), запомняне в DOC, PDF и HTML - ( от минути до 2-3 часа). Зависи от снимките...

6. Слагане на HTML формата в Calibre и преобразуване в EPUB, MOBI - 10-20 мин

7. Качване във фейсбук/страница/торент с описание - (10-30 мин)

 

  Неправилно снимани страници - с примери. Ако се снима с умисъл да се разпознава/отцифрова това трябва да се избягва:

 

1.Снимане под ъгъл, а не фронтално на страницата:

Отгоре е по-тясно отколкото в долната част на страницата - вижте зеления правоъгълник и вертикалните линии:

 

 

Понякога става, но често се разбърква форматирането на текста. Tова се оправя после в Word, но стайлинга се запомня и текста се подравнява като трапецоид .... Поправката забавя работата, ако е така на повече страници. Това не е за умирачка, като има много по-некачествени неща, както ще видите в следващите точки:

 

 

 

             2. Когато се снимат две страници има прегъване, особено при книги над 200-300 страници. Това обърква МНОГО разпознаването. За по дебели книги трябва или да се снимат добре разтворени или наполовина разтворени с наклонен фотоапарат/телефон (изморително)

Това разпознаване отнема много време за поправка. Поправката на страницата долу е равна на 20-30 и повече прегледани добре снимани страници. Затова е много времеспестяваща правилната снимка. Тройно-Четворно се забавя работата в тези случаи ... Препоръчително е дори да се преснима отново (Вместо да се набира текста дума по дума!!!)

 

 

 

 

3. Ето и следващите страници н Юноша от Достоевски:

 

4. Понякога се разпознава много добре (99%, което си е перфектно), но снимката не съдържа цялата страница.

Т.е някой ред не е засниман изцяло. Примерно при снимане от много близо и текста излиза извън снимката

Това е симулация за да дам пример - когато снимката не обхваща целия текст (все едно е само зеленото пространство)

 

Ето така би се разпознало от Програмата - Тя ще започне да налучква и да добавя най-логичните за нея символи:

 

5. Снимката не е на фокус, или DPI e много нисък (под 72 DPI). Сега стандартните телефони и джаджи снимат с много по-висока резолюция и това не нещо за което трябва да мислим. Но допреди 4-5-7 години си имаше нужда от скенер!

 

В този случай на извън фокус, програмата не може да разпознае езика на книгата ДОРИ и става боза:

 

 

 

 

6. Когато е равно така би изглеждал правилно разпознат текст:

Ако е възможно така трябва да се снима! Дори и от по-далеч и да се хваща масата/бюрото няма да има проблем!

Почти без грешки - няма какво да му се прави на текста и се прелиства за секунди. Това е 1 страница за 5-10 секунди.

Представете си колко би било лесно, ако всички са така. Текста ще е готов за 1-2 часа и ще е нужно само оформяне/подравняване, слагане на Съдържание (с линкове към главите) и последващо конвертиране!

7. Това е вече оформена страница, където се избира шрифта и големината:

Имаше запитване в групата, и повечето от вас предпочитат Verdana 16  (по-големичък sans serif).

Размера има значение само при PDF и DOC. За мобилните формати шрифта се самонагажда по желание  ...

 

 

 
Очаквайте още десетки примери и правила за правилно снимане, постигнати от няколко години ''опит- грешка'' !!! 

И Запомнете най-важното:

''Преди да е било твоето любимо място - то е било място на което никога не си бил!

Преди да е станала твоята любима книги - тя е била случаен непрочетен файл в твоя компютър!"

 

* * *