Skip to end of metadata
Go to start of metadata

You are viewing an old version of this page. View the current version.

Compare with Current Restore this Version View Page History

« Previous Version 4 Current »

Това са няколко нахвърляни точки при обработка на книги. Ще се добавят разяснения за всяка стъпка със примери и варианти за да може всеки да стане възможно за по-голям кръг от хора:

 

  1. Страниците се снимат с фотоапарат или смартфон (какъвто и да е). Дори със слаба камера (1-2 Мегапиксела) качеството за разпознаване е много добро. Все пак се снима черно/бял текстов материал
  2. Най добре е да се снимата СТРАНИЦА по СТРАНИЦА. - Снимането по две, както е показано по-долу причинява прегъване и разваляне на хоризонталната подредба на редовете. Така че ако книгата не го позволява - нека да е една по една.
  3. Файловете/Снимките/PDF файла се добавят в FineReader 11 или 12 и се сканират (детайлни стъпки по-късно)
  4. Прави се бърз преглед дали няма разбити пасажи преди запомняне . Добре е да се поправят докато са още във FineReader-a, защото се сравнява лесно с оригинала
  5. Запомня се в DOC/DOCX формат  за да може да се обработи допълнително в MS Word
  6. Отварят се файла в Word и се проверява за объркани символи, тиренца при пренасяне на нов ред, замяна на 'й' с 'ѝ'

    объркани символи като § , | , « , Я , единично ц, единично н,  & ,   „   “

    и кратко - ( й ) се заменя с ударено и -  (ѝ)

    Добавят се някой от символите  (ако е нужно):

    а̀ ъ̀ о̀ у̀ ѐ ѝ ю̀ я̀

    А̀ Ъ̀ О̀ У̀ Ѐ Ѝ ю̀ Я̀
    И най-големия изврат – Й̀ ѝ̀, Й́, ѝ́!
    ударена кирилска буква се прави като в HTML кода се добавя след нея ́ за дясно ударение и ̀ за от ляво.

  7. Запомня се в WORD, и HTML формат, Ако се ползва Word2013 може и направо в PDF.
  8. PDF файла: 
    се обработва чрез ''Foxt Pdf Editor'' - като че ли има много голям набор от настройки, обработва текста, добавя обекти, преформатира и т.н  (преопъчвам ви го)
    чрез 'Foxit pdf editor' може да добави нова страница най отгоре и да се добави 'Снимка на Корицата'
    чрез http://smallpdf.com/compress-pdf може да се компресира онлайн, защото понякога снимките, ако има, може да са доста големи и надуват файла
  9. HTML файла се добавя в CALIBRE . Добавяне на doc/pdf за преобразуване в калибре не дава много добри резултати. Затова в чист хипертекс формат  (html)
  10. Преобразува се в .EPUB като се добавя снимка на корицата (по желание)
  11. От готовия epub се преобразува в mobi . Mobi е почти същото като epub, което е пък един вид опростен html формат
  12. И най-важното - споделя се с всички:
    качва се във фейсбук
    слага се в http://rulit.me
    слага се в http://libgen.in/Качва се на торент в data-bg.net и zamunda.net, arena.bg. или все някаде
  13. И най-най-най важното : Книгата да се  прочете - само в краен случай може да се разпострани без прочит .. защото все по-често така става ; )

ВРЕМЕТРАЕНЕТО за Извършване на работата е ТАКОВА:

1.Снимане полека лека 1-2 часа

2.Слагане в компютъра 20-30мин средно

3.Зареждане в FineRade и автоматична OCR обработка - зависи от Процесора .. от 5 мин до 30 мин за книга (300-400 стр)

4. Попаравка на грешките от разпознаването - ЧАСОВЕ - (от 1 час до 10-20+ часа) Зависи от самите снимки, ако са справилно  разпознати един бърз преглед по 10сек на страница стигат.

5.Обработка в Word (подравняване, шрифт, Съдържание, слагане на снимка), запомняне в DOC, PDF и HTML - ( от минути до 2-3 часа). Зависи от снимките...

6. Слагане на HTML формата в Calibre и преобразуване в EPUB, MOBI - 10-20 мин

7. Качване във фейсбук/страница/торент с описание - (10-30 мин)

 

  Неправилно снимани страници - с примери. Ако се снима с умисъл да се разпознава/отцифрова това трябва да се избягва:

 

1.Снимане под ъгъл, а не фронтално на страницата:

Отгоре е по-тясно отколкото в долната част на страницата - вижте зеления правоъгълник и вертикалните линии:

 

 

Понякога става, но често се разбърква форматирането на текста. Tова се оправя после в Word, но стайлинга се запомня и текста се подравнява като трапецоид .... Поправката забавя работата, ако е така на повече страници. Това не е за умирачка, като има много по-некачествени неща, както ще видите в следващите точки:

 

 

 

             2. Когато се снимат две страници има прегъване, особено при книги над 200-300 страници. Това обърква МНОГО разпознаването. За по дебели книги трябва или да се снимат добре разтворени или наполовина разтворени с наклонен фотоапарат/телефон (изморително)

Това разпознаване отнема много време за поправка. Поправката на страницата долу е равна на 20-30 и повече прегледани добре снимани страници. Затова е много времеспестяваща правилната снимка. Тройно-Четворно се забавя работата в тези случаи ... Препоръчително е дори да се преснима отново (Вместо да се набира текста дума по дума!!!)

 

 

 

 

3. Ето и следващите страници н Юноша от Достоевски:

 

4. Понякога се разпознава много добре (99%, което си е перфектно), но снимката не съдържа цялата страница.

Т.е някой ред не е засниман изцяло. Примерно при снимане от много близо и текста излиза извън снимката

Това е симулация за да дам пример - когато снимката не обхваща целия текст (все едно е само зеленото пространство)

 

Ето така би се разпознало от Програмата - Тя ще започне да налучква и да добавя най-логичните за нея символи:

 

5. Снимката не е на фокус, или DPI e много нисък (под 72 DPI). Сега стандартните телефони и джаджи снимат с много по-висока резолюция и това не нещо за което трябва да мислим. Но допреди 4-5-7 години си имаше нужда от скенер!

 

В този случай на извън фокус, програмата не може да разпознае езика на книгата ДОРИ и става боза:

 

 

 

 

6. Когато е равно така би изглеждал правилно разпознат текст:

Ако е възможно така трябва да се снима! Дори и от по-далеч и да се хваща масата/бюрото няма да има проблем!

Почти без грешки - няма какво да му се прави на текста и се прелиства за секунди. Това е 1 страница за 5-10 секунди.

Представете си колко би било лесно, ако всички са така. Текста ще е готов за 1-2 часа и ще е нужно само оформяне/подравняване, слагане на Съдържание (с линкове към главите) и последващо конвертиране!

7. Това е вече оформена страница, където се избира шрифта и големината:

Имаше запитване в групата, и повечето от вас предпочитат Verdana 16  (по-големичък sans serif).

Размера има значение само при PDF и DOC. За мобилните формати шрифта се самонагажда по желание  ...

 

 

 
Очаквайте още десетки примери и правила за правилно снимане, постигнати от няколко години ''опит- грешка'' !!! 

И Запомнете най-важното:

''Преди да е било твоето любимо място - то е било място на което никога не си бил!

Преди да е станала твоята любима книги - тя е била случаен непрочетен файл в твоя компютър!"

 

* * *