Ычан — Наука

notebook-book.jpg - (48 KB, 700x466)

Гриша Перельман Ср 04 апреля 2012 23:34:32 №28045 [Ответ]

Здравствуй, кафедра. Хочу поинтересоваться у коллег: как вы организуете библиотечку на жёском диске и главное, чем читаете?
Например я читаю pdf при помощи PDF-X Change Viewer, выделяя цветом на страниах главную мысль дабы потом легче было воспринимать текст повторно. Как правило, есть распознанный текстовый слой, поэтому я передвигаюсь по документу припомощи поиска CTRL+F.
С чтением DJVU проблемы: в половине книг (качаю как правило с infanata.org) нет распознанного текстового слоя - так что про поиск забываем сразу, но также я не нашёл программ, которыми было бы можно поверх оргинала-картинки писать текст в OCR-слой, и даже делать пометки например рисуя полупрозрачные прямоугольники по оригиналу.
Что подскажите делать? Переводить всё в pdf распознаванием? Честно говоря, даже плохо представляю пока себе эту процедуру и чем именно она делается: вроде бы одна DJVU-шка распаковывается в немаленького размера папку с морем картинок-страниц, а затем чуть ли не самописными скриптами собирается в другой формат.
В общем, что делать с нераспознаными DJVU? Просто инструмента, позволяющего писать текст в OCR-слой поверх картинки-оригинала мне было бы достаточно - с полным распознаванием заморачиваться не хочу, всё равно для качественного результата нужна вычитка.

Гриша Перельман Ср 04 апреля 2012 23:42:00 №28046
The New Turning Omnibus.png - (59 KB, 307x436)

>>28045
Алсо, объясню свою щепитильность в выборе инструментов: приходится регулярно читать книги объёмом в среднем страниц 300-400, читаю я их параллельно, выделяя разные полезные для своей темы мысли дабы давать потом ссылки. Суммарно этих книжек у меня из разных областей - тысяч на 10-15 страниц. В общем, кто писал диссертацию, тому наверное знакома ситуация, когда помнишь, что где-то что-то на данную тему ты видел, но в упор не вспомнить, в какой книге.
Я думал даже ставить "Yandex desktop search" - впрочем, нераспознанные книги он проиндексировать всё равно не в состоянии.

>>	Гриша Перельман Чт 05 апреля 2012 02:52:44 №28047 >>28045 >djvu Ты можешь печатать их в pdf же.

>>	Гриша Перельман Чт 05 апреля 2012 04:45:09 №28048 PDF X-Change Viewer example.gif - (459 KB, 587x547) >>28047 Ок, я разобрадся с PDF X-Change Viewer, в нём оказывается есть всё что нужно. Чем мне перевести djvu=>pdf, желательно из консоли? (надеюсь, завтра вечером увидеть тут дискасс)

>>	Гриша Перельман Чт 05 апреля 2012 05:27:43 №28049 >>28048 Прочитал про печать из одного в другое. Это либо использование взломанных платных программ, либо какой-то ужасающий геморой с бесплатными. Простого решения нет?

>>	Гриша Перельман Чт 05 апреля 2012 10:55:55 №28050 А если с другой стороны подойти, может программы цитирования помогут? Скидывать туда ключевые слова, конечно, на первый взгляд геморнее, но если присноровиться получишь первичный уровень обработки по типу автореферата.

Гриша Перельман Чт 05 апреля 2012 11:33:33 №28051
PDF X-Change Viewer example 2.gif - (101 KB, 918x397)

>>28050
О, вот в этом месте по-подробнее.
Алсо, для печати нашёл бесплатный, без досадных ограничений функциональности и внедрения рекламы, принтер в PDF: doPDF.
Нераспознаные совсем книжки гораздо выгоднее перевести в аналогичный нераспознанный PDF и работать по ним X-Change (пикрелейтед).

Гриша Перельман Чт 05 апреля 2012 11:42:49 №28052

>>28050
А, кажется я понял. Это вроде полуавтоматического поисковика: указываешь путь к файлу и сам прописываешь ключевые слова? На безрыбье такой рак - вполне годная рыба.
Касаемо меня лично, у меня просто своя методика работы с литературой: я например строго против распознавания всей книги. Мне кажется, это задача интернет-издателей - делать полностью распознанные книги, вычитывать их на правильность полученного текста с тем, чтобы продать в полученном товарном виде.
ИМХО, когда работаешь с литературой для себя, переписать нераспознанный текст вручую - очень полезно для запоминания.
Также (см. >>28051) мне очень помогает запоминание страницы как картинки, я стараюсь делать их как можно более уникальными, тогда они просто ищутся "на вид" а логическое изложение книги "зацепляется" за последовательность картинок.