3.2 Робота з файлами інших форматів, що можуть містити текст
PDF (Portable Document Format) - це формат електронних документів, розроблений компанією Adobe Systems, пере- носимий формат документів, створений як засіб міжплатформе- ного обміну даними. У першу чергу, він призначений для представлення в електронному вигляді поліграфічної продукції; переважна частина сучасного професійного друкарського устаткування може обробляти PDF безпосередньо.
Формат не накладає ніяких обмежень на зовнішній вигляд документа. Документ у форматі pdf може містити текст, векторну і растрову графіку, шрифти, графіку, мультимедійні елементи, об'єднані довільно, що гарантує правильне відображення незалежно від операційної системи програмного забезпечення і призначених для користувача настройок конкретного комп'ютера. Саме ця властивість - зберігати початковий вигляд - і робить його привабливим. Необхідність швидкого переміщення по сторінках і об' єктах документа зумовила ієрархічну структуру даних PDF. На початку файла знаходиться зміст, що показує де і які об'єкти у ньому розташовані, потім йдуть самі дані. Будь-які дії можливі за наявності всього PDF-файла, оскільки фрагмент даних, який знадобиться першим, може знаходитися в будь-якій його частині, у тому числі й у самому кінці файла. Для документів з явним переважанням тексту і векторної графіки формат PDF, як правило, забезпечує помітне скорочення об'єму файла (з відповідним скороченням часу пересилки по мережі і т. д.).
Для читання документів використовують як безкоштовну програму Adobe Acrobat Reader, так і сторонні розробки. Зазвичай програми перегляду розповсюджуються безкоштовно, а програми, що дозволяють не тільки переглядати, а й редагувати pdf- файли - на комерційній основі.
Формат PDF має наступні переваги:
- кросплатформеність: документ містить необхідні для правильного відображення елементи і виглядає однаково на будь-якій платформі й при будь-якому застосуванні. Кросплат- форменість формату створює зручні умови для організації електронного документообігу;
- компактність: різні алгоритми компресії (архівації) дозволяють ефективно стискати як текст, так і графіку;
- інтерактивність: у pdf-файлі можна використовувати мультимедіа (відео-, аудіоролики), гіперпосилання, форми, дані з яких зберігаються в зовнішніх базах даних;
- безпеку: формат підтримує багаторівневий механізм захисту й перевірки достовірності. Є можливість встановити пароль на перегляд/редагування, створити електронний підпис для ідентифікації автора.
Недоліки у формату також є. PDF охоплює безліч стандартів, що не дозволяє ефективно використовувати його в конкретних цілях. Наприклад, формат можна використовувати для створення сторінок або сайтів веб-сервером, але html справляється з цим завданням краще. PDF зберігає точну візуальну копію документа, але не його логічну структуру. Як наслідок, PDF достатньо складно редагувати.
Інші програми для роботи з PDF в Microsoft Windows
- Microsoft Office 2007 - у пакет оновлень SP2 вбудована функція експорту будь-яких документів у PDF, тобто перетворення pdf-файлів у doc не вимагає використання додаткових програм.
- Foxit Reader - умовно-безкоштовна програма для перегляду PDF-файлів у Microsoft Windows. Ємність програми складає 3,5 Мб, установки не вимагає.
- Sumatra PDF - вільна (GPLv2) програма для перегляду PDF-файлів у Microsoft Windows.
- ABBYY PDF Transformer - власна програма під Windows NT від 5.0 для створення і перетворення PDF-файлів з будь-якого офісного застосування і перетворення PDF-файлів в документи редагованих форматів (Microsoft Word, RTF і ін.).
- PDFCreator вільна програма для створення файлів PDF. Може використовуватися з будь-яким додатком Microsoft Windows, що має можливість друку документів.
- Scientific and technical documentation utility (STDU) Viewer - безкоштовна для некомерційного використання програма для читання PDF і DJVU файлів, Converter - платна програма для перетворення формату DJVU в PDF.
Онлайнові ■ Scribd
Формат DjVu (від фр. deja vu - вже бачене) графічний формат, розроблений фірмою AT&T, оптимізований для зберігання відсканованих документів. Існує два традиційні способи зберігання відсканованої книги: розпізнавання (OCR) з подальшою підготовкою повноцінного текстового електронного документа або скани - відскановані картинки, часто зібрані в pdf- документ. У першому випадку потрібно багато копіткої роботи, в другому - виходять файли обсягом у десятки і навіть сотні мегабайт. Компромісний варіант - це переклад відсканованих картинок у формат DjVu. При цьому текст і контрастні малюнки зберігаються із здатністю 300dpi, все решта вважається фоном і зберігається із зниженим дозволом. Це дозволяє стиснути електронний документ без втрати можливості його прочитання. Суть технології DjVu полягає в автоматичному діленні зображення на декілька ділянок (наприклад, текст, логотип фірми і растрова фотографія), для кожного з яких вибирається оптимальний для даного графічного образу алгоритм стиснення. Технологія DjVu забезпечує для файлів з чорно-білими монохромними зображеннями стиснення порядку 500:1. Виграш у обсяг і файла в порівнянні з форматом GIF складає в середньому 20 разів. У DjVu обсяг файла відсканованої книги можна одержати в межах декількох мегабайт, що цілком прийнятно. Особливого значення цей формат набуває для перенесення в мережу технічної, зокрема математичної літератури, де велику кількість схем і формул робить розпізнавання і переклад у текстовий формат практично нездійсненним. Він також ефективний у випадках, коли необхідно передати всі нюанси оформлення, наприклад, історичних документів, де важливе значення має не тільки зміст, а й колір і фактура паперу, дефекти пергаменту (тріщини, сліди від складання), виправлення, плями, відбитки пальців; сліди, залишені іншими предметами.
Формат DjVu стає фактичним стандартом для електронних бібліотек технічної і наукової літератури.
Величезна кількість книг у цьому форматі доступна в
файлообмінних мережах.
Формат оптимізований для передачі по мережі таким чином, що сторінку можна проглядати ще до завершення скачування. DjVu-файл може містити текстовий (OCR) шар, що дозволяє здійснювати повнотекстовий пошук по файлу. Крім того, DjVu- файл може містити вбудований інтерактивний зміст і активні ділянки посилання, що робить зручною навігацію в DjVu-книгах.
Програми для роботи з форматом DjVu
- DjVu Browser plugin 6.1 - розроблений фірмою LizardTech, вільно поширюваний плагин для проглядання файлів формату djvu. Після установки DjVu файли відкриваються у вікні браузера (підійде майже будь-який - IE, Firefox, Safari).
- DjVu Solo 3.1 - програма для створення DjVu - файлів. У DjVu можна перетворити графічні файли більшості популярних форматів (bmp, gif, jpeg, tiff і ін.) або безпосередньо отримати картинку зі сканера. Останнє не дуже зручно, оскільки відсутні навіть прості засоби роботи з графікою, що дозволяють, наприклад, обрізати чорні краї відсканованої картинки, повернути її тощо.
- STDU Viewer ver 1.2 - нова програма для проглядання документів у djvu-, pdf- і tiff- форматах. Може служити не тільки для читання djvu, але і як компактна заміна Acrobat reader^.
- WinDjView-0.4.3 - зручна невелика програма для проглядання djvu-файлів.
- DjVuReader v. 2.0.0.26 - зручна програма для проглядання DjVu.
- DjVu Fancy Viewer - програма-переглядач. Дозволяє створювати закладки в Dj Vu-документі і зберігати їх усередині djvu-файла. Може показувати здвоєні розвороти, красиво перегортає сторінки.
- Any2djvu - веб-сервер-сервіс, що здійснює перетворення практично будь-якого графічного формату в DjVu. Особливо корисне перетворення в DjVu форматів pdf, ps і ps.gz. Документи для перетворення можна не тільки закачувати з власного комп'ютера, а й указувати url документа, що цікавить вас, у мережі.
CHM (Compiled HTML) - спочатку формат CHM був створений для формування зручної і функціональної довідкової системи до програм Windows. Цей формат часто використовується не тільки для створення хелп-систем до ПО, а й для видання книг в електронному вигляді. Найсильнішою стороною цього формату є наявність у CHM-файлах повнотекстового пошуку. Коротко файл CHM - це набір скомпільованих HTML-файлів, іншими словами, щось подібне до архіву з веб-сторінок. Діє CHM-файл за принципом архіву, стискає дані, що зберігаються в ньому, проте не всі, а тільки текстові або такі, що містять текст, відформатований за допомогою тегів HTML (HTML, TXT, CSS і файли інших форматів). Для читання файлів формату CHM використовуються програми CHMReader , FBReader та ін.
fb2 (FictionBook) - формат представлення електронних версій книг у вигляді XML-документів, де кожен елемент книги описується своїми тегами. Стандарт покликаний забезпечити сумісність з будь-якими пристроями і форматами. XML дозволяє легко створювати документи, готові до безпосереднього використання і програмної обробки (конвертації, зберігання, управління) у будь-якому середовищі. Документи, що зазвичай мають розширення .fb2, можуть містити структурну розмітку основних елементів тексту, деяку кількість інформації про книгу, а також вкладення з двійковими файлами, в яких можуть зберігатися ілюстрації або обкладинка. fb2 чудово дозволяє організувати структуру книги (розділи, підзаголовки, вірші, цитати тощо), вставляти в текст ілюстрації. Він без проблем читається як на РС, так і на КПК. Правильно підготовлений електронний текст у форматі FictionBook містить у собі всю необхідну інформацію про книгу - структурований текст, ілюстрації, інформацію про автора і видання, але не містить інформації про зовнішній вигляд документа. Як виглядатиме текст, отриманий з формату .fb2, залежить або від настройок програми-переглядача цього формату, або від параметрів, заданих при конвертації файла в інший формат. Для читання файлів формату .fb2 використовується програма FBReader, CoolReader та ін.
iSilo (Plam Os Platform /pdb - Palm Pilot Database format) - формат бази даних, використовується у всіх 3Com
PalmPilot, IBM Workpad і Macintosh/PC для збереження записів у базі даних. Обсяг одного запису може перевищувати 64 кб, є біти BackUp і т. д. Через в'ювер від iSilo книги у форматі PDB виглядають як у форматі CHM. Які-небудь переваги цього формату для кінцевого користувача не відмічені, проте зустрічаються вельми цікаві книги, скомпільовані в PDB.