Форматы представления текстовых файлов
Формат файлов определяет способ хранения текста в файле. Простейший формат содержит только числовые коды символов, другие форматы содержат дополнительные управляющие числовые коды, которые обеспечивают форматирование текста.
Существуют универсальные форматы и оригинальные форматы, которые используются отдельными текстовыми редакторами. Для преобразования текста из одного формата в другой используются специальные программы — конвертеры.
Расширение имени файла (filename extension, часто говорят просто расширение файла или расширение) — последовательность символов, добавляемых к имени файла и предназначенных для идентификации типа (формата) файла. Это один из распространённых способов, с помощью которых пользователь или программное обеспечение компьютера может определить тип данных, хранящихся в файле.
Расширение обычно отделяется от основной части имени файла точкой. В операционных системах CP/M и MS-DOS длина расширения была ограничена тремя символами, в современных операционных системах это ограничение отсутствует. Иногда могут использоваться несколько расширений, следующих друг за другом, например, «.tar.gz».

Рисунок 2.4 Графическое представление некоторых текстовых форматов
Начнём рассмотрение текстовых расширений с формата TXT. Он является изначальным, простейшим текстовым форматом. Текст хранится в виде последовательности символов и размер файла в байтах равен числу символов, плюс непечатаемые, такие как пробел, абзац и др. За счёт этого достигается малый размер файла. Однако возможности по форматированию подобных документов сильно ограничены.
Легко переводиться в формат DOC и DOCX. Фактически расширение .txt служит лишь для открытия текста в программе по умолчанию.
Расширение .DOC часто использовалось для обозначения простых текстовых файлов без форматирования, однако позже стало использоваться для двоичных форматов с разметкой.
Двоичные файлы формата DOC содержат большее количество информации о форматировании текста (например, сценарии), чем файлы документов, использующие другие форматы Microsoft (RTF и др.), но хуже совместимы с текстовыми редакторами сторонних разработчиков. И сами файлы, созданные Microsoft Word разных версий, не всегда совместимы между собой.
С появлением Microsoft Office 2007, компания Microsoft перешла на новые форматы, базирующиеся на Office Open XML . Office Open XML (OOXML, DOCX, проект ISO/IEC) — серия форматов файлов для хранения электронных документов пакетов офисных. Формат представляет собой zip-архив, содержащий текст в виде XML, графику и другие данные, которые могут быть переведены в последовательность битов (сериализованы) с применением защищённых патентами двоичных форматов, спецификации которых были опубликованы Microsoft для пользователей OOXML на условиях Microsoft Open Specification Promise.
Первоначально формат создавался как замена прежнему двоичному формату документов, который использовали приложения Microsoft Office вплоть до версии Office 2003 включительно. В 2006 году формат Office Open XML был объявлен свободным и открытым форматом Ecma International. Он является форматом по умолчанию для приложений Microsoft Office 2007 и более поздних версий.
ODF (Open Document Format, for Office Application) — открытый формат файлов документов для хранения и обмена редактируемыми офисными документами, в том числе текстовыми документами (такими как заметки, отчёты и книги), электронными таблицами, рисунками, базами данных, презентациями.
Стандарт был разработан индустриальным сообществом OASIS и основан на XML-формате. 1 мая 2006 года принят как международный стандарт ISO/IEC 26300.
Open Document является единственным стандартом для редактируемых офисных документов, утверждённым независимым комитетом по стандартам и реализованным несколькими поставщиками программного обеспечения. Open Document может быть использован любым поставщиком ПО, включая, в том числе, поставщиков закрытого программного обеспечения и разработчиков, использующих GNU GPL.
PDF (Portable Document Format) — кроссплатформенный формат электронных документов, созданный фирмой Adobe Systems с использованием ряда возможностей языка PostScript. В первую очередь предназначен для представления в электронном виде полиграфической продукции, — значительное количество современного профессионального печатного оборудования может обрабатывать PDF непосредственно. Традиционным способом создания PDF-документов является виртуальный принтер, то есть документ как таковой готовится в своей специализированной программе — графической программе или текстовом редакторе, САПР и т. д., а затем экспортируется в формат PDF для распространения в электронном виде, передачи в типографию и т. п. PDF с 1 июля 2008 года является открытым стандартом ISO 32000.
Формат PDF позволяет внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки. Поддерживает RGB, CMYK, Grayscale, Lab, Duotone, Bitmap, несколько типов сжатия растровой информации. Имеет собственные технические форматы для полиграфии: PDF/X-1, PDF/X-3. Включает механизм электронных подписей для защиты и проверки подлинности документов. В этом формате распространяется большое количество сопутствующей документации.
Чаще всего PDF-файл является комбинацией текста с растровой и векторной графикой, реже — текста с формами, JavaScript, 3D-графикой и другими типами элементов.
DjVu стал основой для нескольких библиотек научных книг. Он довольно популярен, и в нём делается большое количество разных документов.
Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения загрузки файла. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области — ссылки, что позволяет реализовать удобную навигацию в DjVu-книгах.
Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и чёрно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, по умолчанию понижается для экономии места. Передний план содержит цветовую информацию о маске; его разрешение обычно понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет — преобразования, а маска — алгоритмом JB2.
Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений.
Для сжатия большинства книг можно обойтись только двумя цветами. В этом случае используется всего один слой, что позволяет достичь рекордной степени сжатия. В типичной книге с чёрно-белыми иллюстрациями, отсканированной с разрешением 600 dpi, средний размер страницы составляет около 15 Кб, то есть приблизительно в 100 раз меньше, чем исходный файл.
В присутствии сложного заднего плана выигрыш объёма составляет обычно 4—10 раз. Однако при стандартных настройках в DjVu используется сжатие данных с потерями, поэтому для особо важных документов обычно используются форматы сжатия без потерь: PNG, JPEG 2000, TIFF и т. п. В DjVu также можно использовать и сжатие данных без потерь. Так например утилита CJB2 из пакета DjVuLibre предоставляет сжатие без потерь.
Последним из рассматриваемых форматов, будет формат HTML. HTML (Hyper Text Markup Language) — стандартный язык разметки документов в интернете. Большинство веб-страниц создаются при помощи языка HTML (или XHTML). Язык HTML интерпретируется браузерами и отображается в виде документа в удобной для человека форме.
HTML является приложением («частным случаем») SGML (стандартного обобщённого языка разметки) и соответствует международному стандарту ISO 8879. XHTML же является приложением XML.
Изначально язык HTML был задуман и создан как средство структурирования и форматирования документов без их привязки к средствам воспроизведения (отображения). В идеале, текст с разметкой HTML должен был без стилистических и структурных искажений воспроизводиться на оборудовании с различной технической оснащённостью (цветной экран современного компьютера, монохромный экран органайзера, ограниченный по размерам экран мобильного телефона или устройства и программы голосового воспроизведения текстов). Однако современное применение HTML очень далеко от его изначальной задачи. Например, тег , несколько раз использованный для форматирования страницы, которую вы на данный момент читаете, предназначен для создания в документах самых обычных таблиц, но, как можно убедиться, здесь нет ни одной таблицы. С течением времени основная идея платформонезависимости языка HTML была принесена в жертву современным потребностям в мультимедийном и графическом оформлении.
HTML — теговый язык разметки документов. Любой документ на языке HTML представляет собой набор элементов, причём начало и конец каждого элемента обозначается специальными пометками — тегами. Элементы могут быть пустыми, то есть не содержащими никакого текста и других данных (например, тег перевода строки ). В этом случае обычно не указывается закрывающий тег. Кроме того, элементы могут иметь атрибуты, определяющие какие-либо их свойства (например, размер шрифта для элемента font). Атрибуты указываются в открывающем теге.
Документы созданные в программе word имеют расширение txt doc bmp ppt
Формат файла , также его называют тип файла — это информация о файле для компьютера. Благодаря этой информации, компьютер приблизительно знает, что находится внутри файла и «понимает», в какой программе его открыть.
Чтобы компьютер понимал, к какому типу относится тот или иной файл и в какой программе его открыть, после имени указано расширение.
Расширение — это несколько букв или цифр, находящихся после точки в имени.
На картинке показан файл с расширением mp3. Про него компьютер «знает», что это музыкальный файл, и открывать его необходимо в программе-проигрывателе. Картинка файла совпадает с картинкой программы, которая его открывает. Опытный пользователь компьютера уже по одному этому значку понимает, в какой программе откроется данный файл и к какому типу он принадлежит.
Есть, например, текстовые файлы. Это значит, что содержимое таких файлов – текст, и открываются они в программе для работы с текстом. Бывают музыкальные и видео файлы, то есть их содержимое – это музыка и видео, и открываются они в проигрывателях. Также часто встречаются графические файлы – фотографии и картинки. Есть еще много других типов.
У каждого из них свой значок, точнее, значок программы, установленной на компьютере, в которой он открывается.
Напомню, что компьютер определяет тип файла по расширению. Так вот многие компьютеры настроены таким образом, что расширение у файлов не показывается. Это весьма удобно!

Чтобы так было и у Вас, откройте любую папку и нажмите на надпись «Сервис» (вверху окна). Из списка выберите пункт «Свойства папки. » или «Параметры папок. «.
Если пункта «Сервис» вверху окошка нет, то нажмите на кнопку «Пуск» и откройте «Панель управления». Среди значков найдите и откройте «Свойства папки» (Оформление и персонализация — Параметры папок).
Откроется окошко. Нажмите на закладку «Вид» (вверху).


Поставьте галочку на пункт «Скрывать расширения для зарегистрированных типов файлов» и нажмите кнопку «ОК» внизу окошка.
Кстати, таким же образом Вы можете настроить свой компьютер, чтобы он наоборот не скрывал, а показывал расширения файлов.
Таблица наиболее часто встречающихся расширений:
Важно! Если компьютер настроен таким образом, что расширения показаны, то, когда Вы изменяете название файла, оставляйте расширение как есть. То есть меняйте название файла до точки. Если Вы измените расширение, файл может после этого перестать открываться. Помните это!
Подготавливая на компьютере текстовые документы, вы не могли не обратить внимание на большое количество форматов текстовых файлов. Давайте попробуем разобраться в этом изобилии форматов и посмотрим, для чего каждый из них предназначен.
Какие бывают текстовые форматы

Данный формат появился вместе с первым компьютером. В *.txt-файле содержится только текстовая информация и ничего больше – данные о форматировании, шрифтах, картинках там сохранить не получится. Формат является наиболее универсальным – он может открыться на всех устройствах с помощью любого приложения.

Расширенный текстовый формат (Rich Text Format) был разработан компанией Microsoft как универсальный кросс-платформенный формат для хранения текстовой информации. Сохраняет данные форматирования, позволяет производить вставку дополнительных объектов:
Основная «фишка» rtf-формата – использование специальных «управляющих» слов, выделенных спецсимволами, что приводит к значительному увеличению объема файла.



Достаточно популярны сейчас форматы, основанные на Hyper Text Markup Language (HTML) – HTM, CHM, MHT и др. Язык HTML был разработан специально для создания веб-страниц, но благодаря своей универсальности, удобству и небольшому размеру стал широко использоваться для хранения текстовых данных. Любой HTML-документ можно прочитать с помощью стандартных инструментов операционной системы, без использования сторонних программ.

Формат разработан компанией Adobe специально для нужд полиграфии. Впоследствии пользователи оценили удобство использования pdf-файлов, и этот формат стал стандартом для обмена документами.

Формат файлов для документов OpenOffice. Альтернатива закрытому формату docx от Microsoft. Поддерживает большую часть форматирования что и «DOCX», включая вставку изображений, таблиц и гиперссылок.
Форматы для электронных книг
Кроме вышеописанных, существует также много форматов текстовых файлов, разработанных специально для чтения в электронном виде. Такие файлы нельзя отредактировать, а для просмотра необходима специальная программа. К таким форматам можно отнести:
Вместо послесловия
Мы рассмотрели с вами основные типы форматов текстовых файлов. Конечно, со временем некоторые из них могут устареть, уступив место более современным, с расширенными возможностями. А встречались ли вам текстовые файлы, которые не удалось открыть на компьютере или мобильном гаджете?
С текстовыми файлами (документами) мы сталкиваемся чуть ли не ежедневно. Однако в данном вопросе не следует путать расширение текстового файла и текстовый формат данных, это разные вещи. Попробуем определиться, что собой представляют файлы такого типа, и какими они бывают.
Расширение текстового файла: что это такое?
Начнем с того, что, как правило, большинство файлов такого типа имеют расширение в виде трех литер после разделителя (точки). Самый простой и наиболее часто встречающийся тип – это файлы с расширением .txt, открываемые в тех же системах Windows при помощи стандартного «Блокнота».

Однако, несмотря на общепринятые правила, расширения файлов текстовых документов могут содержать не три литеры, а больше (их число может достигать двенадцати, но не больше), например, файлы электронных книг .djvu. Кроме того, в расширении могут присутствовать цифры.
Что дает нам рассмотрение классификации текстового файла (документа) в плане их идентификации? А то, что один взгляд позволяет моментально решить важный вопрос: какое расширение имеют текстовые файлы, такова и программа, сопоставленная им для открытия или редактирования. Тут же во многих случаях почти всегда можно определить изначальное приложение, в котором такой файл был создан.

Именно это и служит показателем того, что расширение текстового файла свидетельствует об универсальности самого формата, который является наиболее «читабельным» независимо даже от применяемой операционной системы. То же самое касается и текстовых редакторов любого типа.
Типы расширения файлов: текстовые
Вообще, на сегодня известно такое огромное число текстовых форматов и их расширений, что, наверное, практически ни один специалист не возьмется посчитать их полное количество.

Да, конечно, универсальность таких документов не вызывает сомнений, особенно если в них используется простейшая кодировка ASCII. Но иногда проблема может заключаться в том, что не всякая кодировка поддерживается определенной системой или программой. Именно поэтому на экране вместо привычных букв появляется набор символов.
Что самое интересное, многим файлам такого типа в системе отводится разная роль. К примеру, кроме обычного файла субтитров .sub, за их просмотр при открытии видео может отвечать обычный текстовый документ .txt, и в этом отношении многие форматы взаимозаменяемы.

Заметьте, даже исполняемые файлы могут иметь текст в качестве содержимого. Простейший пример – файл .bat, создаваемый в обычном «Блокноте» и содержащий текст в виде набора команд. При запуске происходит выполнение команд, а для редактирования используется меню «Открыть с помощью…», если изначально этому процессу не сопоставлено другое действие.

Подобная ситуация наблюдается и с документами, использующими разметку или языки программирования, скажем, файлы .html, .htm, .xml и т.д. Даже веб-страницы можно во многих редакторах открыть изначально как текстовые файлы, содержащие сторонние элементы.
Изменение расширений текстовых файлов
Вместо послесловия
Как уже понятно, расширение текстового файла может иметь множество вариаций, в зависимости от того, в какой именно программе был создан документ. Зато, равно как и в других случаях, по самому расширению практически всегда можно определить изначально ему сопоставленное приложение, в крайнем случае открыть любой другой программой, поддерживающей работу с таким типом данных, даже если оригинальное приложение на компьютере отсутствует. И как уже, наверное, понятно, именно текстовые файлы, по сути, являются в компьютерном мире самыми распространенными и универсальными, независимо от используемых программных пакетов и операционных систем.




