Файлы и файловая структура. Единицы представления данных

Существует множество систем представления данных. В информатике наименьшей единицей такого представления данных является бит (двоичный разряд).

Совокупность двоичных разрядов, выражающих числовые или иные данные, образует некий битовый рисунок. Практика показывает, что с битовым представлением удобнее работать, если этот рисунок имеет регулярную форму. В настоящее время в качестве таких форм используются группы из восьми битов, которые называются байтами.

Десятичное число	Двоичное число	Байт
		0000 0001
		0000 0010
...	...	...

Во многих случаях целесообразно использовать не восьмиразрядное кодирование, а 16-разрядное, 24-разрядное, 32-разрядное и более. Группа из 16 взаимосвязанных битов (двух взаимосвязанных байтов) называется словом. Соответственно, группы из четырех взаимосвязанных байтов (32 разряда) - удвоенным словом, а группы из восьми байтов (64 разряда) — учетверённым словом.

Единицы измерения данных. В настоящее время существует много различных систем и единиц измерения данных. Каждая научная дисциплина и каждая область человеческой деятельности использует свои, наиболее удобные или традиционно устоявшиеся единицы. В информатике для измерения данных используют тот факт, что разные типы данных имеют универсальное двоичное представление, и потому вводят свои единицы данных, основанные на нем.

Наименьшей единицей измерения является байт. Поскольку одним байтом, как правило, кодируется один символ текстовой информации, то для текстовых документов размер в байтах соответствует лексическому объему в символах (пока исключение представляет универсальная кодировка UNICODE).

Более крупная единица измерения — килобайт (Кбайт). 1 Кбайт равен 2¹⁰ байт (1024 байта). В килобайтах измеряют сравнительно небольшие объемы данных. Условно можно считать, что одна страница неформатированного машинописного текста составляет около 2 Кбайт. Более крупные единицы измерения данных образуются добавлением префиксов мега-, гига-, тера-; в более крупных единицах пока нет практической надобности.

1 Мбайт =1024 Кбайт =2²⁰ байт

1 Гбайт 1024 Мбайт =2³⁰ байт

1 Тбайт = 1024 Гбайт =2⁴⁰ байт

Единицы хранения данных. При хранении данных решаются две задачи: как сохранить данные в наиболее компактном виде и как обеспечить к ним удобный и быстрый доступ. Для обеспечения доступа необходимо, чтобы данные имели упорядоченную структуру, а при этом образуется «паразитная нагрузка» в виде адресных данных. Без них нельзя получить доступ к нужным элементам данных, входящих в структуру.

Поскольку адресные данные тоже имеют размер и также подлежат хранению, хранить данные в виде мелких единиц, таких, как байты, неудобно. Их неудобно хранить и в более крупных единицах (килобайтах, мегабайтах и т. п.), поскольку неполное заполнение одной единицы хранения приводит к неэффективности хранения.

В качестве единицы хранения данных принят объект переменной длины, называемый файлом. Файл — это последовательность произвольного числа байтов, обладающая уникальным собственным именем. Обычно в отдельном файле хранят данные, относящиеся к одному типу. В этом случае тип данных определяет тип файла. Поскольку в определении файла нет ограничений на размер, можно представить себе файл, имеющий 0 байтов (пустой файл), и файл, имеющий любое число байтов.

В определении файла особое внимание уделяется имени. Оно фактически несет в себе адресные данные, без которых данные, хранящиеся в файле, не станут информацией из-за отсутствия метода доступа к ним. Кроме функций, связанных с адресацией, имя файла может хранить и сведения о типе данных, заключенных в нем. Для автоматических средств работы с данными это важно, поскольку по имени файла они могут автоматически выбрать наиболее адекватный метод для извлечения информации из него.

Понятие о файловой структуре. Для гарантированного и однозначного доступа к данным требуется обеспечение уникальности имени файла. В средствах вычислительной техники требование уникальности имени обеспечивается автоматически — создать файл с именем, тождественным уже имеющемуся, не может ни пользователь, ни компьютер.

Хранение файлов организуется в иерархической структуре, которая называется файловой структурой. В качестве вершины структуры служит имя носителя, на котором сохраняются файлы. Далее файлы группируются в каталоги (папки), внутри которых могут быть созданы вложенные каталоги (папки). Путь доступа к файлу начинается с имени устройства и включает все имена каталогов (папок), через которые он проходит. В качестве разделителя используется символ «\» (обратная косая черта).

Уникальность имени файла обеспечивается тем, что полным именем файла считается собственное имя файла вместе с путем доступа к нему. Исходя из этого не только на одном носителе, но и на одном компьютере не может быть двух файлов с одинаковыми полными именами, так как все носители имеют разные имена. А если заглянуть в Интернет, то можно увидеть, что и во всем мире не может быть двух файлов с одинаковыми полными именами, так как в масштабах Всемирной сети каждый компьютер имеет уникальный адрес.

О том, как на практике реализуются файловые структуры, изучим, когда познакомимся с аппаратными и программными средствами вычислительной техники.

Контрольные вопросы

1. Кодирование целых и действительных чисел.

2. Кодирование целых и действительных чисел.

3. Кодирование текстовых данных.

4. Кодирование графических данных.

5. Линейные структуры (списки данных, векторы данных).

6. Табличные структуры (таблицы данных, матрицы данных).

7. Иерархические структуры данных.

8. Адресные данные.

9. Единицы измерения данных.

10. Единицы хранения данных.