Основы хранения данных в эвм. Устройства хранения информации. Основы хранения информации в компьютере

3.1.Представление данных в ЭВМ

При проведении математических расчетов числа внутри ЭВМ могут быть представлены с помощью естественной и нормальной форм записи.

Примером записи в естественной форме может служить число 456,43. Для записи такого числа машинное слово (операнд) делится на два фиксированных поля (части). Первое поле отводится для записи целой части числа, а второе – для записи дробной части числа. Старший разряд предназначается для указания знака числа.

В вычислительной технике принято отделять целую часть числа от дробной части точкой. Так как в этом случае положение точки между целой и дробной частью четко определено, то такое представление чисел называют представлением с фиксированной точкой . Ниже на рис. 3.1 показано машинное слово длиной 16 разрядов (2 байта).

Машинное слово является структурной единицей информации ЭВМ. С помощью машинных слов записывают числа, символы и команды. В современных ЭВМ длина машинных слов составляет 32…128 разрядов. Физически каждый разряд машинного слова представляет собой отдельный элемент памяти (триггер или запоминающий конденсатор).

Рис. 3.2. Представление целого числа

Нормальная форма записи числа имеет следующий вид:

где m – мантисса числа; p – порядок ; d – основание системы счисления.

Порядок указывает местоположение в числе точки, отделяющей целую часть числа от дробной. В зависимости от порядка точка передвигается (плавает) по мантиссе. Такая форма представления чисел называется формой с плавающей точкой . Рис. 3.3 иллюстрирует форму числа с плавающей точкой на примере 32 разрядного машинного слова.

Например, пусть m = 0.3, d = 10, а порядок будет разным:

0.3 · 10 -1 = 0.03; 0.3 · 10 -2 = 0.003; 0.3 · 10 2 = 30; 0.3 · 10 3 = 300.

Из приведенного примера видно, что благодаря изменению порядка точка перемещается (плавает) по мантиссе. При этом, если порядок отрицательный, точка смещается по мантиссе влево, а если положительный, то вправо.

31

Рис. 3.3. Представление числа с плавающей точкой

В этом случае машинное слово делится на два основных поля. В одном поле записывается мантисса числа, во втором - указывается порядок числа. Диапазон представления чисел с плавающей точкой значительно больше диапазона представления чисел с фиксированной точкой. Однако быстродействие ЭВМ при обработке чисел с плавающей точкой гораздо ниже, чем при обработке чисел с фиксированной точкой.

3.2.Представление команд в ЭВМ

Программа работы ЭВМ состоит из последовательности команд.

Под командой понимается информация, обеспечивающая выработку управляющих сигналов, формируемых в устройстве управления процессора, для выполнения машиной определенного действия.

Поле команды состоит из двух частей: операционной и адресной . В операционной части указывается код операции (КОП). Код определяет действие, которое должна выполнить ЭВМ (арифметическое – сложение, вычитание, логическое – инверсия и т.д.).

Адресная часть команды содержит адреса операндов (чисел или символов), участвующих в операции. Под адресом понимается номер ячейки ОЗУ или ПЗУ, где записана необходимая для выполнения команды информация.

Таким образом, ЭВМ (точнее, процессор) выполняет действие, которое определяется кодом операции, над данными, местоположение которых указано в адресной части команды.

Количество указываемых в команде адресов может быть различным. В зависимости от числа адресов различают следующие форматы команд: одно-, двух- и трехадресные. Бывают и безадресные команды. На рис. 3.4 представлена структура различных команд.

КОП А1
КОП А1 А2
КОП А1 А2 А3

Операционная Адресная часть команды

часть команды

Рис. 3.4. Структура команды

Трехадресная команда , выполняющая, например, операцию сложения, должна содержать код операции сложения и три адреса.

Действия, выполняемые этой командой, описываются следующей последовательностью операций.

1. Взять число, хранящееся по первому адресу А1.

2. Взять число, хранящееся по второму адресу А2, и сложить с первым числом.

3. Результат сложения записать по третьему адресу А3.

В случае двухадресной команды третий адрес отсутствует, и результат можно записать либо по второму адресу (с потерей информации, которая была там записана), либо оставить в регистре сумматора, где производилась операция сложения. Тогда для освобождения регистра сумматора требуется дополнительная команда перезаписи числа по требуемому адресу. При организации сложения двух чисел, хранящихся по адресам А1 и А2 с записью результата в А3 с использованием одноадресных команд , требуется уже три команды.

1. Вызов в сумматор (АЛУ) числа, хранящегося по адресу А1.

2. Вызов числа, хранящегося по адресу А2 и сложение его с первым числом.

3. Запись результата по адресу А3.

Таким образом, чем меньше адресов содержит команда, тем большее число команд требуется для составления одной и той же программы работы машины.

Увеличивая число адресов в команде, приходится увеличивать длину машинного слова, чтобы отвести в нем необходимые поля для адресной части команд. С увеличением объема памяти ЭВМ увеличивается длина поля, необходимого для указания одного адреса. В то же время не все команды полностью используют адресные поля. Например, для команды записи числа по заданному адресу требуется только одно адресное поле. Неоправданное увеличение длины машинного слова для использования многоадресных команд приводит к уменьшению быстродействия ЭВМ, т.к. необходимо обрабатывать поля большей длины.

Существуют безадресные команды, которые содержат только код операции, а необходимые данные заранее помещаются в определенные регистры процессора.

Современные ЭВМ автоматически выполняют несколько сотен различных команд. Все машинные команды можно разделить на группы по видам выполняемых операций:

· операции пересылки данных;

· арифметические операции;

· логические операции;

· операции обращения к внешним устройствам ЭВМ;

· операции передачи управления;

· обслуживающие и вспомогательные операции.

При проектировании новых процессоров разработчикам приходится решать сложную задачу выбора длины команды и определения списка необходимых команд (системы команд). Противоречивые требования к конфигурации команд привели к созданию процессоров с различными форматами команд (архитектуры CISC и RISC).

3.3.Кодовая таблица

Кодовая таблица – это внутреннее (закодированное) представление в машине букв, цифр, символов и управляющих сигналов. Так, латинская буква А в кодовой таблице представлена десятичным числом 65D (внутри ЭВМ это число будет представлено двоичным числом 01000001В), латинская буква С – числом 67D, латинская буква М – 77D и т.д. Таким образом, слово «САМАРА», написанное заглавными латинскими буквами будет циркулировать внутри ЭВМ в виде цифр:

67D-65D-77D-65D-80D-65D.

Если говорить точнее, то внутри ЭВМ данное слово хранится и используется в виде двоичных чисел:

01000011В-01000001В-01001101В-01000001В-0101000В-01000001В

Аналогично кодируются цифры (например, 1 – 49D, 2 – 59D) и символы (например, ! – 33D, + - 43D).

Наряду с алфавитно-цифровыми символами в кодовой таблице закодированы управляющие сигналы. Например, код 13D заставляет печатающую головку принтера вернуться в начало текущей строки, а код 10D перемещает бумагу, заправленную в принтер, на одну строку вперед.

Кодовая таблица может быть представлена не только с по-мощью десятичной СС, но и при помощи шестнадцатеричной СС. Заметим еще раз, что внутри ЭВМ циркулируют сигналы, представленные в двоичной системе счисления, а в кодовой таблице для большего удобства чтения пользователем – в десятичной или шестнадцатеричной СС.

Каждая буква, цифра, знак препинания или управляющий сигнал кодируются восьмиразрядным двоичным числом. С помощью восьмиразрядного числа (однобайтового числа) можно представить (закодировать) 256 произвольных символов – букв, цифр и любых графических образов.

Во всем мире в качестве стандарта принята кодовая таблица ASCII (American Standard Code for Information Interchange – Американский стандарт кодов для обмена информацией). Таблица ASCII регламентирует (строго определяет) ровно половину возможных символов (латинские буквы, арабские цифры, знаки препинания, управляющие сигналы). Для их кодировки используются коды от 0D до 127D.

Вторая половина кодовой таблицы ASCII (с кодами от 128 до 255) не определена американским стандартом и предназначена для размещения символов национальных алфавитов других стран (в частности, кириллицы – русских букв), псевдографических символов, некоторых математических знаков. В разных странах, на различных моделях ЭВМ, в разных операционных системах могут использоваться и разные варианты второй половины кодовой таблицы (их называют расширениями ASCII). Например, таблица, которая используется в операционной системе MS-DOS, называется СР-866. Используя эту таблицу для кодировки слова «САМАРА», записанного русскими буквами, получим такие коды:

145D-128D-140D-128D-144D-128D.

При работе в операционной системе Windows используется таблица кодов СР-1251, в которой кодировка латинских букв совпадает с кодировкой таблиц СР-866 и ASCII, а вторая половина таблицы имеет собственную раскладку (кодировку) символов. Поэтому слово «САМАРА», написанное заглавными русскими буквами, будет иметь внутри ЭВМ другое представление:

209D-192D-204D-192D-208D-192D.

Таким образом, внешне одинаковое слово (например, «САМАРА») внутри ЭВМ может быть представлено различным образом. Естественно, это вызывает определенные неудобства. При работе в Интернет национальный текст порой становится нечитаемым. Наиболее вероятной причиной в этом случае является несовпадение кодировок второй половины кодовых таблиц.

Общим недостатком всех однобайтовых кодовых таблиц (в них для кодировки используются восьмиразрядные двоичные числа) является отсутствие в коде символа какой-либо информации, которая подсказывает машине, какая в данном случае используется кодовая таблица.

Сообществом фирм Unicode предложена в качестве стандарта другая система кодировки символов. В этой системе для представления (кодирования) одного символа используются два байта (16 битов), и это позволяет включить в код символа информацию о том, какому языку принадлежит символ и как его нужно воспроизводить на экране монитора или на принтере. Два байта позволяют закодировать 65 536 символов. Правда, объем информации, занимаемой одним и тем же текстом, увеличится вдвое. Зато тексты всегда будут «читаемыми» независимо от использованного национального языка и операционной системы.

3.4.Организация хранения данных на магнитных дисках

3.4.1. Диски

Диски – устройства для постоянного хранения информации. Любой компьютер имеет накопитель на жестком магнитном диске, предназначенный для чтения и записи на несъемный жесткий магнитный диск (винчестер), и накопитель (или дисковод) для гибких магнитных дисков, используемый для чтения и записи на гибкие магнитные диски (дискеты). Кроме этого могут быть дисководы для работы с компакт-дисками, магнитооптическими дисками и т.д.

Любой жесткий диск или магнитооптический диск можно разделить на несколько частей, которые для пользователя будут выглядеть на экране так же, как и физически существующие диски. Эти части называются логическими дисками . Каждый логический диск имеет имя (букву), по которому к нему можно обращаться. Таким образом, логический диск – это часть обычного жесткого диска, имеющая собственное имя. Например, жесткий диск объемом 3 Гбайта может быть разделен на два логических диска: диск С: объемом 2 Гбайта и диск D: объемом 1 Гбайт.

Диск, на котором записана операционная система, называется системным (или загрузочным ) диском. В качестве загрузочного диска чаще всего используется жесткий диск С:.

В операционных системах DOS и Windows каждому диску можно дополнительно давать имена (label – метка), которые отражают их содержание, например: Системный, Графика, Тексты, Дистрибутивы и т.д.

3.4.2. Файлы

Информация на дисках (жестких дисках, дискетах, магнитооптических дисках, компакт-дисках и т.д.) хранится в файлах.

Файл – это набор взаимосвязанных данных, воспринимаемых компьютером как единое целое, имеющих общее имя, находящихся на диске или другом носителе информации. В файлах могут храниться тексты программ, документы, готовые к выполнению программы, рисунки и т.д.

Чтобы операционная система и другие программы могли обращаться к файлам, файлы должны иметь обозначения. Это обозначение называют именем файла . Имя файла обычно состоит из двух частей – собственно имени (в DOS длиной от 1 до 8 символов, в Windows – от 1 до 254 символов) и расширения длиной до 3 символов. Имя и расширение отделяются друг от друга точкой. Часто имя и расширение вместе также называют именем. Примеры имен файлов:

vova.doc tetris.exe doc.arj config.sys

Имя и расширение могут состоять из прописных и строчных латинских букв (возможны и русские буквы), цифр и символов, кроме управляющих символов и символов \ / : * ? < > ; , + = . Русские буквы в именах файлов следует употреблять с осторожностью – некоторые программы не «понимают» имен с русскими буквами. Имена файлов могут включать символы “-“ (дефис), “_” (подчеркивание), “$” (доллар), “#” (решетка), “&” (амперсанд, типографское “и” в странах английского языка), “@” (“собака”), “!”, “%”, скобки, кавычки, “ ^ ” (“крышка”), “ ’ ” (апостроф), “~” (тильда или “волна”).

Расширение имени файла является необязательным. Оно, как правило, описывает содержание файла, поэтому использование расширения весьма удобно. Многие программы устанавливают определенное расширение имени файла, и по нему можно узнать, какая программа создала файл. Кроме того, многие программы (например, программы-оболочки) позволяют по расширению имени файла вызвать соответствующую программу и сразу загрузить в нее данный файл. Примеры типовых расширений:

com, exe – исполнимые файлы (готовые к выполнению программы); если выделить файл с таким расширением и нажать клавишу Enter, то программа немедленно начнет работать;

bat – командные (Batch) файлы;

txt, doc, wp, wri – текстовые файлы (документы). Расширение doc дает своим документам программа MS Word, wp – WordPerfect, wri – MS Write. В файлах с расширением txt обычно находится текст без какого-либо оформления (text-only, только текст);

bak – последняя версия текста (резервная копия);

tif, pcx, bmp, pic, gif, jpg, cdr – графические файлы разных форматов;

arj, zip, lzh, rar – особым образом сжатые (заархивированные) файлы;

hlp – файлы помощи, подсказок к разным программам;

drv, ega, vga, sys, dll и ряд других – служебные программы и программы-драйверы, с помощью которых компьютер обучается работать с разными мониторами, клавиатурами, принтерами, мышками, использовать русский язык. Эти программы не запускаются как исполнимые файлы;

ttf, fon, fnt, sfp, stl, xfr – шрифты для разных программ;

bas, c, pas, asm – содержат текст программ на языках Бейсик, Си, Паскаль, Ассемблер.

Могут быть файлы и с другими расширениями.

Важнейшая характеристика файла – его размер . Он измеряется в байтах, Кбайтах, Мбайтах.

3.4.3. Папки

Имена файлов регистрируются на дисках в каталогах (или директориях). В Windows каталоги называют папками.

Папки – это специальное место на диске, в котором хранятся имена файлов, сведения о размере файлов, времени их последнего обновления, атрибуты (свойства) файлов и т.д. Если в папке хранится имя файла, то говорят, что этот файл находится в данной папке. На каждом диске может быть несколько папок.

Каждая папка имеет имя. Требования к именам папок те же, что и к именам файлов. Как правило, расширение имени для папок не используется, хотя и не запрещается.

Полное имя файла имеет следующий вид (скобками [ и ] обозначают необязательные элементы):

[дисковод:] [путь \] имя файла

Путь – это последовательность из имен папок (каталогов) или символов “..”, разделенных символом “\”. Путь задает маршрут от текущей или корневой папки диска к той папке, в которой находится файл. Если путь начинается с символа “\”, то маршрут вычисляется от корневой папки диска, иначе – от текущей папки. Каждое имя папки в пути соответствует входу в папку с таким именем, символ “..” соответствует входу в папку на уровень выше. Например:

A:\text1.txt - файл text1.txt находится в корневой папке диска A: ;

C:\WORKS\PASCAL\prog1.pas – файл prog1.pas находится в папке PASCAL, которая, в свою очередь, находится в папке WORKS, находящемся в корневой папке диска C: .

3.4.4. Файловая структура диска

Для того чтобы на новый магнитный диск можно было записать информацию, он должен быть предварительно отформатирован. Форматирование – это подготовка диска для записи информации.

Во время форматирования на диск записывается служебная информация (делается разметка), которая затем используется для записи и чтения информации. Разметка производится с помощью электромагнитного поля, создаваемого записывающей головкой дисковода.

Запись информации осуществляется по дорожкам , причем каждая дорожка разбивается на секторы , например, по 1024 байта (рис. 3.5). Дискета диаметром 3,5 дюйма объемом 1,44 Мбайта содержит 80 дорожек и 18 секторов.


Рис. 3.6. Цилиндр винчестера

На рисунке видны два цилиндра (первый и второй), образованные равноудаленными дорожками на трех дисках винчестера. При работе винчестера несколько головок одновременно считывают информацию с дорожек одного цилиндра.

Чтобы обратиться к данным в файле, надо знать адрес первого сектора из тех, в которых хранятся данные файла. Адрес сектора определяется тремя координатами: номер дорожки (цилиндра), номер поверхности и номер сектора.

Операционная система (ОС) берет на себя хранение этих сведений для каждого файла. Для реализации доступа к файлу ОС используют корневой каталог, таблицу размещения файлов FAT(File Allocation Table) и загрузочный сектор диска. Эти элементы образуют системную область диска (или дискеты) и создаются в процессе инициализации (форматирования) диска.

Загрузочный сектор, таблица размещения файлов, корневой каталог и оставшееся свободным пространство памяти диска, называемое областью данных, являются элементами файловой структуры диска .

Жесткий диск может быть разбит на несколько разделов. Поэтому в начальных секторах жесткого диска помещается информация о количестве разделов, их местоположении и размерах. Разделы жесткого диска в дальнейшем рассматриваются как автономные диски, каждый из которых отдельно инициализируется, имеет собственное буквенное обозначение (C:, D:, E:, F: и т.д.) и свои элементы файловой структуры.

Загрузочный сектор (Boot Record) – это визитная карточка диска, в которой записаны данные, необходимые для работы с диском. Он размещается на каждом диске в логическом секторе с номером 0. В загрузочный сектор записываются следующие характеристики:

идентификатор системы, если на диске записана операционная система;

размер секторов диска в байтах;

количество секторов в кластере;

количество элементов в каталоге;

количество секторов на диске и т.д.

Если диск подготовлен как системный (загрузочный), то загрузочный сектор содержит программу загрузки операционной системы. В противном случае, он содержит программу, которая при попытке загрузки с этого диска операционной системы выводит сообщение о том, что данный диск не является системным.

За загрузочным сектором на диске следует таблица размещения файлов.

Таблица размещения файлов (File Allocation Table – сокращенно FAT) содержит описание порядка расположения всех файлов в секторах данного диска, а также информацию о дефектных участках диска. За FAT-таблицей следует ее точная копия, что повышает надежность сохранения этой очень важной таблицы.

В процессе работы пользователей на компьютере содержимое диска меняется: добавляются новые файлы, удаляются ненужные, некоторые файлы расширяются или уменьшаются и т.д.

Выполнение этих операций требует наличия специального механизма распределения запоминающего пространства диска между файлами и обеспечения доступа к ним. Этот механизм реализован путем использования таблицы размещения файлов.

При выполнении операций чтения-записи данных обмен информацией между дисковым накопителем и памятью компьютера осуществляется блоками. Минимальный объем блока равен сектору. Для уменьшения количества обращений к диску за одно обращение может записываться или считываться информация из нескольких последовательно расположенных секторов, образующих своеобразный суперблок, называемый кластером . Таким образом, кластер – несколько последовательно расположенных секторов, которые считываются или записываются в файл за одно обращение к нему. Размер кластера может быть разным.

Файлу, записываемому на диск, выделяется целое количество кластеров, причем выделяемые кластеры могут находиться в различных местах диска. В отличие от непрерывных файлов , находящихся в одной области памяти, файлы, занимающие на диске несколько областей, называются фрагментированными . Назначение FAT – хранить данные о местонахождении на диске фрагментов файлов.

Механизм доступа к файлам с использованием FAT реализуется следующим образом. Область данных диска рассматривается как последовательность пронумерованных кластеров. Каждому кластеру ставится в соответствие элемент FAT с тем же номером. Например, элемент 2FAT соответствует кластеру 2 области данных диска, элемент 3FAT кластеру 3 и т.д. В каталоге, содержащем сведения о файлах на диске, для каждого файла указан номер первого кластера, занимаемого файлом. Этот номер называется точкой входа в FAT. Система, прочитав в каталоге номер первого кластера файла, обращается к этому кластеру, например записывает в него данные. В FAT первый кластер файла содержит номер второго кластера файла или признак конца файла и т.д. Пример механизма доступа к файлам с использованием FAT представлен в табл. 3.1.

Таблица 3.1

Механизм доступа к файлам с использованием FAT

Вход в FAT Номер элементов FAT Значения элементов FAT

Под архитектурой компьютера понимается совокупность сведений об основных устройствах компьютера и их назначении, о способах представления программ и дан­ных в машине, об особенностях ее организации и функционирования.

Принципы ЭВМ заключаются в следующем:

1. ЭВМ – это машина с хранимой (в памяти ЭВМ) программой, представленной в виде последовательности команд.

2. Выполняемые ЭВМ команды и операнды, т.е. данные, над которыми выполняется задаваемая командой операция, представлены в ЭВМ в виде двоичного кода с определенным количеством разрядов.

3. Память ЭВМ организована в виде последовательности запоминаю-

щих ячеек, в каждой из которых может храниться (запоминаться)

некоторый двоичный код – число или код символа алфавита, представляющие обрабатываемые данные, код команды ЭВМ. В конкретный момент времени можно обратиться для записи или чтения к любой одной из этих ячеек независимо от ее расположения в памяти, указав адрес (порядковый номер этой ячейки. Таким способом организованная память называется памятью с произвольным доступом.

4. В ЭВМ используется общая память как для хранения данных, так и

для хранения команд. При этом в кодах самих данных и команд отсут ствуют признаки, позволяющие явно отличать их друг от друга. Процессор различает данные и команды только по контексту выполняемой программы.

5. Предназначение данных, их тип и способ использования также явно не указываются. Они определяются и различаются по контексту вы полняемой программы.

Типичная цифровая ЭВМ включает в себя три основных компонента:

процессор, память и внешние устройства. Ее обобщенная блок-схема представлена ниже.

Процессор или центральный процессор (ЦП) – это устройство, предназначенное для выполнения основных операций по обработке данных, арифметических и логических операций над числами, управления работой других частей ЭВМ.

Память или оперативное запоминающее устройство (ОЗУ) – предна

значено для хранения кодов команд, составляющих выполняемую ЭВМ программу, и данных или операндов, т.е. двоичных чисел или кодов, над которыми процессор ЭВМ выполняет задаваемые командами операции.

Через устройства ввода-вывода или внешние (периферийные) устройства осуществляется взаимодействие ЭВМ с внешним миром.

Компоненты ЭВМ связаны друг с другом с помощью специальной шины или канала ЭВМ, представляющих собой набор линий связи, предназначенных для передачи информационных и управляющих сигналов между компонентами ЭВМ.

При реализации современных ЭВМ используется мо­дульный принцип. Суть этого принципа сводится к тому, что ЭВМ строится из набора устройств и блоков - модулей, реализующих законченные функции и не зависящих от других модулей.


В конструктивном отношении модуль также представляет со­бой законченный элемент. Отдельные модули могут быть соеди­нены между собой в необходимую конфигурацию без изменения схем (функций) отдельных модулей.

Основные преимущества модульного принципа:

Возможность совершенствования ЭВМ без изменения ее функциональной организации даже в процессе эксплуатации путем замены отдельных блоков на новые (более быстродейст­вующие, меньшие по размерам, потребляющие меньше энергии, более дешевые) или посредством добавления новых модулей;

Возможность компоновки из модулей большого числа раз­личных по характеристикам ЭВМ, наилучшим образом приспо­собленных для конкретного применения;

Сокращение времени восстановления работоспособности ЭВМ при отказах упрощением поиска неисправностей и ремонта.

Модули между собой соединяются при помощи шин. Физиче­ски шина представляет собой проводник электрического тока и состоит из линий связи. Каждая такая линия в один момент време­ни позволяет передать одну двоичную цифру (0 или 1), т. е. бит информации. В общем случае по шинам информация может пере­даваться в обоих направлениях.

Обычно шина ЭВМ функционально делится на три группы линий связи: адресную шину, шину данных и шину управления. Адресная шина переносит информацию о том, где искать инструкции (команды) или данные в памяти ЭВМ то есть адреса соответствующих ячеек памяти; шина данных переносит эти данные или инструкции для центрального процессора; шина управления обеспечивает передачу сигналов управления между процессором и внешними устройствами.

Совокупность шин, связывающих два модуля, и алгоритм, определяющий порядок обмена информацией между ними, назы­ваются интерфейсом (сопряжением).

Интерфейс характеризуется шириной (или разрядностью) составляющих его шин (в первую очередь информационных) и скоростью обмена информацией. В первых моделях ПК использовали 8- и 16-разрядные шины данных, рассчитанные на передачу и обработку соответственно байта и слова информации (стандарт ISA). До недавнего времени в большинстве моделей ПК применяли стандарты EISA, VCA, VL-BUS, ориентированные на 32-разрядную передачу данных. В последних моделях ПК используют 64-разрядные шины данных. Разрядность шины адреса определяет величину адресного пространства внутренней памяти (число байт ОЗУ и ПЗУ), к кото­рому может непосредственно обращаться процессор компьютера.

Первые модели ПК имели 16-разрядную адресную шину и с помощью специального способа адресации обеспечивали доступ ЦП к 1 Мбайту ОЗУ и ПЗУ. У современных моделей 32- и 64-разрядные шины адреса, и они обеспечивают доступ более чем к 4 Гбайтам внутренней памяти компьютера.

Наиболее простой и естественный способ соединения уст­ройств (модулей) между собой для образования ЭВМ - использо­вание единого интерфейса - интерфейса, к которому подключают­ся все устройства, входящие в состав ЭВМ. Такой способ органи­зации реализован в ПК (рис. 1).

Рис. 3 Модульный принцип реализации ПК

Основу ПК составляет электронная плата, которая называется системной, или материнской, так как на ней располагаются основ­ные устройства компьютера: микропроцессор и микросхемы внут­ренней памяти (ОЗУ и ПЗУ). Кроме того, на системной плате раз­мещается ряд дополнительных операционных и других устройств, обеспечивающих функционирование компьютера.

Все устройства, находящиеся на системной плате, подключа­ются к шинам единого интерфейса, который также расположен на плате, и образуют единую электронную схему ПК.

Как было отмечено ранее, основными функциями компьютера являются хране­ние, обработка, прием и передача данных. Для выполнения этих функций в ком­пьютере предусмотрены различные устройства. Каждое из них выполняет ту или иную конкретную функцию. В состав любого современного компьютера входят:

· память - группа устройств, которые обеспечивают хранение программ и данных;

· процессор - одно или несколько устройств, которые обеспечивают задавае­мую программой обработку данных;

· устройства ввода-вывода - группа устройств, которые обеспечивают обмен, то есть прием и передачу данных между пользователем и машиной или между двумя или более машинами.

Различные устройства компьютера подсоединяют друг к другу с помощью стан­дартизированных и унифицированных аппаратных средств - кабелей, разъемов и т. д. При этом устройства обмениваются друг с другом информацией и управляю­щими сигналами, которые также приводятся к некоторым стандартным формам.

Совокупность этих стандартных средств и форм образует конкретный интерфейс того или иного устройства или компьютера в целом." Интерфейсом называется совокупность унифицированных стандартных соглашений, аппаратных и программных средств, методов и правил взаимодействия устройств или программ, а также устройств или программ с пользователем. Заметим, что для обозначения совокупности устройств, которые могут быть включены в состав компьютера той или иной модели, а также средств их соеди­нения используется термин аппаратное обеспечение.

Основы хранения информации в компьютере

Как было отмечено ранее, информация всегда имеет форму сообщения, а сооб­щение кодируется тем или иным набором знаков, символов, цифр. Теоретически и экспериментально было показано, что самым удобным и эффективным является использование в вычислительной технике двоичного кода, то есть набора симво­лов, алфавита, состоящего из пары цифр {0,1}. Поскольку двоичный код исполь­зуется для хранения информации в вычислительных машинах, его еще называют машинным кодом.

Цифры 0 и 1, образующие набор {0, 1}, обычно называют двоичными цифрами, потому что они используются как алфавит в так называемой двоичной системе счисления. Система счисления представляет собой совокупность правил и прие­мов наименования и записи чисел, а также получения значения чисел из изобра­жающих их символов. Количество знаков в алфавите системы счисления обычно отражается в ее названии: двоичная, троичная, восьмеричная, десятичная, шестнадцатеричная и т. д. С точки зрения технической реализации компьютера, гораздо проще работать всего с двумя цифрами двоичной системы {0, 1}.

Элементарное устройство памяти компьютера, которое применяется для хранения одной двоичной цифры машинного кода программы или данных, называется дво­ичным разрядом или битом.

Слово «бит» произошло от английского термина bit, представляющего собой сокращение словосочетания Binary digit (двоичная цифра). Технически бит может быть реализован самыми разными способами. Однако каким именно

конкретным способом это сделано в компьютере - для нас совершенно безраз­лично. Важно лишь понимание назначения, свойств и функций бита.

· Бит может находиться только в одном из двух возможных состояний, одно из которых принято считать изображением цифры «О», а другое - изображени­ем цифры «1». Свое состояние бит сохраняет сколь угодно долго, пока оно не будет изменено принудительно, следовательно, бит может хранить записан­ную в нем информацию.

· В любой момент можно узнать, в каком из двух состояний находится бит - в состоянии «О» или в состоянии «1», при этом текущее состояние бита оста­нется неизменным. Другими словами, можно прочитать записанную в бит информацию (без ее потери).

· Всегда, когда в этом возникнет необходимость, и вне зависимости от текуще­го состояния можно перевести бит из одного состояния в другое. Иначе гово­ря, в бит можно записать новую информацию.

· Итак, бит обеспечивает базу для хранения информации, одной из трех важней­ших функций компьютера.

Бит - это очень маленькая порция информации. Поэтому так же как для изобра­жения десятичных чисел используется несколько десятичных разрядов - разряд единиц разряд десятков, сотен и т. д., так и для изображения двоичных чисел и дво­ичных машинных кодов используется несколько двоичных разрядов, несколько бит.

Для хранения двоичных чисел в компьютере служит устройство, которое приня­то называть ячейкой памяти. Ячейки образуются из нескольких битов, так же как двоичные числа образуются из двоичных разрядов. А всю память компьюте­ра можно образно представить себе как автоматическую камеру хранения, со­стоящую из большого количества отдельных ячеек, в каждую из которых можно положить, записать некоторое двоичное число, двоичный машинный код.

В общем случае ячейки различных компьютеров могут состоять из различного количества битов. Однако это создает значительные сложности для организации обмена информацией между разными моделями компьютеров. Поэтому, начиная с машин третьего поколения, стандартными являются ячейки, которые состоят из восьми битов.

Элемент памяти компьютера, состоящий из 8 битов, называется байтом.

При компьютерной обработке информации приходится иметь дело с текстовой, графической, числовой, звуковой и другой информацией. Для хранения данных различной природы применяются разные способы кодировки. Кроме того, для одной и той же разновидности информации также могут использоваться различ­ные способы кодировки, которые отличаются друг от друга эффективностью, а также различными требованиями к ресурсам компьютера.

Чем больше строк и точек, тем четче и лучше изображение. В настоящее время минимально допустимым считается разрешение 800 х 600, то есть 800 точек на строку и 600 строчек на экран.

Строки, из которых состоит изображение, можно просматривать сверху вниз друг за другом, как бы составив из них одну сплошную линию. После полного просмот­ра первой строки просматривается вторая, за ней третья, потом четвертая и т. д. до последней строки экрана. Этот процесс очень похож на принятый в большинстве стран мира способ чтения текстов, когда строчки просматриваются друг за другом слева направо и сверху вниз. Такой способ работы со строками называется строч­ной разверткой, или сканированием. А так как каждая из строк представляет со­бой последовательность пикселов, то все изображение, вытянутое в линию, также можно считать линейной последовательностью элементарных точек. В рассмат­риваемом случае эта последовательность состоит из 800 600 = 480 000 пикселов. Вначале рассмотрим принципы кодирования монохромного изображения, то есть изображения, состоящего из любых двух контрастных цветов - черного и белого, зеленого и белого, коричневого и белого и т. д. Для простоты обсуждения будем считать, что один из цветов - черный, а второй - белый. Тогда каждый пиксел изображения может иметь либо черный, либо белый цвет. Поставив в соответст­вие черному цвету двоичный код «0», а белому - код «1» (либо наоборот), мы сможем закодировать в одном бите состояние одного пиксела монохромного изо­бражения. А так как байт состоит из 8 бит, то на строчку, состоящую из 800 точек, потребуется 100 байтов памяти, а на все изображение - 60 000 байтов. Однако полученное таким образом изображение будет чрезмерно контрастным. Реальное черно-белое изображение состоит не только из белого и черного цве­тов. В него входят множество различных промежуточных оттенков - серый, светло-серый, темно-серый и т. д. Если кроме белого и черного цветов использо­вать только две дополнительные градации, скажем светло-серый и темно-серый, то для того чтобы закодировать цветовое состояние одного пиксела потребу­ется уже два бита. При этом кодировка может быть, например, такой: черный, цвет - 00 2 , темно-серый - 01 2 , светло-серый - 10 2 , белый - 11 2 . Общепринятым на сегодняшний день, дающим достаточно реалистичные моно­хромные изображения считается кодирование состояния одного пиксела с помо­щью одного байта, которое позволяет передавать 256 различных оттенков серого цвета от полностью белого, до полностью черного. В этом случае для передачи всего растра из 800 х 600 пикселов потребуется уже не 60 000, а все 480 000 байтов.

Цветное изображение может формироваться различными способами. Один из них - метод RGB (от слов Red, Green, Blue - красный, зеленый, синий), кото­рый опирается на то, что глаз человека воспринимает все цвета как сумму трех основных цветов - красного, зеленого и синего. Например, сиреневый цвет - это сумма красного и синего, желтый цвет - сумма красного и зеленого и т. д. Для получения цветного пиксела в одно и то же место экрана направляется не один, а сразу три цветных луча. Упрощая ситуацию, будем считать, что для кодирования каждого из цветов достаточно одного бита. Нуль в бите будет означать, что в суммарном цвете данный основной отсутствует, а единица - при­сутствует. Следовательно, для кодирования одного цветного пиксела потребуется 3 бита - по одному на каждый цвет. Пусть первый бит соответствует красному цвету, второй - зеленому и третий - синему. Тогда код 101 2 обозначает сирене­вый цвет - красный есть, зеленого нет, синий есть, а код 110 2 - желтый цвет - красный есть, зеленый есть, синего нет. При такой схеме кодирования каждый пиксел может иметь один из восьми возможных цветов. Если же каждый из цве­тов кодировать с помощью одного байта, как это принято для реалистического монохромного изображения, появится возможность передавать по 256 оттенков каждого из основных цветов. А всего в этом случае обеспечивается передача 256 256 256 = 16 777 216 различных цветов, что довольно близко к реальной чувствительности человеческого глаза. Таким образом, при данной схеме коди­рования цвета на изображение одного пиксела требуется 3 байта, или 24 бита па­мяти. Этот способ представления цветной графики принято называть режимом True Color (true color - истинный цвет) или полноцветным режимом.

Полноцветный режим требует очень много памяти. Так, для обсуждавшегося выше растра 800 х 600 при использовании метода RGB требуется 1 440 000 байтов. В целях экономии памяти разрабатываются различные режимы и графические форматы, которые немного хуже передают цвет, но требуют гораздо меньше памя­ти. В частности, можно упомянуть режим High Color (high color - богатый цвет), в котором для передачи цвета одного пиксела используется 16 битов и, следова­тельно, можно передать 65 535 цветовых оттенков, а также индексный режим, который базируется на заранее созданной для данного рисунка таблице исполь­зуемых в нем цветовых оттенков. Затем нужный цвет пиксела выбирается из этой таблицы с помощью номера - индекса, который занимает всего один байт памяти. При записи изображения в память компьютера кроме цвета отдельных точек необходимо фиксировать много дополнительной информации - размеры рисунка, разрешение, яркость точек и т. д. Конкретный способ кодирования всей требуемой при записи изображения в память компьютера информации образует графиче­ский формат. Форматы кодирования графической информации, основанные на передаче цвета каждого отдельного пиксела, из которого состоит изображение, относят к группе растровых или BMP (Bit MaP - битовая карта) форматов.

Аудио-и видеоинформация

Развитие способов кодирования звуковой информации, а также движущихся изо­бражений - анимации 1 и видеозаписей - происходило с запаздыванием относи­тельно рассмотренных выше разновидностей информации. Приемлемые способы хранения и воспроизведения с помощью компьютера звуковых и видеозаписей.

Заметим, что под анимацией понимается похожее на мультипликацию «оживление» изображений, но выполненое с помощью средств компьютерной графики. Анимация представляет собой последовательность незначительно отличающихся друг от друга, по­лученных с помощью компьютера картинок, которые фиксируют близкие по времени со­стояния движения какого-либо объекта.

появились только: в 90-х гг. XX в. Эти способы работы со звуком и видео полу­чили название мультимедийных технологий.

Звук представляет собой довольно сложное непрерывное колебание воздуха. Не­прерывные сигналы часто называют еще и аналоговыми. Оказывается, что такие непрерывные сигналы можно приближенно, но с достаточной точностью пред­ставлять в виде суммы некоторого числа простейших синусоидальных коле­баний. Причем каждое слагаемое, то есть каждая синусоида, может быть точно задано некоторым набором числовых параметров - амплитудой, фазой и часто­той, которые можно рассматривать как код звука в некоторый момент времени. Такой подход к записи звука называется преобразованием в цифровую форму, оцифровыванием или дискретизацией, так как непрерывный звуковой сигнал заменяется дискретным (то есть состоящим из обособленных, раздельных эле­ментов) набором значений сигнала - отсчетов сигнала - в некоторые последо­вательные моменты времени Количество отсчетов сигнала в единицу времени называется частотой дискретизации. В настоя­щее время при записи звука в мультимедийных технологиях применяются час­тоты 8,11, 22, 44 кГц до 192 кГц.Ч астота дискретизации 44 кГц означает, что одна секун­да непрерывного звучания заменяется набором из 44 тысяч отдельных отсчетов сигнала. Чем выше частота дискретизации, тем лучше качество оцифрованно­го звука.

Качество преобразования звука в цифровую форму определяется не только частотой дискретизации, но и количеством битов памяти, отводимых на запись кода одного отсчета. Этот параметр принято называть разрядностью преобразования. В настоящее время обычно используется разрядность 8,16 и 24 бит. На описанных выше принципах основывается формат WAV (от WAVeform-audio - волновая форма аудио) кодирования звука. Получить запись звука в этом формате можно от подключаемых к компьютеру микрофона, проигрывателя, магнитофона, теле­визора и других стандартно используемых устройств работы со звуком. Однако формат WAV занимает большой объем памяти (при записи стереофонического звука с частотой дискретизации 44 кГц и разрядностью 16 бит на одну минуту записи требуется около 10 миллионов байтов памяти).

Кроме волнового формата WAV, для записи звука широко применяется формат MIDI (Musical Instruments Digital Interface - цифровой интерфейс музыкаль­ных инструментов). Фактически, этот формат представляет собой набор инструк­ций, команд так называемого музыкального синтезатора - устройства, которое имитирует звучание реальных музыкальных инструментов. Получить запись звука в формате MIDI можно только от специальных электромузыкальных инструмен­тов, которые поддерживают интерфейс MIDI. Формат MIDI обеспечивает вы­сокое качество звука и требует значительно меньше памяти, чем формат WAV. Кодирование видеоинформации еще более сложная проблема, чем кодирование звуковой информации, так как нужно позаботиться не только о дискретизации непрерывных движений, но и о синхронизации изображения со звуковым сопро­вождением. В настоящее время для этого используется формат, которой называ­ется AVI (Audio-Video Interleaved - чередующееся аудио и видео).

Основные мультимедийные форматы AVI и WAV очень требовательны к памя­ти. Поэтому на практике применяются различные способы компрессии, то есть сжатия звуковых и видеокодов. В настоящее время стандартными стали способы сжатия, предложенные MPEG (Moving Pictures Experts Group - группа экспер­тов по движущимся изображениям). В частности, стандарт MPEG-1 включает в себя несколько популярных в настоящее время форматов записи звука. Так, например, при записи в формате МРЗ при практически том же качестве звука требуется в десять раз меньше памяти, чем при использовании формата WAV. Существуют специальные программы, которые преобразуют записи звука из фор­мата WAV в формат МРЗ. Стандарт MPEG-2 описывает методы сжатия видео­записей, которые обеспечивают телевизионное качество изображения и стереозву­ковое сопровождение и имеют приемлемые требования к памяти. Стандарт MPEG-4 по­зволяет записать полнометражный цветной фильм со звуковым сопровождением на компакт-диск.

Задачи накопления (хранения), обработки и передачи информации стояли перед человечеством на всех этапах его развития. Каждому этапу соответствовал определенный уровень развития средств информационного труда, прогресс развития которых всякий раз придавал человеческому обществу новое качество. Ранее были выделены основные этапы обращения с информацией, и они являются общими для всех наук при обработке информации с помощью ЭВМ. Научным фундаментом для их решения стала такая наука, как информатика.

Информатика – комплексная научно-техническая дисциплина, занимающаяся изучением структуры и общих свойств информации, информационных процессов, разработкой на этой основе информационной техники и технологии, а также решением научных и инженерных проблем создания, внедрения и эффективного использования компьютерной техники и технологии во всех сферах общественной практики.

Истоки информатики можно искать в глубине веков. Много столетий тому назад потребность выразить и запомнить информацию привела к появлению речи, письменности, счета. Люди пытались изобретать, а затем совершенствовать способы хранения, обработки и распространения информации. До сих пор сохранились свидетельства попыток наших далеких предков сохранять информацию – примитивные наскальные рисунки, записи на берестяной коре и глиняных дощечках, затем рукописные книги.

Появление в ХVI веке печатного станка позволило значительно увеличить возможности человека обрабатывать и хранить нужные сведения. Это явилось важным этапом развития человечества. Информация в печатном виде была основным способом хранения и обмена и продолжала им оставаться вплоть до середины ХХ века. Только с появлением ЭВМ возникли принципиально новые, гораздо более эффективные способы сбора, хранения, обработки и передачи информации (рис. 1.1).

Рисунок 1.1. Развитие способов хранения информации


Развивались способы передачи информации. Примитивный способ передачи посланий от человека к человеку сменился более прогрессивной почтовой связью. Почтовая связь давала достаточно надежный способ обмена информацией. Однако не следует забывать, что таким образом могли передаваться только сообщения, написанные на бумаге. А главное – скорость передачи сообщения была соизмерима только со скоростью передвижения человека. Изобретение телеграфа, телефона дало принципиально новые возможности обработки и передачи информации.

Появление электронно-вычислительных машин позволило обрабатывать, а впоследствии и передавать информацию со скоростью, в несколько миллионов раз превышающей скорость обработки (рис. 1.2) и передачи информации человеком (рис. 1.3).


Рисунок 1.2. Развитие способов обработки информации



Рисунок 1.3. Развитие способов передачи информации


Основу современной информатики образуют три составные части, каждая из которых может рассматриваться как относительно самостоятельная научная дисциплина (рис. 1.4).

Теоретическая информатика – часть информатики, занимающаяся изучением структуры и общих свойств информации и информационных процессов, разработкой общих принципов построения информационной техники и технологии. Она основана на использовании математических методов и включает в себя такие основные математические разделы, как теория алгоритмов и автоматов, теория информации и теория кодирования, теория формальных языков и грамматик, исследование операций и др.).

Средства информатизации (технические и программные) – раздел, занимающийся изучением общих принципов построения вычислительных устройств и систем обработки и передачи данных, а также вопросов, связанных с разработкой систем программного обеспечения.

Информационные системы и технологии – раздел информатики, связанный с решением вопросов анализа потоков информации, их оптимизации, структурирования в различных сложных системах, с разработкой принципов реализации в данных системах информационных процессов.

Информатика находит широкое применение в различных областях современной жизни: в производстве, науке, образовании и других сферах деятельности человека.

Развитие современной науки предполагает проведение сложных и дорогостоящих экспериментов, таких, как, например, при разработке термоядерных реакторов. Информатика позволяет заменить реальные эксперименты машинными. Это экономит колоссальные ресурсы, дает возможность обработать полученные результаты самыми современными методами. Кроме того, такие эксперименты занимают гораздо меньше времени, чем настоящие. А в некоторых областях науки, например, в астрофизике, проведение реального эксперимента просто невозможно. Здесь в основном все исследования проводятся посредством вычислительных и модельных экспериментов.


Рисунок 1.4. Структура информатики как научной дисциплины


Дальнейшее развитие информатики, как и любой другой науки, влечет за собой новые достижения, открытия, а следовательно, и новые области применения, которые, может быть, трудно сегодня предположить.

Информатика – очень широкая сфера научных знаний, возникшая на стыке нескольких фундаментальных и прикладных дисциплин.

Как комплексная научная дисциплина информатика связана (рис. 1.5):

С философией и психологией – через учение об информации и теорию познания;

С математикой – через теорию математического моделирования, дискретную математику, математическую логику и теорию алгоритмов;

С лингвистикой – через учение о формальных языках и о знаковых системах;

С кибернетикой – через теорию информации и теорию управления;

С физикой и химией, электроникой и радиотехникой – через «материальную» часть компьютера и информационных систем.


Рисунок 1.5. Связь информатики с другими науками


Роль информатики в развитии общества чрезвычайно велика. Она является научным фундаментом процесса информатизации общества. С ней связаны прогрессивное увеличение возможностей компьютерной техники, развитие информационных сетей, создание новых информационных технологий, которые приводят к значительным изменениям во всех сферах общества: в производстве, науке, образовании, медицине и т. д.

Главная функция информатики состоит в разработке методов и средств преобразования информации с использованием компьютера и в применении их при организации технологического процесса преобразования информации.

Выполняя свою функцию, информатика решает следующие задачи:

Исследует информационные процессы в социальных системах;

Разрабатывает информационную технику и создает новейшие технологии преобразования информации на основе результатов, полученных в ходе исследования информационных процессов;

Решает научные и инженерные проблемы создания, внедрения и обеспечения эффективного использования компьютерной техники и технологии во всех сферах человеческой деятельности.

1.2. Понятие информации. Общая характеристика процессов сбора, передачи, обработки и накопления информации

Вся жизнь человека так или иначе связана с накоплением и обработкой информации, которую он получает из окружающего мира, используя пять органов чувств – зрение, слух, вкус, обоняние и осязание. Как научная категория «информация» составляет предмет изучения для самых различных дисциплин: информатики, кибернетики, философии, физики, биологии, теории связи и т. д. Несмотря на это, строгого научного определения, что же такое информация, до настоящего времени не существует, а вместо него обычно используют понятие об информации. Понятия отличаются от определений тем, что разные дисциплины в разных областях науки и техники вкладывают в него разный смысл, с тем чтобы оно в наибольшей степени соответствовало предмету и задачам конкретной дисциплины. Имеется множество определений понятия информации – от наиболее общего философского (информация есть отражение реального мира) до наиболее частного прикладного (информация есть сведения, являющиеся объектом переработки).

Первоначально смысл слова «информация» (от лат. Informatio – разъяснение, изложение) трактовался как нечто присущее только человеческому сознанию и общению: «знания, сведения, сообщения, известия, передаваемые людьми устным, письменным или другим способом».

Информация не является ни материей, ни энергией. В отличие от них, она может возникать и исчезать.

Особенность информации заключается в том, что проявляется она только при взаимодействии объектов, причем обмен информацией может совершаться не вообще между любыми объектами, а только между теми из них, которые представляют собой организованную структуру (систему). Элементами этой системы могут быть не только люди: обмен информацией может происходить в животном и растительном мире, между живой и неживой природой, людьми и устройствами.

Информация – наиболее важный ресурс современного производства: он снижает потребность в земле, труде, капитале, уменьшает расход сырья и энергии, вызывает к жизни новые производства, является товаром, причем продавец информации не теряет ее после продажи, может накапливаться.

Понятие «информация» обычно предполагает наличие двух объектов – «источника» информации и «приемника» (потребителя, адресата) информации.

Информация передается от источника к приемнику в материально-энергетической форме в виде сигналов (например, электрических, световых, звуковых и т. д.), распространяющихся в определенной среде.

Сигнал (от лат. signum – знак) – физический процесс (явление), несущий сообщение (информацию) о событии или состоянии объекта наблюдения.

Информация может поступать в аналоговом (непрерывном) виде или дискретно (в виде последовательности отдельных сигналов). Соответственно различают аналоговую и дискретную информацию.

Понятие информации можно рассматривать с двух позиций: в широком смысле слова – это окружающий нас мир, обмен сведениями между людьми, обмен сигналами между живой и неживой природой, людьми и устройствами; в узком смысле слова информация – это любые сведения, которые можно сохранить, преобразовать и передать.

Информация – специфический атрибут реального мира, представляющий собой его объективное отражение в виде совокупности сигналов и проявляющийся при взаимодействии с «приемником» информации, позволяющим выделять, регистрировать эти сигналы из окружающего мира и по тому или иному критерию их идентифицировать.

Из этого определения следует, что:

Информация объективна, так как это свойство материи – отражение;

Информация проявляется в виде сигналов и лишь при взаимодействии объектов;

Одна и та же информация различными получателями может быть интерпретирована по-разному в зависимости от «настройки» «приемника».

Человек воспринимает сигналы посредством органов чувств, которые «идентифицируются» мозгом. Приемники информации в технике воспринимают сигналы с помощью различной измерительной и регистрирующей аппаратуры. При этом приемник, обладающий большей чувствительностью при регистрации сигналов и более совершенными алгоритмами их обработки, позволяет получить большие объемы информации.

Информация имеет определенные функции. Основными из них являются:

Познавательная – получение новой информации. Функция реализуется в основном через такие этапы обращения информации, как:

– ее синтез (производство)

– представление

– хранение (передача во времени)

– восприятие (потребление)

Коммуникативная – функция общения людей, реализуемая через такие этапы обращения информации, как:

– передача (в пространстве)

– распределение

Управленческая – формирование целесообразного поведения управляемой системы, получающей информацию. Эта функция информации неразрывно связана с познавательной и коммуникативной и реализуется через все основные этапы обращения, включая обработку.

Без информации не может существовать жизнь в любой форме и не могут функционировать любые информационные системы, созданные человеком. Без нее биологические и технические системы представляют груду химических элементов. Общение, коммуникации, обмен информацией присущи всем живым существам, но в особой степени человеку. Будучи аккумулированной и обработанной с определенных позиций, информация дает новые сведения, приводит к новому знанию. Получение информации из окружающего мира, ее анализ и генерирование составляют одну из основных функций человека, отличающую его от остального живого мира.

В общем случае роль информации может ограничиваться эмоциональным воздействием на человека, однако наиболее часто она используется для выработки управляющих воздействий в автоматических (чисто технических) и автоматизированных (человеко-машинных) системах. В подобных системах можно выделить отдельные этапы (фазы) обращения информации, каждый из которых характеризуется определенными действиями.

Последовательность действий, выполняемых с информацией, называют информационным процессом.

Основными информационными процессами являются:

– сбор (восприятие) информации;

– подготовка (преобразование) информации;

– передача информации;

– обработка (преобразование) информации;

– хранение информации;

– отображение (воспроизведение) информации.

Так как материальным носителем информации является сигнал, то реально это будут этапы обращения и преобразования сигналов (рис. 1.6).


Рисунок 1.6. Основные информационные процессы


На этапе восприятия информации осуществляется целенаправленное извлечение и анализ информации о каком-либо объекте (процессе), в результате чего формируется образ объекта, проводятся его опознание и оценка. Главная задача на этом этапе – отделить полезную информацию от мешающей (шумов), что в ряде случаев связано со значительными трудностями.

На этапе подготовки информации осуществляется ее первичное преобразование. На этом этапе проводятся такие операции, как нормализация, аналого-цифровое преобразование, шифрование. Иногда этап подготовки рассматривается как вспомогательный на этапе восприятия. В результате восприятия и подготовки получается сигнал в форме, удобной для передачи, хранения или обработки.

На этапе передачи информация пересылается из одного места в другое (от отправителя получателю – адресату). Передача осуществляется по каналам различной физической природы, самыми распространенными из которых являются электрические, электромагнитные и оптические. Извлечение сигнала на выходе канала, подверженного действию шумов, носит характер вторичного восприятия.

На этапах обработки информации выявляются ее общие и существенные взаимозависимости, представляющие интерес для системы. Преобразование информации на этапе обработки (как и на других этапах) осуществляется либо средствами информационной техники, либо человеком.

Под обработкой информации понимается любое ее преобразование, проводимое по законам логики, математики, а также неформальным правилам, основанным на «здравом смысле», интуиции, обобщенном опыте, сложившихся взглядах и нормах поведения. Результатом обработки является тоже информация, но либо представленная в иных формах (например, упорядоченная по каким-то признакам), либо содержащая ответы на поставленные вопросы (например, решение некоторой задачи). Если процесс обработки формализуем, он может выполняться техническими средствами. Кардинальные сдвиги в этой области произошли благодаря созданию ЭВМ как универсального преобразователя информации, в связи с чем появились понятия данных и обработки данных.

Данными называют факты, сведения, представленные в формализованном виде (закодированные), занесенные на те или иные носители и допускающие обработку с помощью специальных технических средств (в первую очередь ЭВМ).

Обработка данных предполагает производство различных операций над ними, в первую очередь арифметических и логических, для получения новых данных, которые объективно необходимы (например, при подготовке ответственных решений).

На этапе хранения информацию записывают в запоминающее устройство для последующего использования. Для хранения информации используются в основном полупроводниковые и магнитные носители.

Этап отображения информации должен предшествовать этапам, связанным с участием человека. Цель этого этапа – предоставить человеку нужную ему информацию с помощью устройств, способных воздействовать на его органы чувств.

Любая информация обладает рядом свойств, которые в совокупности определяют степень ее соответствия потребностям пользователя (качество информации). Можно привести немало разнообразных свойств информации, так как каждая научная дисциплина рассматривает те свойства, которые ей наиболее важны. С точки зрения информатики наиболее важными представляются следующие:

Актуальность информации – свойство информации сохранять ценность для потребителя в течение времени, т. е. не подвергаться «моральному» старению.

Полнота информации – свойство информации, характеризуемое мерой достаточности для решения определенных задач. Полнота информации означает, что она обеспечивает принятие правильного (оптимального) решения. Оценивается относительно вполне определенной задачи или группы задач.

Адекватность информации – свойство, заключающееся в соответствии содержательной информации состоянию объекта. Нарушение идентичности связано с техническим старением информации, при котором происходит расхождение реальных признаков объектов и тех же признаков, отображенных в информации.

Сохранность информации – свойство информации, характеризуемое степенью готовности определенных информационных массивов к целевому применению и определяемое способностью контроля и защиты информации обеспечить постоянное наличие и своевременное предоставление информационного массива, необходимых для автоматизированного решения целевых и функциональных задач системы.

Достоверность информации – свойство информации, характеризуемое степенью соответствия реальных информационных единиц их истинному значению. Требуемый уровень достоверности информации достигается путем внедрения методов контроля и защиты информации на всех стадиях ее переработки, повышения надежности комплекса технических и программных средств информационной системы, а также административно-организационными мерами.

Информационное общество

Современное общество характеризуется резким ростом объемов информации, циркулирующей во всех сферах человеческой деятельности. Это привело к информатизации общества.

Под информатизацией общества понимают организованный социально-экономический и научно-технический процесс создания оптимальных условий для удовлетворения информационных потребностей и реализации прав физических и юридических лиц на основе формирования и использования информационных ресурсов – документов в различной форме представления.

Целью информатизации является создание информационного общества, когда большинство людей занято производством, хранением, переработкой, реализацией и использованием информации. Для решения этой задачи возникают новые направления в научной и практической деятельности членов общества. Так возникли информатика и информационные технологии.

Характерными чертами информационного общества являются:

1) отсутствие проблемы информационного кризиса, устранение противоречия между информационной лавиной и информационным голодом;

2) приоритет информации перед другими ресурсами;

3) создание информационной экономики как главной формы развития общества;

4) формирование автоматизированной генерации, хранения, обработки и использования знаний с помощью новейшей информационной техники и технологии.

5) информационные технологии, приобретая глобальный характер, охватывают все сферы социальной деятельности человека;

6) образование информационного единства всей человеческой цивилизации;

7) реализация свободного доступа каждого человека к информационным ресурсам всей цивилизации;

8) решение гуманистических принципов управления обществом и воздействия на окружающую среду.


Помимо перечисленных положительных результатов процесса информатизации общества, возможны и негативные тенденции, сопровождающие этот процесс:

1) чрезмерное влияние средств массовой информации;

2) вторжение информационных технологий в частную жизнь человека;

3) сложность адаптации некоторых людей к информационному обществу;

4) проблема качественного отбора достоверной информации.

В настоящий момент ближе всех стран к информационному обществу находятся США, Япония, Англия, страны Западной Европы.

1.3. Системы счисления

Система счисления – это способ записи чисел с помощью заданного набора специальных знаков (цифр).

Существуют системы позиционные и непозиционные.

В непозиционных системах счисления вес цифры не зависит от позиции, которую она занимает в числе. Так, например, в римской системе счисления в числе XXXII (тридцать два) вес цифры X в любой позиции равен просто десяти.

В позиционных системах счисления вес каждой цифры изменяется в зависимости от ее позиции в последовательности цифр, изображающих число.

Любая позиционная система характеризуется своим основанием. Основание позиционной системы счисления – это количество различных знаков или символов, используемых для изображения цифр в данной системе.

За основание можно принять любое натуральное число – два, три, четыре, шестнадцать и т. д. Следовательно, возможно бесконечное множество позиционных систем.

Десятичная система счисления

Пришла в Европу из Индии, где она появилась не позднее VI века н. э. В этой системе 10 цифр: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, однако информацию несет не только цифра, но и место, на котором цифра стоит (то есть ее позиция). В десятичной системе счисления особую роль играют число 10 и его степени: 10, 100, 1000 и т. д. Самая правая цифра числа показывает число единиц, вторая справа – число десятков, следующая – число сотен и т. д.

Двоичная система счисления

В этой системе всего две цифры – 0 и 1. Особую роль здесь играет число 2 и его степени: 2, 4, 8 и т. д. Самая правая цифра числа показывает число единиц, следующая цифра – число двоек, следующая – число четверок и т. д. Двоичная система счисления позволяет закодировать любое натуральное число – представить его в виде последовательности нулей и единиц. В двоичном виде можно представлять не только числа, но и любую другую информацию: тексты, картинки, фильмы и аудиозаписи. Инженеров двоичное кодирование привлекает тем, что легко реализуется технически.

Восьмеричная система счисления

В этой системе счисления 8 цифр: 0, 1, 2, 3, 4, 5, 6, 7. Цифра 1, указанная в самом младшем разряде, означает, как и в десятичном числе, просто единицу. Та же цифра 1 в следующем разряде означает 8, в следующем – 64 и т. д. Число 100 (восьмеричное) есть не что иное, как 64 (десятичное). Чтобы перевести в двоичную систему, например, число 611 (восьмеричное), надо заменить каждую цифру эквивалентной ей двоичной триадой (тройкой цифр). Легко догадаться, что для перевода многозначного двоичного числа в восьмеричную систему нужно разбить его на триады справа налево и заменить каждую триаду соответствующей восьмеричной цифрой.

Шестнадцатеричная система счисления

Запись числа в восьмеричной системе счисления достаточно компактна, но еще компактнее она получается в шестнадцатеричной системе. В качестве первых 10 из 16 шестнадцатеричных цифр взяты привычные цифры 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, а вот в качестве остальных 6 цифр используют первые буквы латинского алфавита: A, B, C, D, E, F. Цифра 1, записанная в самом младшем разряде, означает просто единицу. Та же цифра 1 в следующем – 16 (десятичное), в следующем – 256 (десятичное) и т. д. Цифра F, указанная в самом младшем разряде, означает 15 (десятичное). Перевод из шестнадцатеричной системы в двоичную и обратно производится аналогично тому, как это делается для восьмеричной системы.

Таблица 1. Соответствие между первыми несколькими натуральными числами всех трех систем счисления

1.4. Кодирование информации

В настоящее время во всех вычислительных машинах информация представляется с помощью электрических сигналов. При этом возможны две формы ее представления – в виде непрерывного сигнала (с помощью сходной величины – аналога) и в виде нескольких сигналов (с помощью набора напряжений, каждое из которых соответствует одной из цифр представляемой величины).

Первая форма представления информации называется аналоговой, или непрерывной. Величины, представленные в такой форме, могут принимать принципиально любые значения в определенном диапазоне. Количество значений, которые может принимать такая величина, бесконечно велико. Отсюда названия – непрерывная величина и непрерывная информация. Слово непрерывность отчетливо выделяет основное свойство таких величин – отсутствие разрывов, промежутков между значениями, которые может принимать данная аналоговая величина. При использовании аналоговой формы для создания вычислительной машины потребуется меньшее число устройств (каждая величина представляется одним, а не несколькими сигналами), но эти устройства будут сложнее (они должны различать значительно большее число состояний сигнала). Непрерывная форма представления используется в аналоговых вычислительных машинах (АВМ). Эти машины предназначены в основном для решения задач, описываемых системами дифференциальных уравнений: исследования поведения подвижных объектов, моделирования процессов и систем, решения задач параметрической оптимизации и оптимального управления. Устройства для обработки непрерывных сигналов обладают более высоким быстродействием, они могут интегрировать сигнал, выполнять любое его функциональное преобразование и т. п. Однако из-за сложности технической реализации устройств выполнения логических операций с непрерывными сигналами, длительного хранения таких сигналов, их точного измерения АВМ не могут эффективно решать задачи, связанные с хранением и обработкой больших объемов информации.

Вторая форма представления информации называется дискретной (цифровой). Такие величины, принимающие не все возможные, а лишь вполне определенные значения, называются дискретными (прерывистыми). В отличие от непрерывной величины, количество значений дискретной величины всегда будет конечным. Дискретная форма представления используется в цифровых электронно-вычислительных машинах (ЭВМ), которые легко решают задачи, связанные с хранением, обработкой и передачей больших объемов информации.

Для автоматизации работы ЭВМ с информацией, относящейся к различным типам, очень важно унифицировать их форму представления – для этого обычно используется прием кодирования.

Кодирование – это представление сигнала в определенной форме, удобной или пригодной для последующего использования сигнала. Говоря строже, это правило, описывающее отображение одного набора знаков в другой набор знаков. Тогда отображаемый набор знаков называется исходным алфавитом, а набор знаков, который используется для отображения, – кодовым алфавитом, или алфавитом для кодирования. При этом кодированию подлежат как отдельные символы исходного алфавита, так и их комбинации. Аналогично для построения кода используются как отдельные символы кодового алфавита, так и их комбинации.

Совокупность символов кодового алфавита, применяемых для кодирования одного символа (или одной комбинации символов) исходного алфавита, называется кодовой комбинацией, или, короче, кодом символа. При этом кодовая комбинация может содержать один символ кодового алфавита.

Символ (или комбинация символов) исходного алфавита, которому соответствует кодовая комбинация, называется исходным символом.

Совокупность кодовых комбинаций называется кодом.

Взаимосвязь символов (или комбинаций символов, если кодируются не отдельные символы исходного алфавита) исходного алфавита с их кодовыми комбинациями составляет таблицу соответствия (или таблицу кодов).

В качестве примера можно привести систему записи математических выражений, азбуку Морзе, морскую флажковую азбуку, систему Брайля для слепых и др.

В вычислительной технике также существует своя система кодирования – она называется двоичным кодированием и основана на представлении данных последовательностью всего двух знаков: 0 и 1 (используется двоичная система счисления). Эти знаки называются двоичными цифрами, или битами (binary digital).

Если увеличивать на единицу количество разрядов в системе двоичного кодирования, то увеличивается в два раза количество значений, которое может быть выражено в данной системе. Для расчета количества значений используется следующая формула:

где N – количество независимо кодируемых значений,

а m – разрядность двоичного кодирования, принятая в данной системе.

Например, какое количество значений (N) можно закодировать 10-ю разрядами (m)?

Для этого возводим 2 в 10 степень (m) и получаем N=1024, т. е. в двоичной системе кодирования 10-ю разрядами можно закодировать 1024 независимо кодируемых значения.

Кодирование текстовой информации

Для кодирования текстовых данных используются специально разработанные таблицы кодировки, основанные на сопоставлении каждого символа алфавита с определенным целым числом. Восьми двоичных разрядов достаточно для кодирования 256 различных символов. Этого хватит, чтобы выразить различными комбинациями восьми битов все символы английского и русского языков, как строчные, так и прописные, а также знаки препинания, символы основных арифметических действий и некоторые общепринятые специальные символы. Но не все так просто, и существуют определенные сложности. В первые годы развития вычислительной техники они были связаны с отсутствием необходимых стандартов, а в настоящее время, наоборот, вызваны изобилием одновременно действующих и противоречивых стандартов. Практически для всех распространенных на земном шаре языков созданы свои кодовые таблицы. Для того чтобы весь мир одинаково кодировал текстовые данные, нужны единые таблицы кодирования, что до сих пор пока еще не стало возможным.

Кодирование графической информации

Кодирование графической информации основано на том, что изображение состоит из мельчайших точек, образующих характерный узор, называемый растром. Каждая точка имеет свои линейные координаты и свойства (яркость), следовательно, их можно выразить с помощью целых чисел – растровое кодирование позволяет использовать двоичный код для представления графической информации. Черно-белые иллюстрации представляются в компьютере в виде комбинаций точек с 256 градациями серого цвета – для кодирования яркости любой точки достаточно восьмиразрядного двоичного числа.

Для кодирования цветных графических изображений применяется принцип декомпозиции (разложения) произвольного цвета на основные составляющие. При этом могут использоваться различные методы кодирования цветной графической информации. Например, на практике считается, что любой цвет, видимый человеческим глазом, можно получить путем механического смешивания основных цветов. В качестве таких составляющих используют три основных цвета: красный (Red, R), зеленый (Green, G) и синий (Blue, B). Такая система кодирования называется системой RGB.

На кодирование цвета одной точки цветного изображения надо затратить 24 разряда. При этом система кодирования обеспечивает однозначное определение 16,5 млн различных цветов, что на самом деле близко к чувствительности человеческого глаза. Режим представления цветной графики с использованием 24 двоичных разрядов называется полноцветным (True Color).

Каждому из основных цветов можно поставить в соответствие дополнительный цвет, то есть цвет, дополняющий основной цвет до белого. Соответственно дополнительными цветами являются: голубой (Cyan, C), пурпурный (Magenta, M) и желтый (Yellow, Y). Такой метод кодирования принят в полиграфии, но в полиграфии используется еще и четвертая краска – черная (Black, K). Данная система кодирования обозначается CMYK, и для представления цветной графики в этой системе надо иметь 32 двоичных разряда. Такой режим называется полноцветным (True Color).

Если уменьшать количество двоичных разрядов, используемых для кодирования цвета каждой точки, то можно сократить объем данных, но при этом диапазон кодируемых цветов заметно сокращается. Кодирование цветной графики 16-разрядными двоичными числами называется режимом High Color.

Кодирование звуковой информации

Приемы и методы кодирования звуковой информации пришли в вычислительную технику наиболее поздно и до сих пор далеки от стандартизации. Множество отдельных компаний разработали свои корпоративные стандарты, хотя можно выделить два основных направления.

Метод FM (Frequency Modulation) основан на том, что теоретически любой сложный звук можно разложить на последовательность простейших гармоничных сигналов разной частоты, каждый из которых представляет правильную синусоиду, а следовательно, может быть описан числовыми параметрами, то есть кодом. В природе звуковые сигналы имеют непрерывный спектр, то есть являются аналоговыми. Их разложение в гармонические ряды и представление в виде дискретных цифровых сигналов выполняют специальные устройства – аналогово-цифровые преобразователи (АЦП). Обратное преобразование для воспроизведения звука, закодированного числовым кодом, выполняют цифро-аналоговые преобразователи (ЦАП). При таких преобразованиях часть информации теряется, поэтому качество звукозаписи обычно получается не вполне удовлетворительным и соответствует качеству звучания простейших электромузыкальных инструментов с «окрасом», характерным для электронной музыки.

Метод таблично-волнового синтеза (Wave-Table) лучше соответствует современному уровню развития техники. Имеются заранее подготовленные таблицы, в которых хранятся образцы звуков для множества различных музыкальных инструментов. В технике такие образцы называются сэмплами. Числовые коды выражают тип инструмента, номер его модели, высоту тона, продолжительность и интенсивность звука, динамику его изменения. Поскольку в качестве образцов используются «реальные» звуки, то качество звука, полученного в результате синтеза, получается очень высоким и приближается к качеству звучания реальных музыкальных инструментов.

Единицы измерения данных

Наименьшей единицей измерения информации является байт, равный восьми битам. Одним байтом можно закодировать одно из 256 значений. Существуют и более крупные единицы, такие как килобайт (Кбайт), мегабайт (Мбайт), гигабайт (Гбайт) и терабайт (Тбайт).

1 байт = 8 бит

1 Кбайт = 1024 байт

1 Мбайт = 1024 Кбайт = 2 20 байт

1 Гбайт = 1024 Мбайт = 2 30 байт

1 Тбайт = 1024 Гбайт = 2 40 байт

Контрольные вопросы

1. Что изучает информатика?

2. Как развивались способы сбора, хранения и передачи информации?

3. Какова структура современной информатики?

4. Что такое информация?

5. Какие функции выполняет информация?

6. Дайте характеристику основным информационным процессам.

7. В чем основное отличие данных от информации?

8. Какими свойствами обладает информация?

9. Что понимается под информатизацией общества?

10. Какими характерными чертами обладает информационное общество?

11. Что такое системы счисления и какие они бывают? Приведите примеры.

12. Дайте характеристику основным позиционным системам счисления.

13. В каких двух видах может быть представлена информация? Охарактеризуйте их и приведите примеры.

14. Что такое кодирование? Приведите примеры кодирования из жизни.

15. Что является основной единицей представления информации в ЭВМ?

16. Как кодируются различные виды информации в ЭВМ?

17. С помощью каких единиц измеряют информацию?

Даже для малых по объему разовых статистических исследований полностью окупаются усилия, затраченные на своевременное и полное описание используемых массивов, входящих в них переменных и всех шагов статистического анализа. Раннее и тщательное изготовление документации снимает много недоразумений. Большие статистические исследования выполняются коллективно, состав участников работы частично меняется в процессе ее осуществления, обработка собранных материалов растягивается во времени и проводится итеративно, когда вновь и вновь обращаются к данным для проверки возникающих по ходу анализа гипотез. Во многих исследованиях (например, медицинских) часто к тому же происходит постоянное пополнение данных новыми сведениями. В этих условиях продуманное и тщательное ведение документации становится просто необходимым как важнейшее условие обеспечения преемственности в осуществлении исследования. Остановимся кратко на отдельных аспектах этого процесса.

Паспортизация исследования, массивов, переменных, способов анализа. Для каждого из указанных выше объектов желательно в ЭВМ иметь следующее: 1) краткое имя, обязательно появляющееся во всех выдачах; 2) полное имя, идущее в основном в отчеты, но иногда и в выдачи, когда краткого имени недостаточно для однозначного понимания их смысла; 3) описание, которое для исследований кратко раскрывает содержание работы и указывает связь между массивами; для массивов уточняет условия их сбора или формирования; для переменных дает способ их получения, измерения или регистрации; для способа анализа - ссылки на источники, где может быть найдено точное описание метода. Описания используются в основном при формировании

отчетов и иногда в качестве вспомогательного комментария, облегчающего понимание отдельных выдач; и только для переменных 4) указание пределов изменения или принимаемых значений, которые обязательно должны использоваться для контроля при вводе данных, а также при построении выходных таблиц.

Если по ходу анализа выделяются отдельные массивы или вводятся новые вспомогательные переменные, то их необходимо описывать столь же подробно, как и основные массивы и переменные.

Описанная выше автоматизация документирования исследования достигается при современном уровне развития математического обеспечения довольно простыми средствами, но позволяет решать очень важные задачи: осуществляет контроль переменных при вводе; обеспечивает «автономную читаемость» всех выдаваемых таблиц; повышает вероятность обнаружения неточностей и ошибок в описаниях; облегчает составление отчетов.

Кроме того, желательно ведение в ЭВМ или с помощью специальных картотек учета: какие виды анализа (программы) и к каким подмассивам применялись; какова при этом была выявленная мера зависимости между признаками, успешности прогноза, адекватности отображения объектов в пространство меньшей размерности и т. п.; адресов, где хранятся в ЭВМ или на полках соответствующие выдачи, а также ведение разноцелевых текстовых комментариев как по логике и ходу анализа, так и к отдельным распечаткам.

10.1.2. Ввод и хранение данных.

Для ввода обычно используются либо перфокарты, либо дисплей с высвечиванием шаблона, в который вписываются кодированные значения, либо дисплей с высвечиванием списка возможных значений переменной - так называемого «меню». Последние два способа позволяют сразу же обнаруживать грубые ошибки при вводе. Использование «меню» требует большего времени на ввод. «Меню» должно настраиваться автоматически по описанию переменных. Хранение данных должно быть организовано так, чтобы их можно было легко редактировать и пополнять.

10.1.3. Просмотр данных.

Очень существенно, чтобы собранные в статистическом исследовании данные были тщательно просмотрены и отредактированы прежде, чем к ним будет применена основная статистическая техника. Ошибки

в данных могут привести к неожиданным результатам, иногда интерпретируемым, иногда нет, но всегда неверным.

Просмотр данных преследует следующие цели:

1) обнаружение грубых ошибок в словаре исследования, а также ошибок, допущенных при кодировании, перфорации и вводе данных в ЭВМ;

2) указание возможных выбросов или аномальных, т. е. резко выделяющихся по своей величине наблюдений, которые могут быть нерепрезентативными для изучаемой популяции (более подробно см. § 11.5);

3) получение первого, грубого представления об одномерных и, частично, двумерных распределениях.

Укажем некоторые приемы, облегчающие проведение просмотра данных, или, как иногда говорят, скрининга.

Распечатка введенных в ЭВМ данных в табличной форме по объектам, иногда с их предварительной сортировкой по величине какого-либо признака. При этом проверяются наличие грубых ошибок при задании формата данных, правильность и удобочитаемость названия исследования и имен переменных, полнота введенного материала и отсутствие лишних данных, а также попадание численных значений переменных или их кодов в предусмотренный диапазон. Просмотр расположенных по столбцам переменных позволяет обычно сразу же выделить грубые ошибки. При желании столбцы можно просмотреть и на экране дисплея. Однако хорошо оформленная бумажная распечатка является удобным справочным документом и по другим вопросам, которые могут возникнуть на последующих стадиях анализа.

Построение одномерных распределений. Если ЭВМ строит гистограмму (см. § 10.3), то ее столбцьгудобно заполнять номерами наблюдений. В крайнем случае если наблюдений слишком много, то указывать отдельно номера наблюдений, вышедших за -ные квантили.

Указание номеров наблюдений удобно использовать и при построении двумерных распечаток. Если в одну точку попадает несколько наблюдений, на графике ставится специальный знак, а номера наблюдений печатаются ниже. Двумерные широкоформатные распечатки очень удобны для формирования предварительных содержательных гипотез о связи переменных. Математические вопросы построения эмпирических распределений рассматриваются в § 10.3.

Для представления информации в памяти ЭВМ (как числовой так и не числовой) используется двоичный способ кодирования.

Элементарная ячейка памяти ЭВМ имеет длину 8 бит (1 байт). Каждый байт имеет свой номер (его называют адресом). Наибольшую последовательность бит, которую ЭВМ может обрабатывать как единое целое, называют машинным словом. Длина машинного слова зависит от разрядности процессора и может быть равной 16, 32 битам и т.д.

Для кодирования символов достаточно одного байта. При этом можно представить 256 символов (с десятичными кодами от 0 до 255). Набор символов персональных компьютеров чаще всего является расширением кода ASCII (American Standart Code of Information Interchange - стандартный американский код для обмена информацией).

В некоторых случаях при представлении в памяти ЭВМ чисел используется смешанная двоично-десятичная система счисления, где для хранения каждого десятичного знак нужен полубайт (4 бита) и десятичные цифры от 0 до 9 представляются соответствующими двоичными числами от 0000 до 1001. Например, упакованный десятичный формат, предназначенный для хранения целых чисел с 18-ю значащими цифрами и занимающий в памяти 10 байт (старший из которых знаковый), использует именно этот вариант.

Другой способ представления целых чисел - дополнительный код . Диапазон значений величин зависит от количества бит памяти отведенных для их хранения. Например, величины типа Integer лежат в диапазоне от
-32768 (-2 15) до 32677 (2 15 -1) и для их хранения отводится 2 байта: типа LongInt - в диапазоне от -2 31 до 2 31 -1 и размещаются в 4 байтах: типа Word - в диапазоне от 0 до 65535 (2 16 -1) используется 2 байта и т.д.

Как видно из примеров, данные могут быть интерпретированы как числа со знаком, так и без знаков. В случае представления величины со знаком самый левый (старший) разряд указывает на положительное число, если содержит нуль, и на отрицательное, если - единицу.

Вообще, разряды нумеруются справа налево, начиная с нуля.

Дополнительный код положительного числа совпадает с его прямым кодом . Прямой код целого числа может быть представлен следующим образом: число переводиться в двоичную систему счисления, а затем его двоичную запись слева дополняют таким количеством незначащих нулей, сколько требует тип данных, к которому принадлежит число. Например, если число 37 (10) = 100101 (2) объявлено величиной типа Integer, то его прямым кодом будет 0000000000100101, а если величиной типа LongInt, то его прямой код будет. Для более компактной записи чаще используют шестнадцатеричный код. Полученные коды можно переписать соответственно как 0025 (16) и 00000025 (16) .

Дополнительный код целого отрицательного числа может быть получен по следующему алгоритму:

  1. записать прямой код модуля числа;
  2. инвертировать его (заменить единицы нулями, нули - единицами);
  3. прибавить к инверсионному коду единицу.

Например, запишем дополнительный код числа -37, интерпретируя его как величину типа LongInt:

  1. прямой код числа 37 есть1
  2. инверсный код
  3. дополнительный код или FFFFFFDB (16)

При получении по дополнительному коду числа, прежде всего, необходимо определить его знак. Если число окажется положительным, то просто перевести его код в десятичную систему исчисления. В случае отрицательного числа необходимо выполнить следующий алгоритм:

  1. вычесть из кода 1;
  2. инвертировать код;
  3. перевести в десятичную систему счисления. Полученное число записать со знаком минус.

Примеры. Запишем числа, соответствующие дополнительным кодам:

  1. 0000000000010111.

    Поскольку в старшем разряде записан нуль, то результат будет положительным. Это код числа 23.

  2. 1111111111000000.

    Здесь записан код отрицательного числа, исполняем алгоритм:

    1. 1111111111000000 (2) - 1 (2) = 1111111110111111 (2) ;
    2. 0000000001000000;
    3. 1000000 (2) = 64 (10)

Несколько иной способ применяется для представления в памяти персонального компьютера действительных чисел. Рассмотрим представление величин с плавающей точкой .

Любое действительное число можно записать в стандартном виде M*10 p , где 1 ≤ M < 10, р- целое число. Например, 120100000 = 1,201*10 8 . Поскольку каждая позиция десятичного числа отличается от соседней на степень числа 10, умножение на 10 эквивалентно сдвигу десятичной запятой на 1 позицию вправо. Аналогично деление на 10 сдвигает десятичную запятую на позицию влево. Поэтому приведенный выше пример можно продолжить: 120100000 = 1,201*10 8 = 0,1201*10 9 = 12,01*10 7 ... Десятичная запятая плавает в числе и больше не помечает абсолютное место между целой и дробной частями.

В приведённой выше записи М называют мантиссой числа, а р - его порядком . Для того чтобы сохранить максимальную точность, вычислительные машины почти всегда хранят мантиссу в нормализованном виде, что означает, что мантисса в данном случае есть число, лежащее между 1 (10) и 2 (10) (1 ≤ М < 2). Основные системы счисления здесь, как уже отмечалось выше,- 2. Способ хранения мантиссы с плавающей точкой подразумевает, что двоичная запятая находится на фиксированном месте. Фактически подразумевается, что двоичная запятая следует после первой двоичной цифры, т.е. нормализация мантиссы делает единичным первый бит, помещая тем самым значение между единицей и двойкой. Место, отводимое для числа с плавающей точкой, делится на два поля. Одно поле содержит знак и значение мантиссы, а другое содержит знак и значение порядка.

Персональный компьютер IBM PC с математическим сопроцессором 8087 позволяет работать со следующими действительными типами (диапазон значений указан по абсолютной величине):

63 52 0

Можно заметить, что старший бит, отведенный под мантиссу, имеет номер 51, т.е. мантисса занимает младшие 52 бита. Черта указывает здесь на положение двоичной запятой. Перед запятой должен стоять бит целой части мантиссы, но поскольку она всегда равна единице, здесь данный бит не требуется и соответствующий разряд отсутствует в памяти (но он подразумевается). Значение порядка храниться здесь не как целое число, представленное в дополнительном коде. Для упрощения вычислений и сравнения действительных чисел значение порядка в ЭВМ хранится в виде смещенного числа , т.е. к настоящему значению порядка, перед записью его в память, прибавляется смещение. Смещение выбирается так, чтобы минимальному значению порядка соответствовал нуль. Например, для типа Double порядок занимает 11 бит и имеет диапазон от 2 -1023 до 2 1023 , поэтому смещение равно 1023 (10) = 1111111111 (2) . Наконец, бит с номером 63 указывает на знак числа.

Таким образом, из вышесказанного вытекает следующий алгоритм для получения представления действительного числа в памяти ЭВМ:

  1. перевести модуль данного числа в двоичную систему счисления;
  2. нормализовать двоичное число, т.е. записать в виде М*2 p , где М - мантисса (ее целая часть равна 1 (2)) и р - порядок, записанный в десятичной системе счисления;
  3. прибавить к порядку смещение и перевести смещенный порядок в двоичную систему счисления;
  4. учитывая знак заданного числа (0 - положительное; 1 - отрицательное), выписать его представление в памяти ЭВМ.

Пример. Запишем код числа -312,3125.

  1. Двоичная запись модуля этого числа имеет вид 100111000,0101.
  2. Имеем 100111000,0101 = 1,001110000101*2 8 .
  3. Получаем смещенный порядок 8 + 1023 = 1031. Далее имеем 1031 (10) = 10000000111 (2) .
  4. Окончательно
    63 52 0
    1. Прежде всего, замечаем, что это код положительного числа, поскольку в разряде с номером 63 записан нуль, Получим порядок этого числа. 01111111110 (2) = 1022 (10) . 1022 - 1023 = -1.
    2. Число имеет вид 1,1100011*2 -1 или 0,11100011.
    3. Переводом в десятичную систему счисления получаем 0,88671875.

    Мы рассмотрели виды представления информации в памяти ЭВМ, теперь можно приступить к проверке знаний.

    Если же вам нужны варианты на бумаге то