Отбор информации связан с целенаправленным извлечением и анализом информации об объекте, процессе или явлении. Результатом этого отбора являются формирование модели (образа) объекта, процесса или явления, их опознание и оценка. Отбор информации выполняет несколько функций, среди которых можно выделить две важных функции: оценка информации на значимость и сжатие информации [3]. При оценке информации на значимость происходит ее селекция, или информационная фильтрация, результатом которой является отделение полезной информации от информационных шумов (помех). Сжатие информации необходимо для ее представления в компактном виде, позволяющем более эффективно использовать каналы, по которым передается информация, и средства ее хранения.
Преобразование информации включает в себя операции, связанные с нормализацией (приведение к определенным нормам), аналого-цифровым преобразованием, кодированием и т. д. Результатом преобразования информации является материальный носитель (сигнал), представленный в форме, удобной для передачи, обработки и хранения.
Передача информации – важная составляющая информационного процесса, в результате которого происходит транспортировка информации от источника информации к приемнику. Передача осуществляется в среде распространения по соответствующим каналам, имеющим различную физическую природу: электромагнитную, электрическую, оптическую и т. д.
Обработка информации также является важной составляющей информационного процесса. Под обработкой информации можно понимать действия, производимые с информацией по определенным законам (математики, логики, физики и т. д.) и неформальным правилам (опыт, интуиция, здравый смысл и т. д.). Результатом обработки является тоже информация, которая может быть представлена в иных формах (например, упорядоченная по каким-то признакам) или содержать ответы на поставленные вопросы [1]. В случае если процесс обработки подлежит формализации, он может осуществляться техническими средствами, например обработка информации на компьютере.
Хранение информации связано с ее записью на некоторый материальный носитель с целью дальнейшего поиска, извлечения и использования. В качестве таких носителей могут использоваться бумага, магнитная лента, накопители на гибких и жестких магнитных дисках, на оптических и магнитооптических дисках и т. д.
В заключение, говоря об информационном процессе, необходимо отметить, что это не простая последовательность действий, выполняемых с информацией, а их сложная взаимосвязь, взаимопроникновение и развитие. В каждом действии (составляющем процесс информации) можно найти признаки других составляющих: в отборе – преобразование, в хранении – передачу, в передаче – обработку и т. д.
Реализуются информационные процессы в системах, которые называются информационными, при этом под системой в общем случае понимается совокупность объектов и отношений между ними, существующая как единое целое.
Информационные системы также можно классифицировать по различным признакам: по сфере применения, организации информационных процессов, территориальному признаку, степени автоматизации информационных процессов и т. д. Например, по сфере применения информационные системы можно подразделить на административные, экономические, производственные, медицинские и т. д.
Для экономической информационной системы характерными признаками являются: непрерывное развитие, обусловленное появлением новых потребностей, сменой механизма хозяйствования; многоцелевой характер функционирования; присутствие человека как основного элемента системы. Под экономической информационной системой (ЭИС) будем понимать совокупность внутренних и внешних потоков прямой и обратной информационной связи экономического объекта, методов, средств, специалистов, участвующих в процессе обработки информации и выработке управленческих решений [2]. В качестве примера можно привести финансовые, банковские, страховые и тому пободные ЭИС.
1.2. Определение количества информации. Единицы измерения количества информации
Как уже отмечалось, понятие информации можно рассматривать при различных ограничениях, накладываемых на ее свойства, т. е. при различных уровнях рассмотрения. В основном выделяют три уровня – синтаксический, семантический и прагматический. Соответственно на каждом из них для определения количества информации применяют различные оценки.
На синтаксическом уровне для оценки количества информации используют вероятностные методы, которые принимают во внимание только вероятностные свойства информации и не учитывают другие (смысловое содержание, полезность, актуальность и т. д.). Разработанные в середине XX в. математические и, в частности, вероятностные методы позволили сформировать подход к оценке количества информации как к мере уменьшения неопределенности знаний. Такой подход, называемый также вероятностным, постулирует принцип: если некоторое сообщение приводит к уменьшению неопределенности наших знаний, то можно утверждать, что такое сообщение содержит информацию. При этом сообщения содержат информацию о каких-либо событиях, которые могут реализоваться с различными вероятностями. Формулу для определения количества информации для событий с различными вероятностями и получаемых от дискретного источника информации предложил американский ученый К. Шеннон в 1948 г. Согласно этой формуле количество информации может быть определено следующим образом:
где I – количество информации; N – количество возможных событий (сообщений); pi – вероятность отдельных событий (сообщений); Σ – математический знак суммы чисел.
Определяемое с помощью формулы (1.1) количество информации принимает только положительное значение. Поскольку вероятность отдельных событий меньше единицы, то соответственно выражение log^,– является отрицательной величиной и для получения положительного значения количества информации в формуле (1.1) перед знаком суммы стоит знак минус.
Если вероятность появления отдельных событий одинаковая и они образуют полную группу событий, т. е.
то формула (1.1) преобразуется в формулу Р. Хартли:
В формулах (1.1) и (1.2) отношение между количеством информации и соответственно вероятностью, или количеством, отдельных событий выражается с помощью логарифма. Применение логарифмов в формулах (1.1) и (1.2) можно объяснить следующим образом. Для простоты рассуждений воспользуемся соотношением (1.2). Будем последовательно присваивать аргументу N значения, выбираемые, например, из ряда чисел: 1, 2, 4, 8, 16, 32, 64 и т. д. Чтобы определить, какое событие из N равновероятных событий произошло, для каждого числа ряда необходимо последовательно производить операции выбора из двух возможных событий. Так, при N = 1 количество операций будет равно 0 (вероятность события равна 1), при N = 2, количество операций будет равно 1, при N = 4 количество операций будет равно 2, при N = 8, количество операций будет равно 3 и т. д. Таким образом получим следующий ряд чисел: 0, 1, 2, 3, 4, 5, 6 и т. д., который можно считать соответствующим значениям функции I в соотношении (1.2). Последовательность значений чисел, которые принимает аргумент N, представляет собой ряд, известный в математике как ряд чисел, образующих геометрическую прогрессию, а последовательность значений чисел, которые принимает функция I, будет являться рядом, образующим арифметическую прогрессию. Таким образом, логарифм в формулах (1.1) и (1.2) устанавливает соотношение между рядами, представляющими геометрическую и арифметическую прогрессии, что достаточно хорошо известно в математике.
Для количественного определения (оценки) любой физической величины необходимо определить единицу измерения, которая в теории измерений носит название меры. Как уже отмечалось, информацию перед обработкой, передачей и хранением необходимо подвергнуть кодированию. Кодирование производится с помощью специальных алфавитов (знаковых систем). В информатике, изучающей процессы получения, обработки, передачи и хранения информации с помощью вычислительных (компьютерных) систем, в основном используется двоичное кодирование, при котором используется знаковая система, состоящая из двух символов 0 и 1. По этой причине в формулах (1.1) и (1.2) в качестве основания логарифма используется цифра 2.
Исходя из вероятностного подхода к определению количества информации эти два символа двоичной знаковой системы можно рассматривать как два различных возможных события, поэтому за единицу количества информации принято такое количество информации, которое содержит сообщение, уменьшающее неопределенность знания в два раза (до получения событий их вероятность равна 0,5, после получения – 1, неопределенность уменьшается соответственно: 1/0,5 = 2, т. е. в 2 раза). Такая единица измерения информации называется битом (от англ. слова binary digit – двоичная цифра). Таким образом, в качестве меры для оценки количества информации на синтаксическом уровне, при условии двоичного кодирования, принят один бит.
Следующей по величине единицей измерения количества информации является байт, представляющий собой последовательность, составленную из восьми бит, т. е.
1 байт = 2 бит = 8 бит.