Узнать цену работы
Статьи по теме

Кодирование текстовой информации

Как кодируется текстовая информация?

Стенография

Криптография

Числовое кодирование данных в текстовом виде

Нередко тексты, написанные на естественных языках (английский, русский и так далее) подвергаются кодированию. О том, как кодируется текст, что такое стенография, какие существуют таблицы кодировки и многое другое, вы узнаете из этой статьи.

Как кодируется текстовая информация?

Есть несколько методов. Выделяют следующие способы кодирования информации:

  • графический метод, при котором информация кодируется с применением специальных знаков или рисунков;
  • символьный метод, при котором кодировка текста осуществляется посредством символов того же алфавита, на котором основывается исходная информация;
  • числовой метод, при котором текстовые данные кодируют посредством чисел.
  • Чтение текста является процессом, обратным его написанию и как следствие - письменная информация становится устной речью. Чтение является ничем иным как расшифровкой письменной информации. Важно отметить тот факт, что существует различные способы кодировки одной той же информации на одном конкретном языке.

    Поскольку мы используем русский язык, то и текст нам привычней записывать с помощью нашего алфавита - кириллицы. Однако одну и ту же информацию можно записывать с помощью латинских букв. Иногда это приходится делать, когда необходимо отправлять SMS-сообщения по мобильному телефону, в клавиатуре которого не были реализованы буквы кириллицы, или же письмо по e-mail на русском языке, если адресат не имеет локализованное программное обеспечение. Так, например, фраза «Привет, дружище!» может быть записана как: «Privet, drushishe!».

    Стенография

    Стенография представляет собой метод кодирования текстовых данных посредством специальных знаков. Она является достаточно быстрым способом записи речи устной формы. Стенографию далеко не каждый может освоить, а только прошедшие специальное обучение люди, известные как стенографисты. Они обладают записывать текст параллельно произносимой выступающим человеком речи, что для обычных людей кажется достаточно сложной задачей. Однако для стенографистов это не является проблемой, так как в стенограмме одно слово или сочетание некоторых букв может быть обозначено в виде одного знака. По скорости письмо стенографического типа превосходит обычное в 4−7 раз. Произвести расшифровку по силам только самому стенографисту.

    На рисунке ниже представлено то, как выглядит стенография, в которой закодирована следующая информация: «Говорить умеют все люди на свете. Даже у самых примитивных племен есть речь. Язык — это нечто всеобщее и самое человеческое, что есть на свете»: Такой метод предоставляет возможность не только производить запись, синхронную устной речи, но и сделать письменную технику более рациональной.

    Приведённые выше примеры являются иллюстрацией основного правила: для того, что закодировать одну и ту же информацию можно прибегнуть к различным способам, при этом делать выбор в пользу того или иного способа нужно руководствоваться целью, условиями имеющимися для кодирования средствами.

    • если необходимо записывать текст синхронно с речью, это стоит делать посредством стенографии;
    • если необходимо отправить текст адресату из другой страны, можно прибегнуть к латинице;
    • если нужно представить текст в форме, понятной для грамотного человека, его стоит записывать согласно грамматическим правилам русского языка.

    Кроме того, немаловажное значение имеет выбор метода кодирования данных, который, помимо прочего, может иметь связь с предполагаемым методом их обработки.

    Также стоит рассмотреть пример, при котором представляются числа количественной информации. Прибегнув к буквам кириллицы, можно написать число «сорок». Если же прибегнуть к арабской десятичной системе, то число будет выглядеть как 40. Как пример, поставлена задача, вычислить какое либо числовое значение. Понятное дело, что для этой задачи мы делаем выбор в пользу наиболее удобных арабских цифр, хотя ничто не мешает прибегать к словам, однако на их написание уйдет больше времени и места.

    Стоит отметить, что вышеописанные примеры написания одного и того же числа базируются на совершенно разных языках. В первом случае используются буквы русского алфавита, в то время как во втором применяется формальный математический язык, который не имеет национальной привязанности. Переход от естественного языка к формальной разновидности можно считать кодированием.

    Криптография

    В особых случаях возникает необходимость в засекречивании информации, содержащейся в сообщениях или документации. Это нужно для того чтобы она не была прочтена сторонними людьми. Такое кодирование текста именуется защитой данных от несанкционированного доступа, при которой секретный текст зашифровывается. В далеком прошлом пытались скрывать данные посредством тайнописи.

    Под шифрованием подразумевается процесс, при котором открытый текст преобразуется в зашифрованный. Дешифрование является полностью обратным процессом преобразования, цель которого - восстановление исходного текста. Шифрование тоже является кодированием, но с использованием засекреченного метода, известного лишь источнику данных и их получателю. Есть целая наука о методах шифрования, известная как криптография.

    Криптография — это наука, изучающая принципы и методы передачи и приема данных, зашифрованных посредством специальных ключей. Ключи — это секретные данные, применяемые при шифровке и расшифровке информации.

    Числовое кодирование данных в текстовом виде

    Каждый национальный язык мира обладает собственным алфавитом, состоящим из конкретного набора последовательно расположенных символов (букв). Соответственно они обладают своим порядковым номером.

    На каждую букву алфавита приходится целое положительное число - код символа, который будет храниться в памяти ПК, а при выводе на монитор или бумагу он преобразуется в тот символ, который ему соответствует. Кроме того в памяти хранятся данные о том, какая именно информация была закодирована в том или ином месте памяти. Это нужно для того, чтобы различать представленную в памяти информацию.

    Прибегнув к соответствию алфавитных букв к числовым кодам можно формировать специальные таблицы кодирования. Если говорить более простым языком, символы того или иного алфавита обладают своими числовыми кодами, которые соответствуют конкретной таблице кодирования.

    Однако, как известно, по всему миру имеется огромное количество языков и множество алфавитов, которые могут иметь множество отличий от остальных. Отсюда возникает вопрос: как можно закодировать каждый используемый алфавит на компьютере?

    Еще в шестидесятых годах прошлого столетия американский институт ANSI занялся разработкой таблицы ASCII, задача которой – кодирование символов. В дальнейшем данная таблица стала применяться во всех операционных системах.

    Эта таблица содержит стандарт кодирования на 7 бит, применив который компьютер окажется способен записывать любой символ в семи битную ячейку устройства для хранения информации. Важно отметить то, что в ячейке может быть сохранено вплоть до 128 состояний. В ASCII каждому из таких состояний соответствует тот или иной символ - буквы, знаки препинания и так далее.

    С течением времени оказалось, что из-за технического прогресса такой стандарт кодирования оказался крайне мал, поскольку в стольких состояниях одной ячейки закодировать буквы каждой письменности мира не предоставляется возможным.

    Для решения данной проблемы разработчиками ПО были начаты работы по созданию восьми битных стандартов кодировки. Благодаря восьмому биту удалось увеличить диапазон кодирования в 2 раза – до 256 символов. Первая половина этих символов в таких кодировках, преимущественно, соответствуют стандарту ASCII, в то время как вторая отведена на реализацию региональных языковых особенностей.

    Как известно, существует целое множество алфавитов, соответственно и таблицы ASCII-кодов имеют множество вариаций. Так в случае русского языка наиболее распространенными вариантами являются Windows-1251 и Koi8-r. Из-за огромного числа вариантов таких таблиц возникают некоторые трудности. Как пример, письмо отправляется в одном варианте кодировки, в том время как адресат пытается его прочесть другой, используя совершенно другой способ кодирования символов. Вследствие этого на экране отображается набор непонятных символов и чтобы прочесть текст, потребуется соответствующая ему кодировочная таблица.

    Также возникают трудности с теми языками, а алфавите содержится очень много символов, которые уместить в позиции с 128 до 255 однобайтовой кодировки невозможно.

    Еще одна проблема – это когда текст содержит в себе несколько языков (допустим, русский и два любых других с латинскими буквами). В таком случае не удастся одновременно задействовать несколько таблиц.

    Так было вплоть до начала девяностых годов прошлого века, пока миру не была представлена новая разработка под названием Unicode, ставшая сейчас стандартом. Она позволяла использовать в одном документе любые языки и символы.

    Unicode предоставлял 31 бит, что соответствует четырем байтам без одного бита. Число вероятных комбинаций был просто огромным – свыше двух миллиардов. Это оказалось возможным благодаря тому, что стандарт описывал каждый известный алфавит, в том числе алфавиты выдуманных и давно никем не используемых языков, включая множество математических и прочих символов. Поскольку такая емкость оказалось очень большой, в основном прибегают к сокращенной версии на 16 бит со всеми современными алфавитами. Первые 128 кодов Unicode аналогичны таблице ASCII.

    Смотрите также:

    Кодирование и декодирование информации

    Архитектура персонального компьютера

Узнать цену работы
Узнай цену
своей работы
Нужны оригинальность, уникальность и персональный подход?
Закажи свою оригинальную работу
УЗНАТЬ СТОИМОСТЬ