Информация, заключенная в генетическом коде

Важное медицинское и общебиологическое значение имеет количественная оценка информационных свойств генетического кода. Его кодирующей единицей служит триплетный кодон, образованный тремя из четырёх нуклеотидов, из которых «собраны» молекулы ДНК и РНК. Иными словами, «тексты» нуклеиновых кислот «написаны»

Три характерные особенности генетического кода

Рис. 7.2. Три характерные особенности генетического кода:

  • 1) кодирующей единицей (специфической комбинацией нуклеотидов, определяющей включение аминокислоты в молекулу белка) является триплетный кодон; 2) универсальность кода для всех биологических систем;
  • 3) вырожденность кода (одна и та же аминокислота кодируется более чем одним триплетом, но первые два нуклеотида для данной аминокислоты всегда одни и те же). Обозначения нуклеотидов: А - аденин; Г- гуанин;

У -урацил, который в РНК занимает место тимина, содержащегося в ДНК; Ц- цитозин. Обозначения аминокислот: Про - пролин; Сер - серин.

четырёхбуквенным алфавитом: в каждой из них четыре нуклеотида (аденин - А, гуанин - Г, тимин - Т, цитозин - Ц) складываются в различные комбинации по 3, и с каждым таким триплетом (строго фиксированной последовательностью из 3 нуклеотидов: например, АГТ, АГА, ЦТГ и т.д.) может взаимодействовать определённая аминокислота (рис. 7.2 и табл. 7.2). Общее число разных кодонов равно 43 = 64.

Аминокислоты разнообразнее нуклеотидов. Природные белки состоят из 20 разных аминокислот, которые, образуя различные сочетания, формируют белковые молекулы, включающие сотни и тысячи аминокислотных остатков. Место каждой аминокислоты в первичной структуре белка определяется триплетным кодоном; а именно, последовательность аминокислот в белковой молекуле, за синтез которой ответствен данный участок ДНК, предопределена последовательностью нуклеотидных триплетов в нем. Информация, «записанная» 4-символьным нуклеотидным кодом, перекодируется в 20-символь- ный аминокислотный код в тех участках ДНК, которые кодируют местоположение аминокислотных остатков в полипептидной цепи (табл. 7.2 и рис. 7.3). Так как геномом называется часть молекулы ДНК, ответственная за синтез одной белковой цепи, то проблема генетического кода сводится к разрешению вопроса: каково соответствие между последовательностью нуклеотидов в ДНК и последовательностью аминокислотных остатков в первичной структуре белка? Именно так проблема была сформулирована в 1953 г. физиком Г.А. Гамовым, сделавшим первый расчёт генетического кода. Основополагающие исследования по его расшифровке провели М.У. Ни- ренберг и Р.У. Холли, а окончательно расшифровал генетический код и синтезировал ген тРНК Х.Г. Корана в 1966 г. Эти учёные удостоены Нобелевской премии (1968 г.).

Каждый участок ДНК, с которым связан синтез белковой молекулы, включающей N аминокислотных остатков, образован 3N нуклеотидами. Например, генетический аппарат, обеспечивающий синтез белковой молекулы из 200 аминокислот (N = 200), состоит из 600 нуклеотидов. Количество информации (/,), заключённой в участке

Схема синтеза белка

Рис. 7.3. Схема синтеза белка: а - код ДНК; б - матричная РНК (мРНК), образованная соответственно той цепи ДНК, которая изображена непрерывной линией;

в - образование полипептида в рибосоме. Обозначения аминокислот: Мет - метионин; Гли - глицин; Лей - лейцин; Асн - аспарагин; Г- гуанин; Т- тимин; У—урацил; Ц- цитозин; тРНК — транспортная РНК.

ДНК, ответственном за синтез макромолекулы из N компонентов, рассчитывается по формуле: / , = log2 n]N , где пн - число символов

в нуклеотидном коде (пИ = 4). Поскольку ячейкой, содержащей 2 бита информации, в молекуле ДНК служит каждая пара комплементарных нуклеотидов (аденин - тимин, гуанин - цитозин), то в рассмотренном примере 1г = log24600 = 2 • 600 = 1200 бит.

Таблица 7.2

Генетический код (ДНК-код)

Первый нуклеотид в триплете

Второй нуклеотид в триплете*

Третий нуклеотид в триплете

А

Г

Т

ц

7. А

ААА

АГА

Сер

АТА

Тир

АЦА

Цис

А

ААГ

Фен

АГГ

АТ Г

«Стоп»**

АЦГ

Г

ААТ

АГТ

ATT

АЦТ

«Стоп»

Т

ААЦ

Лей

АГЦ

АТЦ

АЦЦ

Три

Ц

8. Г

ГАА

Лей

ГГА

Про

ГТА

ГЦА

Apr

А

ГАГ

ГГГ

ГТГ

Гис

ГЦГ

Г

ГАТ

ГГТ

ГТТ

гцт

т

ГАЦ

ГГЦ

ГГЦ

Глн

гцц

Ц

9. Т

ТАА

Иле

ТГА

Тре

ТТА

Асн

ТЦА

Сер

А

ТАГ

ТГГ

ТТГ

тцг

Г

ТАТ

Мет

тгт

ТТТ

Лиз

тцт

Гли

т

ТАЦ

тгц

ттц

тцц

Ц

10. Ц

ЦАА

Вал

ЦГА

Ала

ЦТА

Асп

ГЦА

Apr

А

ЦАГ

цгг

цтг

ГЦГ

Г

ЦАТ

цгт

Цтт

Глу

гцт

т

ЦАЦ

ЦГЦ

цтц

гцц

Ц

  • * Обозначения: нуклеотиды: А - аденин, Г - гуанин, T - тимин; Ц - цитозин; аминокислоты: Ала - аланин, Apr - аргинин, Асн - аспарагин, Асп - аспарагиновая кислота, Цис - цистеин, Глн - глутамин, Глу - глутаминовая кислота, Гли - глицин, Гис - гистидин, Иле - изолейцин, Лей - лейцин, Лиз - лизин, Мет - метионин, Фен - фенилаланин, Про - пролин, Сер - серин, Тре - треонин, Три - триптофан, Тир - тирозин, Вал - валин.
  • ** Три кодона (ATT, АТЦ, АЦТ) в ДНК не кодируют аминокислот («стоп») - по-види- мому, они должны означать точку в сообщении, отделяя синтез одной полипептидной цепи от синтеза другой.

Для количественной оценки информации (/-), содержащейся в уже синтезированной белковой молекуле, воспользуемся аналогииной формулой Iб = log, П" , где na - число символов в аминокислотном коде (na = 20), N - число аминокислот, места которых строго фиксированы в первичной структуре белка. Обратимся к той же белковой молекуле, включающей 200 аминокислотных остатков. Если бы при её синтезе каждой из аминокислот следовало занять строго определённое ей место, то I6 = log220200 » 4 • 200 * 800 бит[1]. Это явно завышенная оценка, поскольку любой белок состоит не более чем из 20 разных аминокислот, причём определённая аминокислота (скажем, лизин), для которой отведено несколько строго фиксированных мест в первичной структуре белка, может занять любое из них. Можно рассчитать 1б, исходя из предположения, что для выполнения белком присущей ему функции (например, ферментативного катализа) достаточно строго зафиксировать в его первичной структуре положение всего 2-3 аминокислотных остатков, образующих активный центр. Тогда получится значение 1б, в котором не учтена информация, необходимая для формирования вторичной, третичной и четвертичной структур белковой молекулы. Так, число водородных связей, стабилизирующих белковую глобулу, имеет, порядок 10[2]. К наиболее вероятному значению количества информации, заключённой в белковой молекуле Iб , приводит предположение, что хотя бы половина этих водородных связей строго фиксирована. Следовательно, для расчёта Iб нужно принять число строго фиксированных положений аминокислотных остатков в белковой молекуле приблизительно равным 50. Тогда I6 = log, 2050 «4-50«200 бит.

Из сопоставления значений 1г и /б следует вывод об огромной избыточности генетической информации. Если принять 1б -1б =200 бит, то количество информации, содержащейся в генетическом аппарате, которым обеспечивается синтез такой белковой молекулы, в 6 раз (на 1000 бит) превосходит информацию, заключённую в ней. Следовательно, большая часть информации, которой обладает ген для синтеза белка, оказывается избыточной. Избыточность генетического кода повышает надёжность биосинтеза, а надёжность синтеза белковых молекул жизненно необходима, поскольку ошибки в нём приводят к продукции чужеродных организму белков и, вследствие этого, к тяжелейшим заболеваниям.

Другим выводом из подобных расчётов является сомнительность взгляда о возможности зарождения жизни на Земле благодаря случайному образованию на ней белковых тел. Вероятность случайного синтеза молекулы определяется выражением р = 2_/, где / - информация, заключённая в молекуле. Для рассмотренного выше случая 1б = 200 бит и, следовательно, р = 2-200 ~ 10'60. Вероятность любого события на Земле, меньшая 10-30, признается абсурдно малой. Таким образом, случайный характер (без определённой программы) синтеза белка теоретически невероятен.

  • [1] в расчёте log220 взят равным 4 (с точностью до 1), поскольку 4 = log216,
  • [2] а 5 = log232.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >