Saturday 29 January 2022

О связи между различными способами подсчёта функциональной информации

Рассмотрим важный вопрос о связи измерения количества функциональной информации по формуле Хейзена и по количеству консервативных участков первичных белковых структур (для краткости мы будем называть их белковыми или аминокислотными строками).

В самом деле, а какая связь между формулой Хейзена (Hazen et al) и вычислениями функции суммированием по гомологичным участкам белковых строк? Для меня это был неочевидный вопрос, требующий прояснения. Ниже я постарался изложить то, какой ответ я нашёл для себя. Пусть компетентные читатели поправят меня, если я где-то окажусь неправ.

Для начала вспомним формулу Хейзена.

Имеется пространство S состояний (рис.1), в качестве которого может выступать пространство белковых строк длины, не более некоторой заданной. Имеется также некоторая функция f, реализуемая подмножеством строк. Это подмножество назовём целевым и обозначим Tf.

Рис. 1. Целевое пространство Tf является подпространством пространства S возможных состояний системы. В каждом состоянии из Tf система реализует функцию f.

Формула Хейзена предназначена для измерения функциональной информации, ассоциированной с системой, находящейся в заданном состоянии (в одном из Tf).

Kf = –log2 ( |Tf| / |S| ).
Здесь:
  • Kf: количество функциональной информации, ассоциированной с некоторой заданной функцией f (например, способностью двигателя внутреннего сгорания преобразовывать химическую энергию в механическую, способностью белка вступать во взаимодействие с ферментом, инфективностью бактериофага и т.д.);
  • |X|: мощность (число элементов) множества X;
  • S: пространство дискретных состояний некоторой системы (например, пространство возможных взаимных конфигураций деталей двигателя или Lego блоков, пространство возможных нуклеотидных или аминокислотных строк заданной длины и т.д.);
  • Tf: целевое подпространство, или пространство состояний системы, в каждом из которых система реализует функцию f. По определению, Tf ⊆ S (рис.1).
Более подробно формулу Хейзена и её физический смысл  я уже рассматривал здесь.

В этой записке нам интересно выяснить, почему формула Хейзена и сравнение консервативных участков линейной структуры белка в различных таксонах служат для измерения одного и того же – функциональной информации.

Как мы помним из предыдущей записки, физический смысл формулы Хейзена состоит в том, что при реализации некоторой белковой строкой функции f наблюдатель получает количество информации, соответствующее вероятности попадания в целевое подпространство при случайном выборе белковой строки (при условии равной вероятности любой белковой строки). Всего существует, как известно, 20 протеиногенных аминокислот, они-то и являются буквами белкового алфавита. Поэтому каждая позиция участка белковой строки, ответственного за функцию f, сообщает наблюдателю максимум log220 ≈ 4.3 функциональных бита при условии консервативности определённой аминокислоты и, соответственно, 0 при условии неконсервативности (то есть если возможна синонимичная замена на любую другую аминокислоту без деградации функции). Иными словами, если вместо данной аминокислоты нельзя вставить другую, чтобы при этом сохранился заданный уровень белковой функции, строка в данной позиции консервативна, и очищающий отбор будет её сохранять.

Но именно то же самое измеряется и такими средствами, как, например, BLAST, при анализе гомологий белковых строк. При наблюдении высокой степени гомологии между белковыми строками, соответствующими различным таксонам (например, если при переходе от беспозвоночных к позвоночным появляется некоторый участок строки, который затем консервируется), можно заключить, что эти гомологичные участки отвечают некоторой функции, и что, следовательно, на них отбор мог действовать очищающим образом (там, где ему была предоставлена возможность действовать).

Проиллюстрируем сказанное на простом примере.

Пусть пространство S составляют возможные строки длиной L = 10 символов, причём символы берутся из алфавита мощности M = 20. Тогда размер пространства S составит:

|S| = ML = 2010.

Рассматривается некоторая функция f. Предположим также, что у нас есть одна-единственная функциональная строка, кодирующая f. Тогда количество функциональной информации по Хейзену составит:

Kf = –log2(1/ML) = Llog2M = 10 log220 ≈ 43 бита.

Но, с другой стороны, Llog2M ≈ 43 бита есть максимум функциональной информации, подсчитанной суммированием по позициям строки (в предположении, что каждая позиция консервативна). Кстати, Durston et al именно так и подсчитывали функциональную информацию. Таким образом, в принципе, и Hazen, и BLAST, и Durston подсчитывают одно и то же.

No comments:

Post a Comment

Запись дня

Нерегулярность и неаддитивность функции

Claude Shannon by Alfred Eisenstaedt / The LIFE Picture Collection / Getty Рассмотрим стандартное возражение эволюционистов*, в котором утве...