Friday, 4 July 2014

О методе Дерстона подсчета функциональной сложности белковых макромолекул

Кирк Дерстон
Так называемый метод Дерстона подсчета функциональной сложности белковых макромолекул был предложен в статье [Durston et. al. 2007]. В статье показано, что линейная структура белковых молекул (последовательность аминокислотных остатков или просто строка в данном контексте, "буквами" которой являются 20 различных аминокислот) коррелирует с биофункцией. Незначительные изменения последовательностей влекут за собой изменение пространственной структуры макромолекул, что влияет на ее химические свойства.

Главная мысль статьи

В данном контексте под сложностью понимается количество информации, необходимой для обеспечения той или иной биологической функции, как глобальной для всего организма (например, метаболической), так и локальной (в смысле конкретных белок-белковых взаимодействий, например, по переносу энергии). 

Как мы и условились, ниже под строками имеются в виду последовательности аминокислотных остатков в белковых молекулах. Функциональные строки, таким образом, — это последовательности аминокислотных остатков, обеспечивающие заданную фиксированную функцию, например, связывание аденозинтрифосфата.

Предлагается замерять количество информации, связанной с заданной функцией, как изменение фунциональной неопределенности (по аналогии с формулой Шеннона информационной энтропии) по сравнению с состоянием полной деградации функции. 

На основе статистической обработки результатов измерений по 35 семействам белковых макромолекул выяснилось, что большинство из рассмотренных последовательностей аминокислот характеризуются достаточно большими статистически значимыми приведенными значениями функциональной информации на каждую позицию последовательности (возможный максимум log 20 = 4.3 функциональных бит примерно, некоторые белки при этом достигали значений >= 3.3 функциональных бит). При этом данная мера принимала нулевые значения как в случайно генерированных последовательностях аминокислот в искусственных полимерах, так и в сильно упорядоченной последовательности (50-мерный полиаденозин). 

Вывод: биофункция обеспечивается определенными последовательностями аминокислот (functional sequences) и быстро деградирует под воздействием как случайных, так и сильных закономерных факторов химической природы. Соответственно, ни случайность, ни закономерность не могут являться статистически значимыми факторами генерации белковой функции. 

Вывод для неспециалистов: эволюция может очень немного, в основном она не способна порождать сколь-либо сложную новую биофункцию. Исключения, конечно, есть, как и везде (иногда эволюционным упрощением может быть достигнута другая функция, таков, например, хрестоматийный случай с выработкой бактериями сопротивления антибиотикам). Но исключения лишь подтверждают правило: сложная биофункция не может быть автоматическим результатом действия факторов закономерной и стохастической природы! Неспециалисты могут теперь перескочить через математические подробности, приведенные в следующем параграфе. 

Математические подробности

Давайте немного с этим разберемся поподробнее. Известно, что меры информационной энтропии или алгоритмической (колмогоровской) сложности неадекватны задаче измерения биологической функциональной сложности, поскольку первая не учитывает функциональность строк как таковую, вторая не учитывает то, что одна и та же функция может быть достигнута существенно различными последовательностями аминокислот. Поэтому предложена новая мера функциональной сложности, т.наз. строковая функциональная сложность, functional sequence complexity. 

По определению количество функциональной информации в данной строке относительно некоторой функции — это -log ( M / N ), где M — число функциональных строк длины не более заданной, N — максимальное число строк длины не более заданной. 

По смыслу определения чем более изолирована функция в пространстве возможных состояний, тем больше информации несет каждая строка, кодирующая заданную функцию, и наоборот, если данную функцию кодирует каждая возможная строка, то количество функциональной информации в такой строке = 0. 

При допущении о том, что в каждой позиции строки любой из возможных символов равновероятен, каждый символ такой строки сообщает количество информации -log (1/N), где 1/N — вероятность определенного символа в данной позиции строки (из N возможных символов). При броске "честной" монеты сообщается ровно 1 бит информации (при упрощающем предположении, что возможных исходов всего 2: орел или решка). Как известно, аминокислотный алфавит включает 20 "букв", то есть аминокислот. Таким образом, каждая аминокислота из 20 возможных в данной позиции функциональной строки сообщает максимум log 20 = 4.3 бита информации. 

Но этот максимум — теоретический, при допущении о равной вероятности исходов. А что же на практике? 

Для измерения фукнциональной сложности берутся различные последовательности аминокислот белков и подвергаются процедуре выравнивания (sequence alignment), чтобы посмотреть, сколько строки разных длин вообще имеют похожих участков. Эти выравненные строки сравниваются на наличие определенной функции. Сравниваемые строки могут принадлежать одному белку в разные моменты времени, после различных мутаций и т.п., но могут быть также взяты два различных белка из базы данных, соответствующие той или иной степени филогенетической близости. 

Таким образом, сравнению подвергаются различные строки, причем мерой функциональной сложности является изменение функциональной неопределенности одного состояния по сравнению с другим (так называемым, нулевым — null state, при котором фиксируется полная потеря функции). И далее мы смотрим, как именно влияет изменение структуры последовательности аминокислот на заданную функцию (конкретное белок-белковое взаимодействие). 

При анализе авторами были принятые следующие допущения: 
  1. аддитивность функциональной информации по строке: ф.и. строки = сумме ф.и. каждой позиции строки;
  2. независимость каждой позиции в последовательности аминокислот от других. Это большое упрощение, от которого предполагается в будущем отказаться; 
  3. нулевое состояние потери функции характеризуется равновероятностью всех 20 возможных аминокислот в любой позиции строки. 
Строка символов длины N имеет ровно N позиций, занимаемых различными символами из нашего алфавита (20 аминокислот). Существует ровно 20^N различных строк длины N, в каждой позиции которых может быть один из 20 возможных символов. Естественно, не все они могут быть функциональны. 


Конкретно измеряется величина изменения функциональной неопределенности в отдельной позиции строки: 

log 20 - H(X_f), 

где: 
  1. первое слагаемое соответствует энтропии нулевого состояния потери функции f, при котором все символы в данной позиции строки равновероятны. В данном случае алфавит включает 20 символов аминокислот, поэтому и стоит log 20. 
  2. информационная энтропия H(X_f) = - \sum{ P(X_f) * log P(X_f)}, где X_f — cтрока, кодирующая функцию f. Все возможные строки, кодирующие f, составляют множество исходов, совместимых с f. 
  3. P — апостериорная вероятность того, что данная позиция последовательности принимает конкретное значение с тем, чтобы сохранилась функция f. P вычисляется по ансамблю выровненных последовательностей аминокислот.

Величина P аппроксимируются как отношение d/M числа d функциональных строк, в которых в данной позиции находится данная аминокислота, к общему числу M выровненных строк, кодирующих f. 


Для вычисления энтропии H(X_f) оценки условных вероятностей суммируются по каждой позиции строки для каждой аминокислоты в соответствии с указанной формулой информационной энтропии.

Таким образом и подсчитывается количество функциональной информации, приведенное на каждую позицию функциональной строки. На практике второе слагаемое оказывается очень малым для большинства рассмотренных белков из тех, что встречаются в составе живых организмов. Следовательно, вся разность у этих белков достаточно близка к максимуму (4.3 бита), тогда как для случайных или закономерных (сжимаемых) строк эта величина (т.е. вся разность) равна 0. Интересно также, что пики приведенной функциональной информации на позицию строки, как и ожидалось, в основном пришлись именно на те участки, которые и обеспечивают конкретные белок-белковые взаимодействия. Эти важные с точки зрения биологической функции участки белковых молекул называются участками связывания (binding sites) или активными участками (active sites).

О том, что такое функциональная сложность

А теперь приведу очень интересный график из книжки David Abel "The First Gene" стр.128, иллюстрирующий суть того, что имеется в белках. Только ради одного этого графика стоит, по-моему, купить книгу, не говоря уже о тексте. Когда я увидел этот график впервые, я ощутил почти религиозный трепет.



Abel_FSC
Рис.1. «Отношение между сложностью случайных строк (random sequence complexity, RSC), сложностью упорядоченных строк (ordered sequence complexity, OSC) и сложностью функциональных строк (functional sequence complexity, FSC). Двумерное пространство (слева) не отражает суть того, что отличает FSC от двух других типов сложности. Наличие третьей координаты необходимо для того, чтобы отобразить информацию, требуемую для достижения функциональности. На рисунке справа неровности поверхности в непосредственной близости от плоскости XY представляют собой низкоуровневую статистически незначимую функциональную сложность, реализуемую стохастически без наложения управления на процесс генерации последовательностей символов. FSC гипотетического семейства белков на рисунке справа представлена шарообразной областью, характеризующейся статистически значимыми количествами функциональной сложности и сравнительно далеко отстоящей от плоскости XY». Источник — [Abel 2011].


Это своего рода эффект, аналогичный квантованию энергии, описываемому квантовой механикой. Биофункция также квантуется! Для сообщения квантов функциональной сложности ни случайности, ни закономерности, ни их комбинаций недостаточно, но необходим интеллектуальный процесс генерации функциональных строк, то есть по сути программирование

Еще раз обращаю внимание на шум, выражающийся в неровностях поверхности в нижней части иллюстрации справа. Это реально то, что может эволюция, то есть совместное действие стохастики и закономерных факторов химической природы. Это именно то, что Майкл Бихи в свое время назвал гранью эволюции, the edge of evolution. Биофункция же (разумеется, конечно, достаточно сложная, ибо исключения здесь есть) требует гораздо большего, то есть интеллектуального программирования, планирования наперед, которое не может обеспечить ненаправленный отбор среды, наложенный на стохастику мутаций и нейтрального генетического дрейфа.


Литература
  1. David Abel (2011), The First Gene.
  2. Durston, K. K., Chiu, D. K., Abel, D. L. and Trevors, J. T. (2007): Measuring the functional sequence complexity of proteins, Theor Biol Med Model, 2007, 4: 47. Свободный полнотекстовый доступ: http://www.tbiomed.com/content/4/1/47

No comments:

Post a Comment