Thursday 16 January 2020

Что такое вероятностные ресурсы системы (часть 1)

Что было, то и будет; и что делалось, то и будет делаться, 
и нет ничего нового под солнцем. 
Бывает нечто, о чем говорят: "смотри, вот это новое"; 
но это было уже в веках, бывших прежде нас.
Книга Екклесиаста, или Проповедника. гл.1:9-10.

Вероятностные ресурсы некоторой системы X -- это размер пространства П возможных её состояний, то есть |П|. Это мера, отражающая то, что может потенциально реализоваться в системе X за время ее жизни, причем в X есть нечто, ведущее себя как случайная величина.

Например, пусть у нас имеется генератор случайных символов из некоторого заданного алфавита C, печатающий символы с определенной частотой v (символ/ед.времени). Мощность вероятностых ресурсов генератора в данном случае -- это число возможных строк. Длина L строки есть произведение v * T, где T -- время работы генератора. Если символы выбираются из современного кириллического алфавита (без учета знаков препинания и пробелов), то мощность алфавита |C| = 33 символа. Тогда:

|П| = L|C| = (v * T)|C| = v33 * T33.

Зачем это нужно? Это нужно, например, для оценки вероятности появления определенной строки s символов в результате работы генератора. Эта вероятность будет зависеть от того, насколько велика мощность вероятностных ресурсов: p(s,генератор) = f(|П|).

Часто исследователей интересует, насколько значительны возможности некоторого алгоритма, например, того или иного алгоритма комбинаторного поиска в приложении к определенной задаче. В контексте исследований возможностей биологической эволюции нас может интересовать число состояний, достижимых случайным блужданием точек, изображающих популяцию организмов, в параметрическом пространстве П за всё время эволюции. В данном случае это число может быть оценено сверху, основываясь на очень простых положениях.
  • Состояние соответствует отдельному организму. Оценка сверху означает, что мы переоцениваем то, что возможно в действительности. Например, мы получим завышенную (оптимистическую) оценку числа состояний, достижимых эволюцией, если будем исходить из предположения о том, что все организмы на Земле размножаются со скоростью одноклеточных на протяжении всей естественной биологической истории, для чего примем распространенную на сегодня оценку возраста биоты в 5 млрд лет, учтя также среднюю частоту мутаций при размножении. Мы получим верхнюю оценку числа состояний, достижимых эволюционным путем: |П| = 2140, или 1041.
  • Подробности здесь.
  • На всякий случай отмечу, что random walk и комбинаторный поиск не одно и то же. Эволюция, по кр. мере, такая, о какой думал Чарльз Дарвин, реализует именно random walk. Как только вы в какой-то статье увидите слова о поиске в контексте эволюции, знайте, что на самом деле авторы моделируют искусственную селекцию. Поэтому их оптимистические реляции на тему "вот как может эволюция!" не будут соответствовать реальности. Такое происходит сплошь и рядом.
  • И ещё одно замечание о связи между числом состояний 2140, доступных эволюции, и количеством функциональной информации на иллюстрации ниже. Представьте себе, что одну и ту же мысль можно донести различными предложениями. Так вот число предложений с одинаковым смыслом обозначим через K. В нашем случае роль предложений будут выполять полипептиды (первичные структуры белков), а под смыслом мы будем понимать заданный уровень биохимической функции (способность белка вступать в определенное белковое взаимодействие, скажем, связывать АТФ). Легко себе представить, что при возрастании числа изменений в порядке букв в наших предложениях выявить первоначальный смысл будет всё тяжелее и наконец он станет совсем неуловим. Или, напротив, путем манипуляций с буквами в некоторых случаях можно восстановить первоначальный смысл предложения даже если информация частично утрачена, как это сделали герои романа Жюля Верна "Дети капитана Гранта". То же самое происходит и с биологической функцией: при перестановках пептидов в полипептидной цепи уровень белковой функции меняется. Предположим, что существует всего одна строка (K=1) во всём пространстве из |П| = 2140 полипептидов, которая доставляет некоторую функцию f. Тогда, по введенному определению, количество функ. информации в этой строке составит -log2(K/|П|) = -log2(1/2140) = 140 функ. бит. Это максимум, что может эволюция. Если у этой строки существуют синонимы (то есть в случае K > 1), количество функ. информации в каждом из синонимов, соответственно, будет меньше. В blast-анализе используется мера bitscore (количество совпадающих бит в двух сравниваемых строках). Чем больше bitscore, тем больше совпадений между строками, тем больше вероятность того, что мы имеем некоторую важную функцию, данный совпадающий кусок сравниваемых строк ее кодирует, а отбор относительно нее действует очищающим образом (что видно на рисунке ниже -- рассматриваемая функция появляется у рыб и присутствует у всех позвоночных, включая человека). Итак, информационный порог эволюции: log2|П| = 140 бит (это не шенноновские биты, а функциональные). Отсюда интересный практический тест на дизайн той или иной биологической функции (который делал gpuccio в своих статьях). Если скачок функциональной информации (оцениваемый blast-анализом как bitscore) превышает 140 бит, то данная функция -- явный дизайн. И, наконец, важно помнить, что пороговое значение в 140 функциональных бит как тест на дизайн -- это очень завышеная, то есть гарантированная оценка. На практике возможности эволюции по оптимизации функции гораздо скромнее. Мы даём большую фору нашим оппонентам.
Рис.1: Сравнение гомологичности белков, ответственных за миграцию нейронов, у человека и др. организмов. Гомологичность между белками человека и беспозвоночных низка. Однако она резко возрастает, начиная с хрящевых рыб и сохраняется высокой для всех позвоночных. По степени гомологичности делается вывод о появлении у хрящевых рыб новой функции. Информационный скачок, сопровождающий это событие, многократно превышает пороговое значение 140 функциональных бит, достижимых эволюционным путём. Следовательно, данная новая функция представляет собой дизайн. Источник: uncommondescent.com (из статьи автора gpuccio)

Cравнение |П| с независимо полученными экспериментальным путем оценками редкости функции в пространстве полипептидов (всевозможных строк аминокислотного алфавита) -- 1 из 1063 (Reidhaar-olson & Sauer), а также 1 из 1077 (Axe et al) -- позволяет усомниться в реальных возможностях эволюционного случайного блуждания в смысле нахождения функциональных островов в пространстве параметров. Из приведенной верхней оценки видно, что вероятностных ресурсов всей биоты не хватает для того, чтобы настроить на оптимум средних размеров белок (а у биологов есть подозрения, что природные белки именно не просто абы как работают, но функционально оптимизированы, см. здесь и здесь).

В случае если вы считаете, что это сравнение неправомерно (нечто из нуклеотидного мира сравнивается с чем-то из мира полипептидов, а между ними черный ящик, который может делать фокусы, по словам сторонников эволюции), можно прикинуть размер пространства возможных полинуклеотидов, что сделано здесь. Так или иначе, но вывод останется тот же: вероятностных ресурсов биоты заведомо не хватает для того, чтобы случайным блужданием посетить необходимое число состояний.

В этом, кстати, состоит, на мой взгляд, один из главных результатов работ Майкла Бихи, впервые указавшего на вполне скромные по сравнению с наблюдаемым биоразнообразием границы возмножных эволюционных изменений.

Я только что посмотрел вот это обсуждение. Дарвинисты никак не могут понять одного: сложная функция не есть результат сложения двух или более простых функций (все, что в пределах 140 функциональных бит -- без проблем, даем фору эволюции, но вся сколько-нибудь важная биофункция на много сложнее). Адаптивная доводка в пределах 140 бит - пожалуйста. Однако сложная функция в реальности характеризуется значительно большим количеством функциональной информации. Пошагово до нее добраться никак невозможно. Ландшафт реальных природных белков очень неровный. Функциональные области различных белковых семейств не пересекаются. Для эволюции всё это представляет чудовищные проблемы, заболтать которые не удастся. Сложная функция практически не может появиться в результате случайных блужданий по пространству параметров. На практике она появляется только как результат планирования и дизайна. Никак иначе.
  • Дарвинист из того обсуждения: They (искусственные куски белка фага) just weren't as optimized as the wild phages. Ага, ну, разумеется, just weren't optimized. Однако почему-то природные белки оптимизированы, а эволюционным блужданием к оптимумам не добраться.

По материалам автора gpuccio (uncommondescent.com). Cм. напр., вот этот замечательный комментарий под его же статьёй.

Продолжение здесь.

No comments:

Post a Comment

Запись дня

Нерегулярность и неаддитивность функции

Claude Shannon by Alfred Eisenstaedt / The LIFE Picture Collection / Getty Рассмотрим стандартное возражение эволюционистов*, в котором утве...