Friday 26 October 2012

Что такое функциональная информация?

Рис. 1. Целевое пространство Tf является подпространством пространства S возможных состояний системы. В каждом состоянии из Tf система реализует функцию f.
 

Мера функциональной информации по модели [Hazen et. al 2007]:

If = —log2|Tf|/|S|.

  
Здесь |Х| означает число элементов множества Х.

Из теории сложности вычислений известно, что любой объект представим в виде строки символов алфавита некоторого универсального языка описания. Поэтому будем говорить о строках как наиболее удобной форме представления реальных объектов. Рассмотрим три стоки одинаковой длины (по 72 ASCII символа):
  1. "в000в000в000в000в000в000в000в000в000в000в000в000в000в000в000в000в000в000"
  2. "м. ас;0 95 .гк.4,ссйэасх зззф я1т-жяььрйчйббя цлиХ.ьп.оо,,ррДиьаыевг0.05"
  3. "Взять 500 г. муки, стакан воды, две ложки сахара, 1 яйцо. Хорошо взбить."
Строка 1 обладает свойством периодичности, она проста по Колмогорову (сильно сжимаема), монотонна, избыточна и специфична.

Строка 2 есть случайный набор ASCII текстовых символов (на самом деле, конечно, нужен более детальный статистический анализ на предмет того, случаен ли он, но мы здесь это предположим). Строка 2 значительно сложнее строки 1 (несжимаема) и неспецифична.

Строка 3 представляет собой выдержку из рецепта приготовления кулинарного изделия. И, таким образом, из трех строк только эта строка является сообщением. Чрезвычайно важным с точки зрения теории информации свойством строки символов 3 является то, что эта строка несет в себе специфическую функциональную информацию. Неучет этого обстоятельства приводит к недоумениям, в том числе, к утверждениям о равной вероятности генерации строк 1, 2 и 3 в неживой природе.

Можно ли измерить количество функциональной информации, содержащейся в строках символов? Да. В литературе [Hazen et. al. 2007, Szostak 2003] используется следующая мера информации, ассоциированной с некоторой функцией f:

I(Ex) = - log2[M(Ex)/N].

Здесь Ex - степень функциональности (степень осуществления заданной функции данной строкой), M(Ex) > 0 — число строк, реализующих заданную функцию f, которые отвечают степени функциональности Ex или превышают её (в случае нашей строки 3 ассоциированная функция — это передача инструкций по приготовлению блюда), N — число всех возможных строк данной длины. Ясно, что M(f) ≤ N. Отсюда видно, что с уменьшением специфичности функции (то есть с увеличением доли строк, могущих закодировать f), быстро уменьшается количество специфической функциональной информации и наоборот.

Сделаем здесь попутно одно важное замечание. Специфичность функциональной информации, несомой символьной строкой, задает распределение вероятности появления данного символа в различных позициях строки. Например, если мы лишь переставим символы "Взять 500 г. муки" из начала строки 3 в конец, функциональная целостность сообщения будет утеряна. К такому же выводу пришел Дуглас Экс [Axe 2004, Axe 2010a,b], проведя серию экспериментов по белковой функциональности: функциональность белковых доменов глубоко изолирована в конфигурационном пространстве параметров, тогда как число возможных последовательностей аминокислотных остатков много больше числа последовательностей, обеспечивающих данную функцию. Ни строки типа 1, обладающие высокой степенью периодичности, ни строки типа 2, представляющие собой случайный набор символов, не имеют возможности нести сколько-нибудь значительные количества специфической функциональной информации, ведь эти строки не являются сообщениями.

Это не учитывают всевозможные экспериментальные попытки имитировать гипотетический спонтанный генезис функции, например, случайно сгенерировать осмысленный текст. В интернете я встретил обсуждение якобы успешной случайной генерации последовательности из 24 символов, представляющих собой начало одной шекспировской комедии ('The Two Gentlemen of Verona', если мне не изменяет память). Оставим сейчас вопрос о том, можно ли доверять этим сведениям, и предположим, что такая последовательность была сгенерирована. Весь вопрос — в том, каков был алгоритм генерации и какие допущения при этом принимались. Самая главная проблема подобных экспериментов — в том, что они a priori предполагают существование загруженного протокола обработки информации (в данном случае, это человеческий язык). К тому же, компьютерный код (например, пресловутая программа Weasel Р.Докинза) в таких численных экспериментах зачастую уже настроен на получение той или иной заданной фразы (то есть неявно задается функция цели, к которой и направляется поиск).

Более тонкая, но все же имитация имеет место в случае, если конечная фраза неизвестна. Но даже в этом случае в алгоритм неявно прописывается набор параметров, направляющих поиск в области с высокой плотностью решений, то есть строк с желаемыми характеристиками. Например, при заданной структуре слов и предложений в том или ином языке мы имеем информацию о средних частотах букв, которую можно использовать при генерации фраз. Более подробно о том, как можно использовать активную информацию о распределении решений в пространстве поиска — см. [Ewert et al. 2012].

В начале записки было сказано, что строки являются математическим представлением реальных объектов. Таким образом, конфигурации материальных систем, подобно их математическим представлениям в виде строк, также несут в себе то или иное количество ассоциированной функциональной информации. Ее можно измерить, как это уже и делается в литературе. Метод Дерстона [Durston et. al. 2007] заключается в подсчете количества функциональной информации в структуре белков на основе уменьшения функциональной неопределенности по сравнению с состоянием, в котором все последовательности аминокислот в "неработающей" белковой молекуле данной длины равновероятны ("нулевое" состояние, полная потеря функции белка).


Достаточно большие количества функционально специфицированной информации присутствуют лишь в сложных искусственных системах (естественные и компьютерные языки, сложные системы обработки информации) и в биосистемах. В перечисленных случаях количество функциональной информации заведомо превышает оптимистическую верхнюю границу количества информации, которая может накопиться в системе спонтанно, без участия лиц, принимающих решения. Отсюда по неумолимой логике научного метода мы делаем индуктивное предположение об артефактном происхождении жизни. Это научное предположение вполне может быть опровергнуто экспериментально. Для этого будет достаточно показать:
  • случайно-закономерный механизм, приводящий к самопроизвольной выработке протокола обмена информацией между структурными единицами многокомпонентной системы;
  • способность этого механизма случайно генерировать достаточно длинные инструкции, однозначно интерпретируемые с использованием выработанного протокола; длина инструкций на некотором языке, синтаксис которого удовлетворяет протоколу, должна соответствовать:
    • для демонстрации статистического правдоподобия абиогенеза: согласно Дембскому, более 500 бит, например, в случае ASCII протокола это 72 символа осмысленного текста, как в строке 3 из нашего примера.
    • для демонстрации статистического правдоподобия эволюции биосистем: согласно Дерстону при допущении максимально возможной скорости репликации в течение 4.5 миллиардов лет, более 140 бит (соответственно, более 20 ASCII символов). Кстати, именно последняя оценка и позволяет усомниться в том, что генератор случайных символов, с помощью которого якобы сгенерирован кусок шекспировского текста длиной в 24 символа, смог это сделать без существенных допущений и настроек, фактически нарушивших чистоту эксперимента.

Литература

  1. D. Axe (2004) Estimating the Prevalence of Protein Sequences Adopting Functional Enzyme Folds, Journal of Molecular Biology,Volume 341, Issue 5, 27 August 2004, Pages 1295-1315.
  2. D. Axe (2010a) The Case Against a Darwinian Origin of Protein Folds, Biocomplexity Journal.
  3. D. Axe (2010b) The Limits of Complex Adaptation: An Analysis Based on a Simple Model of Structured Bacterial Populations. Biocomplexity Journal.
  4. Durston, K.K., D.K.Y. Chiu, D.L. Abel and J.T. Trevors (2007) Measuring the functional sequence complexity of proteins", Theoretical Biology and Medical Modelling 4:47. [doi:10.1186/1742-4682-4-47]
  5. W. Ewert, W. Dembski, R. Marks (2012) Climbing the Steiner Tree—Sources of Active Informationin in a Genetic Algorithm for Solving the Euclidean Steiner Tree Problem, Bio-Complexity Journal (открытый полнотекстовый доступ).
  6. Hazen R.M., Griffin P.I., Carothers J.M., Szostak J.W. (2007) Functional information and the emergence of biocomplexity, PNAS, 104:8574-8581.
  7. Szostak JW (2003) Functional information: Molecular messages. Nature 2003, 423:689.

No comments:

Post a Comment

Запись дня

Нерегулярность и неаддитивность функции

Claude Shannon by Alfred Eisenstaedt / The LIFE Picture Collection / Getty Рассмотрим стандартное возражение эволюционистов*, в котором утве...