Monday 13 February 2023

Вопрос юзера nil_0 и мой ответ

Ув. nil_0, судя по информации из его журнала, имеющий отношение к МФТИ, выступил с критикой оценки количества ф.информации, необходимой для эволюционной генерации биологической функции.

Благодарность

Прежде всего я хотел бы поблагодарить за спокойное обсуждение. Такие обсуждения на вес золота. Они позволяют увидеть недостаток собственного понимания проблемы и улучшить аргументацию. Без них мы варились бы в собственном соку. В основном, правда, мне приходится слышать совсем другое. Примерно с 2012 года, когда я начал интересоваться этой тематикой и завёл живой журнал, я могу припомнить лишь 3 или 4 таких случая уважительного обсуждения проблемы. Обычно критики вообще ничего не понимают, однако же лезут на амбразуру, причем делают это иногда очень грубо (как правило, чем меньше знаний, тем больше хамства).

Я благодарю также моего коллегу профессора медицины Giuseppe Puccio за всегдашний интерес к ID-проблематике и ценные комментарии.

Постановка проблемы

Обсуждается оценка возможностей, или вероятностных ресурсов, в смысле генерации белковой функции, находящихся в распоряжении естественного ненаправленного эволюционного блуждания в пространстве первичных линейных белковых структур (или, неформально говоря, белковых строк). Блуждание характеризуется дискретным изменением состояния (изменением символов в белковых строках) без оценивания качества. Случайные (в рассматриваемой нами дарвиновской модели) изменения генотипа (имеются в виду мутации кода для последующего синтеза белка) приводят к изменениям фенотипа (белковых строк). Чрезвычайно важное для нас обстоятельство заключается в том, что подавляющее большинство этих изменений по причинам, указанным ниже, не оказывает никакого влияния на репродуктивность и, следовательно, не могут быть отобраны, по Дарвину.

Подробнее о случайном блуждании см. здесь.

Обсуждение

Наше с nil_0 обсуждение находится здесь.

Итак, ещё раз очень кратко, о чём речь.

Оценка: эволюция может произвести максимум 140 функциональных бит. Эта оценка, выведенная Джузеппе Пуччио, приведена в моей записке: "Дизайн-распознавание: основные понятия". Если совсем кратко, то её вывод можно суммировать следующим образом.

Сначала мы оцениваем сверху число состояний, доступных -- ВНИМАНИЕ специалистам по теории информации! -- эволюционному случайному блужданию (evolutionary random walk). Число состояний, которые способен посетить блуждающий случайный поиск за всю историю биоты, оценивается сверху как O(2140).

Далее, количество информации, соответствующее этому числу состояний, оценивается как ⌈log2(2140)⌉ = 140 функциональных бит, где ⌈x⌉ означает так наз. потолок(x), то есть ближайшее целое число, большее или равное х.

Зачем берётся логарифм? Во-первых, для удобства: от степенных функций мы переходим к показателям степени. Однако, смысл логарифма также и в том, чтобы перевести число состояний в число разрядов представления, необходимых для того, чтобы все эти состояния занумеровать/проиндексировать, то есть недвусмысленно указать наблюдаемое фиксированное состояние из набора возможных состояний. Это и есть количество информации, ассоциированной с наблюдаемым состоянием.

Если используется двоичный логарифм, мы имеем дело с двоичным представлением индексов состояний, и тогда единицей измерения количества информации являются биты, то есть двоичные разряды. Эта единица измерения де-факто принята стандартом, хотя иногда используют и иные, например, если используется десятичный логарифм, то единица измерения называется не бит, а хартли. Впрочем, на выводы оценки максимально возможного количества функциональной информации это не влияет, так как появляется лишь небольшой множитель для перевода из одних единиц в другие, тогда как мы оцениваем порядки величин.

Проиллюстрируем сказанное на примере.

Небольшой пример

Занумеруем дискретные состояния светофора: { красный, желтый, зеленый, выключен} . Это можно сделать, например, так:

  1. выключен: двоичное представление: 00
  2. красный: двоичное представление: 01
  3. желтый: двоичное представление: 10
  4. зеленый: двоичное представление: 11

Число состояний светофора: 4. Число бит, необходимых для индексации состояний: ⌈log24⌉ = 2.

Вопрос: Сколько нужно бит для представления 5 состояний (рассмотренные выше плюс дополнительное состояние, когда красный и желтый горят вместе)?

Ответ: Число необходимых бит для представления состояний ищем всё по той же формуле: ⌈log25⌉ = ⌈2.322⌉ = 3. Вот как можно проиндексировать эти состояния:

  1. выключен: двоичное представление: 000
  2. красный: двоичное представление: 001
  3. желтый: двоичное представление: 010
  4. зеленый: двоичное представление: 011
  5. красный+желтый: двоичное представление: 100.

Итак, ничего сложного здесь пока нет.

Функциональная информация vs информация Шеннона

Функцией в нашем случае является способность белковой молекулы вступать в химические взаимодействия. Эта способность реализуется за счёт укладки линейной структуры белка (белковой строки) в трёхмерную молекулу под действием ван-дер-ваальсовских сил между частями молекулы, на что влияет состав первичной структуры (набор и порядок следования аминокислот). Таким образом, белковая функция фактически задаётся линейной структурой, а изменения состава строки и/или порядка следования аминокислот в линейной структуре влияют на способность белка к химическим взаимодействиям.

Важным обстоятельством является слабая применимость шенноновской информационной модели в биологическом контексте, поскольку модель К. Шеннона не отражает смысловой стороны информации. Как говорит Дж. Пуччио ниже, в шенноновской модели рассматриваются любые состояния, безотносительно того, функциональны они или нет. Поэтому в рамках случайного процесса, порождающего шенноновскую информацию, нет возможности направить поиск к функциональным состояниям до того, как включится отбор. Следовательно, при увеличении размерности задачи возможности случайного процесса по генерации функции очень быстро тонут, так сказать, в море комбинаторики.

Случайный ненаправленный процесс (эволюция, в том числе) не способен породить функциональную информацию в сколь-либо практически значимых количествах, потому что он не видит функции. Агент же, в отличие от среды, обладающий сознанием и предвидением, напротив, с лёгкостью способен преодолевать вероятностные барьеры, непроходимые для эволюции. Именно поэтому искусственный отбор многократно более мощен/чувствителен, чем естественный. Именно в этом и скрыта причина успеха так наз. генетических алгоритмов, где поиск явно или неявно направляется в области пространства с повышенной плотностью целевых состояний с приемлемым качеством как раз за счёт оценивания качества исходя из предыдущего опыта решения аналогичных задач.

Естественный отбор, на который уповают дарвинисты, включается очень редко, в непосредственных окрестностях функциональных пиков, в основном же влияние оказывают нейтральные мутации и дрейф генов. Дарвинисты, вместо того, чтобы нас, ID-шников, ругать, должны быть благодарны за то, что мы даём им такую значительную фору, как 140 функциональных бит. На практике же, возможности эволюции по генерации функции, вероятно, ограничены следовыми количествами.

Сделав эти предварительные ремарки, перейдём, наконец, к разбору критического замечания от nil_0.

Критика оценки количества функциональной информации, доступной эволюции

Итак, цитата nil_0:

Объём информации пропорционален числу актов выбора. А логарифм надо брать от числа выбираемых альтернатив. Выбор у вас в основном между двумя альтернативами (выжил/не выжил), что даёт ОДИН НА ОДИН АКТ ОТБОРА.

Так что в ваших выкладках одна ошибка: логарифм не надо было брать. В результате вы оценили не количество информации, а размер адресного пространства, которое нужно, чтобы все акты отбора пронумеровать.

Насколько я понял оппонента, оценка, по его мнению, должна была бы выглядеть так:

logX1 + logX2 + logX3 + ... + logXn,

где X1, ..., Хn -- количества альтернатив при каждом из n событий отбора на предполагаемом пути по параметрическому пространству до финальной точки (искомой функции).

Почему я думаю, что оппонент неправ

Как я понимаю, оппонент мыслит в рамках формулы Хартли для информации в строке символов: nlogm, где n -- число букв в строке, m -- число букв в фиксированном алфавите. Таким образом, по его представлениям, насколько я, конечно, могу о них судить, каждое событие отбора представляется такой "буквой" строки, а алфавитом представляется набор альтернатив (видимо, каждый раз свой набор).

Что можно об этом сказать?

  • Во-первых, как я уже говорил, формула Хартли не отражает функциональности, или смысла строки. Для неё что осмысленная строка, что бессмысленный набор букв, несут наблюдателю одно и то же количество информации при условии равенства длин строк и фиксированности алфавита.
  • Во-вторых, оппонент кмк неправильно представляет себе процесс, который мы рассматриваем. НИКАКИХ событий отбора вообще здесь нет. Есть лишь random walk от начальной точки (грубо говоря, от одной функции) до финальной точки в некоторой окрестности другой функции, только после достижения которой вновь включится отбор.
  • В-третьих, он, по-видимому, не совсем понимает, что появление мутации и отбор -- это разные вещи. В основном, мутагенез в реальности представлен нейтральными мутациями, которые вообще на фитнес-функцию не влияют; небольшая часть мутаций представляет собой вредные мутации, которые подвергаются, по Дарвину, очищающему отбору (попросту говоря, удаляются и, таким образом, никак не влияют на наше обсуждение поиска функциональной новизны) и лишь малая доля мутаций полезны при условии, что они видимы отбором. Однако они появляются только в окрестностях функциональных пиков, и доля их в основном массиве мутаций чрезвычайно мала. В связи с этим, до того, как включится отбор, процесс представляет собой именно random walk и ничего более.
Ниже в ветке обсуждения Вы вычисляете, как я уже отмечал, количество информации нужной, чтобы выбрать из всех актов отбора (мутаций) один.

Да, разумеется, по причинам, изложенным выше.

Вследствие неверных допущений nil_0 приходит к существенно завышенной оценке в 22140, которая тривиально удовлетворяется и поэтому практически не интересна.

Почему в процессе поиска функции нет никаких событий отбора? Потому что функция не аддитивна: два мобильных телефона не равны одному ноутбуку, потому что мобильный телефон и ноутбук -- совершенно разные функции (более точно, наборы функций), между которыми нет дарвиновского пути с промежуточными функциями, за которые мог бы зацепиться отбор. Эти промежуточные функции существуют только в воображении дарвинистов, но не в реальности. Об этом можно посмотреть записи в моём журнале с тэгом gpuccio, где подробно разбирается и опровергается аргументация дарвинистов по данной проблеме.

Оппонент согласен со мной, что функция не аддитивна, но почему-то считает, что оценка информации всё же обладает свойством аддитивности. Его ошибка в том, что он рассматривает какой-то совершенно другой процесс, не имеющий места в реальности.

Ниже в ветке я задал ему вопрос: "что может отбираться на всех этих предполагаемых промежуточных этапах дарвиновского пути, если функция не аддитивна?", на который он пока так и не ответил. Понятное дело, его странная реплика о недостатке фантазии насчёт того, что может быть отобрано в реальности (см. комментарии ниже), не может быть воспринята серьёзно.

Обычно биологи приводят соображения из области дубликации генов: пока первая копия подвержена отбору, вторая "гуляет" по пространству, как ей вздумается и, когда набредёт на новую функцию, отбор уже включится относительно дубликата (так наз. гена-пара́лога). Но это никак не решает основной проблемы нехватки у эволюции вероятностных ресурсов, ведь проблема всё та же: отыскание новой достаточно сложной (больше 140 ф.бит, или 37 АА) функции случайным блужданием, тогда как белковые функции сложнее 140 бит встречаются в биосфере довольно часто (напр., см. Таблицу 1 здесь: Functional Sequence Complexity in Biopolymers. Kirk K. Durston & David K.Y. Chiu, In: The First Gene, D. Abel (Ed.), 2011).

Вот что по данному вопросу думает Giuseppe Puccio

Well, I have tried to understand what he is saying, but I think he is talking a completely different language. I really don't understand what he means by "act of selection". I don't think he is reasoning in terms of selectable intermediates. Probably he means that a mutation can survive or not survive. But most mutations do survive because they are neutral. they are neither negatively nor positively selected. On the long run, drift will decide their final destiny.

My impression is that that person is trying (probably badly) to reason in terms of population genetics, which has not much to do with our reasoning about functional complexity. Population genetics is a world of its own, but is only marginally relevant in the main scenario of the appearance of new functional complexity.

Those who want to understand ID must become familiar with the concept of FI. If they stick to concepts of Shannon information, they will never understand. FI is such a simple and intuitive concept, it is really strange that almost everybody obstinately tries to ignore or deny it (not all, of course, Szostak for example has defined it very correctly). Shannon information is about any choice between possible states. There is no reference in it to meaning or function. FI is simply the information linked to meaning or function. What is so difficult in that idea?

It is all so clear if we look at language. There, meaning is the real function. My old example of Shakespeare's sonnet is always valid. What random system will ever be able to generate a Shakespeare sonnet? Or, more simply, a sonnet which makes good sense? Or, even more simply, a composition of the same length made of good English words?

In my old post, I computed a FI of at least 800 bits simply for the third functional definition, the most generic and gross. What random system can explore a space of more than 800 bits?

Of course we always discuss FC linked to a complex function, not selectable through simpler intermediates. That is almost always the case, in biology. Complex proteins (indeed, most of proteins) are complex machines: they work because they correspond to a specific plan and design, their function strictly depends on that plan and design. Again, we cannot build the code for a spreadsheet summing simpler short pieces of code that are independently functional. The real information is in the general architecture, in the general purpose of the whole. So it is in all complex machines and structures.

A mutation is not an "act of selection". In my computation I have included all mutations that happen, independently from their destiny after they appear. If a mutation in itself does not create a new function which confers a definite reproductive advantage, it cannot be positively selected. It can be neutral, and in that case it will be random drift to decide its final destiny, or it can be harmful, and probably negative selection will take care of it.

But even if for some reason a simple mutation can be positively selected for some advantage it confers (for example, if it improves an existing function, like in simple antibiotic resistance), of course there can be no relation between what is selected for "local" reasons and what is necessary for a new, diefferen function which still does not exists.

IOWs, the simple point is that all mechanisms of population genetics (drift, various types of selection) are completely blind to any new possible function, which still does not exist anywhere. No spontaneous random mutation taking place in a bacteria has any privileged relation with the AA sequence which is necessary for ATP synthase, if ATP synthase still does not exist. If those hundreds of specific AAs are not yet present anywhere in the world, there is really no possible non design way to get them in reality. As there is no possible non design way to get the Shakespeare sonnet without Shakespeare.

No comments:

Post a Comment

Запись дня

Нерегулярность и неаддитивность функции

Claude Shannon by Alfred Eisenstaedt / The LIFE Picture Collection / Getty Рассмотрим стандартное возражение эволюционистов*, в котором утве...