Wednesday, 26 December 2012

По поводу формата записок. Ответ на критику

Я недавно отдал вариант своей записки об ID на рецензию в надежде на то, чтобы ее можно было напечатать, однако получил весьма нелестный отзыв.

Думаю, что стоит привести здесь некоторые замечания оппонента. К моему глубокому сожалению, одно из них выявило то, что оппонент не разобрался в сути вопроса. Поскольку в этом, может быть, есть доля моей вины, я еще раз проясню некоторые вещи. Ну, а еще одно замечание подорвало мое доверие к оппоненту как к специалисту с математическим образованием. С этого замечания и начнем. 


Прояснение вопроса о комбинаторной сложности проблемы настройки параметров артефактных и биологических систем

Рецензент почему-то подверг сомнению утверждение об экспоненциальном росте мощности множества комбинаций параметров при условии дискретных областей значений с ростом числа параметров. Давайте разберемся с этим подробнее.

Предположим, что поведение некоторой системы S зависит от двух параметров {x,y} с дискретными областями: X={x1,x2} и Y={y1,y2} соответственно. Множество C комбинаций значений параметров представляет собой декартово произведение C = X (*) Y. То есть С = {(x1,y1), (x1,y2), (x2,y1), (x2,y2)}. Отсюда видно, что в данном случае мощность, или число элементов множества, равна |C| = 4 = 22.

Предположим теперь, что некоторая система S' отличается от S тем, что ее поведение определяется уже не двумя, а тремя параметрами {x, y, z}. Для простоты также предположим, что третий параметр может принимать значения из области Z={z1,z2}. Тогда множество комбинаций значений есть С' = {(x1,y1,z1), (x1,y2,z1), (x2,y1,z1), (x2,y2,z1), (x1,y1,z2), (x1,y2,z2), (x2,y1,z2), (x2,y2,z2)}. Таким образом, |C'| = 8 = 23.

В общем случае мощность удовлетворяет выражению:

|С| = O(mN)

где m — максимальное число значений отдельного параметра (мощность максимальной области значений), N — число параметров, O(g) — множество функций, растущих не быстрее, чем некоторая функция g. Таким образом, мощность |C| есть степенная функция числа параметров N. Следовательно, рост числа параметров N приводит к экспоненциальному росту |C|. Ч.т.д.

Я всего этого не пояснял, надеясь на то, что человеку с университетской математической подготовкой этого не требуется.

Более тонкий вопрос, однако, состоит в том, почему нужно рассматривать дискретные области значений. Этот вопрос напрямую связан с физическим смыслом рассматриваемых задач:

  • во-первых, если мы говорим о поиске биохимических параметров, дискретность задачи вытекает из структуры и свойств биополимерных носителей генетической информации, а также из структуры и свойств синтезируемых белков;
  • во-вторых, рабочие значения параметров биосистем могут в общем случае принадлежать разным изолированным областям в фазовом пространстве. О том, почему это может быть так, я скажу чуть ниже.

Понятие вероятностных ресурсов рассматриваемой системы

Вероятностные ресурсы характеризуют возможность реализации в данной физической системе тех или иных событий "естественным образом", то есть без вмешательства лиц, принимающих решения (ЛПР). То есть вероятностные ресурсы системы на заданном временном интервале оцениваются числом возможных состояний, в которых может находиться система.

Например, в системе, включающей генератор случайных последовательностей символов, работающий с заданной частотой в течение определенного времени, вероятностные ресурсы определяют набор возможных строк, которые может зарегистрировать наблюдатель.

Ясно, что с увеличением времени функционирования увеличиваются и вероятностные ресурсы данной системы. Верно и обратное: при ограниченности времени работы генератора вероятностные ресурсы ограничены.

Вероятностный порог правдоподобия по отношению к исследуемой системе

Мой оппонент подверг сомнению корректность понятия статистического правдоподобия событий в рассматриваемой системе, возразив, что несмотря на то, рождение ребенка чрезвычайно маловероятно, оно все же имеет место. Это возражение некорректно. Еще раз постараюсь прояснить, в чем тут дело.

Возвращаясь к генератору строк, замечу, что зная число возможных символов (мощность алфавита), скорость их генерации и время работы генератора, можно вычислить максимальное число последовательностей, которые может зарегистрировать наблюдатель.

Введем обозначения:
  • N: длина строки символов;
  • f: скорость генерации символов (символ/секунда);
  • T: время работы генератора, секунды;
  • L: некоторый заданный алфавит; |L| — мощность алфавита L.

Предположим, что появление любого символа в каждой конкретной позиции строки равновероятно. В этом случае вероятность присутствия каждого символа в определенной позиции генерируемой строки равна 1/|L|.

Тогда максимальное число возможных строк, которые может зарегистрировать наблюдатель, как уже было показано, равно:

S = |L|N = |L|T*f,
так как N = T * f.

Величина S характеризует вероятностные ресурсы генератора.

Заметим, что вероятностные ресурсы системы можно измерять в битах. Для этого необходимо прологарифмировать S по основанию 2, что даст максимальное количество информации Is, необходимое для представления любой из S строк с использованием булева алфавита {0,1}. Корректность логарифмирования в данном случае вытекает из формулы Шеннона (см. также здесь), связывающей вероятность и информационную энтропию. При этом энтропия достигает максимума именно при равной вероятности всех возможных исходов.

Вероятностный порог правдоподобия вводится как вероятность: 

pпорог = 1/S = |L|-N

Аналогично вводятся пороговые значения вероятности в любой физической системе на практике [Abel 2009].


Правда, нужно сказать, что в практических расчетах используются гарантированные оптимистические оценки вероятностных ресурсов с тем, чтобы полностью исключить возможность ложных положительных результатов (false positives) распознавания интеллектуальной деятельности, что достигается поправками, увеличивающими S на несколько порядков. Например, пороговое значение Is в 1000 бит представляет собой гарантированную верхнюю границу вероятностных ресурсов вселенной в целом (из расчета максимального числа планковских состояний с момента Большого Взрыва). Это значение, однако, в применении к биосистемам потенциально будет давать большое число ложных отрицательных результатов (false negatives). Дерстон, а также uncommondescent.com для биосистем дают много более точную верхнюю границу в 140-150 бит (из расчета максимальной скорости репликации биосистем для всех ныне существующих видов за предполагаемые по теории Большого взрыва 4,5 млрд. лет естественной истории Земли).

События, для которых вероятность p < pпорог, называются неправдоподобными. В этом случае в инженерных и иных прикладных расчетах мы можем с уверенностью положить p равной нулю, поскольку значения вероятности, меньшие pпорог, не имеют физического смысла.

Отсюда, в частности, видна несостоятельность аргумента о рождении ребенка. Рождение человека маловероятно, но вероятность этого события может быть выше пороговой при определенном выборе системы. Все, таким образом, зависит от выбора интересующей исследователя системы: то, что неправдоподобно в одной системе, может быть правдоподобно в другой в зависимости от того, насколько значительными вероятностными ресурсами они обладают.

Например, единичный честный выигрыш в государственную лотерею вполне правдоподобен. Выигрыш каждый день целый год подряд одним и тем же человеком вполне обоснованно привлечет пристальное внимание компетентных органов. Наконец, наличие в каждый момент времени на протяжении всей истории существования государственных розыгрышей человека, каждый день своей жизни выигрывающего в лотерею, неправдоподобно, опять-таки если исключить сговор [Borel 1962].

Еще пример: вероятность того, что наш генератор сгенерирует осмысленный текст достаточной длины, скажем, текст шекспировского "Гамлета" (около 130 тыс. символов) за время жизни вселенной, ниже порога правдоподобия, вычисленного, как это сделано в [Abel 2009]. Известна следующая оценка: для параллельной работы 1080 генераторов, при скорости генерации 1000 символов в секунду от настоящего момента до предполагаемой тепловой смерти Вселенной вероятность того, что хотя бы один генератор выдаст "Гамлета", много меньше 10-183800 [Wikipedia, теорема "о бесконечных обезьянах"]. 

Именно исходя из этих соображений самопроизвольное (спонтанно-закономерное) появление осмысленного текста определенной длины, в рамках жизни вселенной есть событие неправдоподобное. Вероятность такого события — практически нулевая, причем слово "практически" нужно понимать в смысле статистического неправдоподобия. 

Использование самого понятия статистического правдоподобия, в свою очередь, вызвано тем, что ID осуществляет абдукцию к наилучшим в смысле Оккама объяснениям наблюдаемых событий (подробнее см. в моей записке здесь).

Вот что имеется в виду, когда утверждается, что самопроизвольное появление достаточно сложных семантически нагруженных конфигураций, функциональности, прагматики, то есть всего того, что отличает, в частности, естественные и искусственные языки, а также генетические инструкции, статистически неправдоподобно с учетом вероятностных ресурсов вселенной в целом. Статистическое правдоподобие генерации конфигураций с перечисленными характеристиками доставляется лишь интеллектом ЛПР.


Понятие дизайна и ассоциированной с ним функциональной информации 

Дизайном в контексте некоторой материальной системы называется такая ее конфигурация, для генерации которой требуется интеллектуальное вмешательство. Например, текст данной записки, культовое сооружение эпохи мегалита Стоунхендж, операционная система MS Windows, птичьи гнезда, хатки и дамбы бобров и пр.

В литературе функциональная информация вводится пропорционально логарифму отношения числа строк, кодирующих некоторую функцию, к максимальному числу строк определенной длины. Такими строками на практике могут быть последовательности нуклеотидов в геноме или аминокислот в белковой молекуле.


Главной гипотезой ID является утверждение о том, что статистически правдоподобным источником достаточного количества функциональной информации в произвольной реальной физической системе является только интеллект.

Тест конфигурации на дизайн

Методология ID заключается в измерении количества I функциональной информации, ассоциированной с определенной конфигурацией материальной системы, и сравнении его с количеством Ie функциональной информации, которая может накопиться под действием лишь естественных факторов спонтанно-закономерной природы. Таким образом, если:

I > Ie

то, согласно ID, вероятность участия интеллекта в генерации рассматриваемой конфигурации велика. Эта методология была впервые применена Дерстоном и др. для оценки количества функциональной информации в белковых молекулах [Durston et al. 2007]. Дерстон и его коллеги эмпирически установили, что целый ряд семейств белковых молекул, критически важных для жизнедеятельности всей известной науке биоты, несут значительные количества функциональной информации и что, таким образом, тест на дизайн структур указанных белков положителен. Важно при этом подчеркнуть, что аналогичный анализ сложных артефактных систем, которые несут в себе значительные количества ф.и. и интеллектуальное происхождение которых — установленный факт, также приводит к положительному тесту на дизайн. Таким образом, методология ID непротиворечива.


Инкрементальность дарвиновского механизма плохо соотносится со сложной функциональностью известных науке форм жизни 

Принципиальная трудность (практическая невозможность) пошаговых преобразований сложной функционирующей биосистемы в другую достаточно сложную биосистему с радикально измененной функциональностью — ахиллесова пята дарвинизма. При том, что функциональные переключения в биосистемах, в принципе, возможны, в реальности они жестко ограничены.

Невозможно пошагово преобразовать, скажем, истребитель КБ Лавочкина Ла-5 времен 2 Мировой войны в истребитель Cу-35 КБ Сухого, поскольку принципиально новая функциональность Су-35 требует не только блочных замен отдельных узлов, но и глубокого реинжениринга на уровне концепций и принципа работы целых подсистем (рис.1-2). При этом замечу, что стандартное возражение, состоящее в гипотетической возможности существования общего "предка" обеих моделей, не проходит. Я как раз и утверждаю, что на практике каков бы ни был общий "предок" (скажем, самолет братьев Райт), его эволюция до "потомков" Ла-5 и Су-35 по необходимости включает множественные этапы сложнейших функциональных перестроек и инноваций, каждая из которых статистически неправдоподобна, если исключить интеллект проектировщиков.


Рис.1. Истреби.тель Су-35. Источник: http://www.defenseindustrydaily.com/Russias-SU-35-Mystery-Fighter-No-More-04969/
Рис.2. Истребитель Ла-5. Источник: Википедия.

Точно так же, нельзя побитно изменить программу, выводящую на экран монитора сообщение "Здравствуй, мир!", в операционную систему Windows XP.

Образно говоря, в ряде случаев нет практических оснований предполагать, как это делал Ричард Докинз [Dawkins 1996], что некоторый пик сложности, неприступный с одной стороны, имеет пологий подъем с другой (cм. замечательную ID-шную статью заведующего лабораторией генетики Школы медицины Бостонского университета профессора Михаила Шермана [Sherman 2007], перевод на русский доступен здесь).

К тому же, никакие аргументы о функциональных переключениях не снимают проблемы минимально необходимой начальной сложности биосистем.

Подробности см. в моей записке здесь, а также в серии заметок ID Foundations на главном ID блоге uncommondescent.com.


Наличие цели, прагматики, функциональности в процессах поддержания жизни и отсутствие цели, прагматики, функциональности в неживой природе

Под функциональностью в данном случае понимается полезность составных частей многокомпонентной системы в контексте целого. В неживой природе целенаправленных процессов не наблюдается. Самопроизвольно реализуется лишь стохастика и закономерность, то есть хаос (скажем, плавление металла) и порядок (кристаллизация металла), а также промежуточные состояния. Самоогранизации как самопроизвольного появления кибернетического управления в природе не существует. Самоорганизовываться могут лишь интеллектуальные акторы, обладающие, по крайней мере, распределенным интеллектом (например, рой, стая, колония организмов). Самоорганизация имеет место лишь в контексте уже существующих правил, при этом, разумеется, допускается развитие самих правил в ходе взаимодействия интеллектуальных акторов (например, развитие языков). Однако, наличие изначальных правил и интеллекта агента в подобных случаях совершенно необходимо.

В то время как в неживой природе целеполагания нет, физико-химические процессы поддержания жизни имеют ярко выраженную цель — гомеостаз. Целеполагание отличает также и сложные артефакты, то есть различные системы представления и обработки информации.


Частные аргументы

Наконец, к частным аргументам в пользу теории распознавания дизайна и, соответственно, против эволюционизма (заметьте: не против наблюдающегося феномена эволюции динамических систем, а именно эволюционизма) можно отнести тот факт, что в фазовом пространстве биосистем функциональность может быть разбросана по чрезвычайно малым островкам и не является, таким образом, континентом, как предполагал Дарвин. Cправедливость данного утверждения уже была продемонстрирована биологами для белковой функциональности. К примеру, на каждые 1077 возможных перестановок аминокислотных остатков в белковых доменах бактерий в среднем лишь 1 последовательность функциональна [Axe 2004, 2010a, 2010b, 2011]. Белковая функциональность рассыпана чрезвычайно малыми порциями по гигантскому пространству параметров, времени на обход которого дарвиновским поиском при самых благоприятных условиях не хватит даже в масштабах Вселенной. Несмотря на то, что просматривать все пространство в процессе поиска функциональных белков, вероятно, нет необходимости, все же нужно иметь в виду, что для жизнедеятельности простейших требуется порядка 400 различных белков.

Утверждение об изолированности белковой функциональности означает, что предполагаемые дарвиновские траектории из одного островка функциональности (от одного функционального домена) к другому лежат через области хаоса. Отсюда, кстати, становится ясным, что в общем случае следует рассматривать дискретные значения параметров систем, поскольку зоны рабочих значений параметров изолированы.

Оппонент здесь корректно указал на то, что это, может быть, не всегда так. Я же еще раз подчеркну, что всего лишь утверждаю, что это имеет место, по крайней мере, в случае белковой функциональности, то есть на базовом — биохимическом — уровне организации живой материи. Я полагаю, что с учетом сказанного нет абсолютно никакого смысла рассматривать более высокие уровни организации живой материи в свете дарвинизма (клеточный, тканевый и уровень целого организма).

Утверждение о глубокой разряженности биохимической функциональности имеет силу контраргумента: пример, для которого не выполняется какое-либо общее утверждение, опровергает это утверждение. Таким образом, ставится под сомнение общность дарвиновского механизма появления новизны в биосфере. Причем строгое доказательство того, что биосистемы случайным поиском могут пересекать зоны хаоса между островками функциональности, лежит на дарвинистах.

Неодарвинизм поставлен перед необходимостью продемонстрировать на практике статистическое правдоподобие нахождения иголки в стоге сена поистине гигантских размеров. Кстати, спонтанное дублирование генов указанные статистические проблемы на практике не снимает. В теории — да, но не на практике.

Ни мутации, ни дрейф, ни рекомбинация при половом размножении сами по себе статистически не могут являться источниками достаточно большого количества функциональной информации (то есть биологической новизны), как показал Дерстон [Durston et al. 2007] на примере белковой функциональности.


Литература


  1. David L. Abel (2009): The Universal Plausibility Metric (UPM) & Principle (UPP). Theoretical Biology and Medical Modelling, 6:27
  2. Douglas Axe (2004): Estimating the Prevalence of Protein Sequences Adopting Functional Enzyme Folds, Journal of Molecular Biology,Volume 341, Issue 5, 27 August 2004, Pages 1295-1315.
  3. Douglas Axe (2010a): The Case Against a Darwinian Origin of Protein Folds, Biocomplexity Journal.
  4. Douglas Axe (2010b): The Limits of Complex Adaptation: An Analysis Based on a Simple Model of Structured Bacterial Populations. Biocomplexity Journal.
  5. Douglas Axe (2011): Correcting four misconceptions about my 2004 article in Journal of Molecular Biology, Blog post, Biological Institute website
  6. Emil Borel (1962): Probabilities and Life, Dover.
  7. Richard Dawkins (1996): Climbing Mount Improbable, N.Y. Norton.
  8. Durston, K.K., D.K.Y. Chiu, D.L. Abel and J.T. Trevors (2007): Measuring the functional sequence complexity of proteins", Theoretical Biology and Medical Modelling 4:47. [doi:10.1186/1742-4682-4-47].
  9. Michael Sherman (2007): Universal genome in the origin of metazoa: thoughts about evolution. In Cell Cycle. 2007 Aug 1;6(15):1873-7. Статья в переводе на русский язык доступна здесь.
  10. Wikipedia.

2 comments:

  1. Может быть для охвата большей аудитории дублировать записи в ЖЖ? Например, тут: http://creatio-ru.livejournal.com/

    ReplyDelete
  2. Относительно "Гамлета" и обезьян, нужно сказать, что здесь у "естественников" два аргумента:

    1. Такой текст не должен рассматриваться сам по себе, но в ансамбле возможных "текстов", которые якобы могут реализовываться в природе. Нам говорят, что вероятность оплодотворения данной яйцеклетки данным сперматозоидом чрезвычайно мала, но ID не учитывает возможности оплодотворения иными сперматозоидами. Именно "Гамлет" и маловероятен, но вполне мог, как утверждается, появиться иной текст, отличный от "Гамлета", но не менее сложный и столь же осмысленный.

    Действительно, по единственной реализации нельзя заключать с определенностью, что могло, а чего не могло бы быть. Но у нас нет иной реализации. У нас есть ровно то, что есть. И мы не можем анализировать то, чего у нас нет. К тому же, смысловая, функциональная сторона паттернов материи имеет право быть рассмотренной.

    Но интересно-то как раз именно то, что такие "тексты" не появляются сами по себе. Геном - один из таких текстов. За генерацией их стоит интеллект. Лингвистические машины, подобные системам искусственного интеллекта и живой клетке, обязаны своим существованием интеллекту разработчика. А сам интеллект, по-видимому, невозможно свести к неинтеллектуальным факторам. ID выступает за то, чтобы признать за интеллектом право рассматриваться как отдельная категория причинности.

    Важно также, что само существование текста, кода указывает на то, что должен присутствовать логический протокол его интерпретации. Сам по себе символ безразличен по отношению к законам движения материи и поэтому не может к ним сводиться.

    2. Как таковые паттерны ни о чем не говорят и являются столь же маловероятными, сколь и их отсутствие.

    Я согласен, что сам по себе текстовый паттерн ничего не дает. Но главный тезис ID все же не в правдоподобии или неправдоподобии паттернов, а в том, что по своей сути представляет собою организация сложных систем. Организованные системы - это знаковые системы, в которых одни материальные объекты выступают в роли логического (нефизического) символа других объектов (так называемых денотатов).

    Тем не менее, если в понятие паттернов включать не только сам "текст", но и структуру лингвистических машин (протокол знак-денотат, материальную знаковую систему, носитель информации, а также механизм релизации протокола), то аргумент дизайна многократно усиливается.

    Грубо говоря, у нас имеется два варианта:

    1. остаться в рамках натурализма, допустив, что из физики каким-то (пока) непонятным образом проступает логика поведения системы; или
    2. признать гипотезу проступания смысла из физики нереалистичной, что равносильно признанию банкротства натурализма в вопросе появления жизни как семиотической системы.

    Проблемы и у того, и у другого. Проблемы натурализма в том, что касательно вопросов происхождения жизни он не согласуется с экспериментом. Это справедливо по отношению к существующим абиогенезным гипотезам (всевозможным хемотонам, гиперциклам, РНК-мирам и пр). Какие-то вещи в этих моделях, гипотетически принимаемые, отстоят достаточно далеко от реального положения дел. К тому же, никак не может решиться проблема интеллекта как такового. Почему интеллектуальные системы обладают столь особым поведением, если все в конечном счете сводится к движению частиц материи? (Вопрос Карла Пирсона). В чем и как реализуется это мифическое проступание интеллекта?

    Проблема второго подхода в том, что утверждается о существовании определенных вопросов, в которых мы фактически не можем руководствоваться научным методом, как его понимает натурализм, но вынуждены прибегать к введению интеллектуального агента. Это, конечно, эпистемологическая проблема, но такой подход имеет право на существование. Думаю, не стоит огульно отвергать данный подход и обзывать его псевдо-наукой. В самом деле, а почему не может оказаться так, что натурализм дает сбой в отношении происхождения жизни? Кто решил, что он хотя бы потенциально может решить этот вопрос? А что если мы поставлены перед выбором серьезным эпистемологическим выбором?

    ReplyDelete