Биологическая диагностика: история, современное состояние, проблемы


 

Биологическая диагностика (в англоязычных работах чаще именуемая биологической идентификацией) сейчас является разделом биологической систематики и занимается теорией и практикой построения диагностических ключей (определителей), необходимых для установления таксономической принадлежности организмов. Определители растений и животных создавались биологами более трех столетий и обсуждались способы их построения, но обособление биологической диагностики в рамках систематики произошло в 70-е годы прошлого века и связано оно с попытками автоматизировать процесс использования ключей с помощью появившихся в 60-е годы компьютеров. Докомпьютерная история определительных ключей подробно рассмотрена в целом ряде работ (Лобанов, 1972; Morse, 1975; Свиридов, 1976, 1994; Pankhurst, 1978; Payne, Preece, 1980 и др.).

 

В общей формулировке основная задача биодиагностики - выяснение к какому из известных (выделенных заранее) таксонов можно отнести конкретный живой организм - может укладываться в рамки вопросов, рассматриваемых теорией распознавания образов (одним из разделов кибернетики). Поэтому в биологической диагностике могут быть плодотворно использованы достижения медицинской диагностики (идентификации заболеваний), технической диагностики (идентификации неисправностей машин, аппаратов и сложных технических систем) и других похожих по постановке задачи дисциплин. Но биодиагностика имеет специфические отличия, которые не позволяют прямо использовать разработанные в перечисленных дисциплинах способы идентификации.

 

Проблема определения объекта при неполном наборе признаков становится все более актуальной в связи с все меньшей доступностью биологических материалов, а также в случае необходимости определения фрагментов объектов. Эта проблема приобретает особое значение при идентификации ископаемых организмов, которые всегда несут в той или иной мере неполный набор признаков, причем довольно часто доступные в них признаки не рассматриваются как диагностические специалистами по современной фауне. Вместе с тем палеонтологи вынуждены использовать для диагностики вымерших групп признаки, нередко не используемые неонтологами. Для определения современных жуков традиционно чаще используются признаки, доступные наблюдению сверху тела жука, тогда как для диагностики компрессионных ископаемых жуков палеонтологам приходится работать преимущественно с признаками нижней поверхности тела. В результате ключи для современных видов неприменимы к вымершим и наоборот. В предельных, однако обычных случаях остатки ископаемых организмов не содержат надежных диагностических признаков вовсе, однако по набору сохранившихся сопряженных признаков эти остатки можно только с большей или меньшей вероятностью отнести к той или иной группе конкретного таксономического уровня. Эти обстоятельства нередко приводят к взаимному непониманию между неонтологами и палеонтологами или даже к тому, что специалисты по современной фауне значительно недооценивают данные по истории или даже вовсе игнорируют их. Такого рода проблемы отчасти снимаются современными многовходовыми определителями, о которых речь пойдет ниже.

 

Например, в медицинской диагностике широко распространена вероятностная оценка нескольких возможных диагнозов, ибо заболевание может быть в начальной, плохо выраженной форме, а также возможно одновременное наличие у одного пациента нескольких разных заболеваний со сходными, или противоположными, или самостоятельными симптомами. В биологии определяемый организм не может принадлежать к нескольким разным таксонам (исключением могут быть гибриды, но они обычно тоже считаются отдельными таксонами и имеют собственные названия, как, например, хонорик - гибрид хорька и норки, или гибрид двух видов пшеницы - Triticum durum Desf. x Triticum monococcum L.). Кроме того, биологический таксон не может иметь начальную, плохо выраженную форму. Поэтому при правильной биологической идентификации конкретный экземпляр должен быть отнесен к конкретному ранее известному таксону или для него выделяется новый таксон.

 

В технической диагностике одна конкретная неисправность одной детали или узла вызывает всегда одни и те же признаки неправильной работы всего агрегата - зависимость строго предопределена. А биологические таксоны обладают часто очень широкой изменчивостью и их признаки сильно варьируют. Например, в видовой диагностике жуков из семейства божьих коровок (Coccinellidae) важное значение имеет окраска надкрылий: цвет общего фона и цвет, форма и число элементов рисунка. Но для одного из самых распространенных видов - двухточечной коровки Adalia bipunctata (L.) - этот признак почти не имеет значения, так как надкрылья у него могут быть одноцветно красными, или красными с двумя черными пятнами, или черными с двумя красными пятнами, или одноцветно черными, или с любым сочетанием красных и черных элементов окраски.

 

С повсеместным распространением ЭВМ все новые разработки в биологической диагностике так или иначе связаны с компьютерами и привели к ее сближению с информатикой. Вне компьютеризации остались только публикуемые в "бумажном" виде (в статьях и книгах) текстовые и табличные ключи, которые уже не эволюционируют и за 35 последних лет совершенно не изменились. Поэтому полностью сохранили свое значение их описание и классификация (Лобанов, 1972). Зато пышно расцвели методы компьютерной биологической диагностики, скромно упомянутые в той исторической статье одной строкой в итоговой классификации: "Программы для ЭВМ".

 

Понятие "компьютерная биологическая идентификация" стало настолько широким, что требует хотя бы грубой классификации, чтобы разграничить принципиально отличающиеся постановки задачи и методы ее решения (Лобанов, Рысс, 1999). В основу этой новой классификации мы предлагаем положить способ формирования признаков таксонов и их использования в процессе идентификации.

 

  1. Традиционные компьютерные таксономические диагностические системы. Признаки таксонов формирует исследователь. Сам исследователь и считывает признаки с определяемого экземпляра в процессе идентификации и сообщает их компьютерной программе, которая тем или иным способом помогает отнести экземпляр растения или животного к одному из ранее установленных таксонов. К этому типу систем относится большинство используемых биологами программ (Лобанов, Дианов, 1994; Лобанов, 1997; Dallwitz, Paine, Zurcher, 2000) и такого типа система будет разработана в ходе выполнения настоящего проекта (WebKey-x). К этому же типу систем относится и ныне популярный метод идентификации с использованием анализа последовательностей нуклеотидов ДНК, РНК и цитохрома C ??? (Абрамсон и др., 2009)
  2. Компьютерные диагностические системы с использованием автоматической обработки изображений. Признаки таксонов выделяются исследователем, но считывание этих признаков с определяемого экземпляра в ходе идентификации производит не сам человек, а оптическое устройство и управляющая им программа. Затем программа помогает отнести экземпляр к одному из заранее установленных исследователем таксонов. Такого рода системы разрабатываются специалистами по автоматической обработке изображений (Fdez-Valdivia J. et al., 1992), они используются и в Зоологическом институте РАН для идентификации нематод и моллюсков (Galtsova, Kulangieva, 1995; Galtsova, Starobogatov et al., 1995).
  3. Компьютерные диагностические системы на основе теории распознавания образов. Признаки таксонов не выделяются заранее в явной форме исследователем, а формируются самой программой в ходе ее обучения с помощью оптического устройства. Набор возможных таксонов формируется этой же программой в процессе предъявления ей нескольких экземпляров каждого таксона. Считывание признаков (которые обычно остаются неизвестными исследователю) с определяемого экземпляра производит программа с помощью оптического устройства и относит экземпляр к одному из таксонов, использованных в ходе ее обучения. Такие системы известны в биологии (например - Katsimis, Poularikas, 1986; Draper, Keefe, 1989), но их разработкой занимаются не биологи, а специалисты весьма специфичной отрасли кибернетики - теории распознавания образов.

 

Мы оставляем в стороне два последних достаточно специфических типа и рассматриваем далее только традиционные компьютерные таксономические диагностические системы, имея в виду, что некомпьютерные формы таких систем достаточно полно рассмотрены в литературе (Лобанов, 1972, 1975; Свиридов 1973, 1976, 1978, 1994; и др.). Все внешнее многообразие форм докомпьютерных биологических определителей укладывается в сравнительно небольшое число принципиально отличающихся типов. Сохранившая до сих пор свою полноту классификация форм диагностических ключей была опубликована на заре компьютерной эпохи (Лобанов, 1972).

 

Итак, мы рассмотрим только традиционные компьютерные таксономические ключи - программы, которые помогают оптимизировать решение традиционной задачи: определение таксономической принадлежности образцов в условиях заранее установленных признаков таксонов и считывания признаков с образца самим исследователем. Первые работы по использованию компьютеров для идентификации биологических объектов появились в конце 60-х годов (Кискин и др., 1965; Ladley, 1965; Goodall, 1968; Morse, 1968 и др.). Это вызвало интерес к истории и теории построения ключей. В начале 70-х годов наблюдался первый пик активности в области разработки методов компьютерной идентификации (Pankhurst, 1970; Лобанов, 1972, 1974, 1975а, 1975б; Свиридов, 1973, 1978; Dallwitz, 1974; Morse, 1974, 1975; Payne, Preece, 1980 и др.). Именно в этот период состоялся симпозиум в Кембридже (сентябрь, 1973) и вышел сборник его трудов - "Biological Identification with Computers" (Pankhurst, 1975), ставший на многие годы библией для ученых, работающих в этой области, смежной между биологией и информатикой. Как результат широкого распространения персональных компьютеров стали появляться не только теоретические работы (Pankhurst, 1978; Payne, 1978; Lobanov, Schilow, Nikritin, 1981; Лобанов, 1983; Свиридов, 1994), но и программы для диалогового определения и автоматизированного построения биологических ключей (Dallwitz, Paine, 1986; Rubio, 1986; Райтвийр, Кулль, 1988; Miller, Day, 1990; Pankhurst, 1991; Schalk, 1992a, 1992b; Estep, Sluis, Syvertsen, 1993; Лобанов, Степаньянц, 1993; Лобанов, Дианов, 1994, 1995, 1998; Edwards, Morse, 1995; Ryss, Lobanov, Dianov, 1995; Lobanov, Stepanjants, Dianov, 1995, 1996; Бутаков, Лелеков и др., 1995; Byers, 1996; Lobanov, Dianov, Schilow, 1996; Дианов, Лобанов, 1997; Лобанов, 1997a, 1997b; и др.).

 

Важной вехой в развитии биологической диагностики стала конференция в Кентербери (декабрь 1996, Великобритания) - "Computer-based Species Identification", специально посвященная компьютерным аспектам идентификации и 21-ой годовщине выхода в свет сборника трудов симпозиума в Кембридже. Благодаря Интернету можно ознакомиться с тезисами всех докладов и получить довольно полную картину недавнего состояния интересующей нас области (http://......).

 

Наблюдения за насчитывающей более 40 лет эволюцией компьютерных ключей "изнутри" (в качестве участников этого процесса) позволяют всесторонне оценить ее результаты и дальнейшие перспективы. В весьма обобщенном виде можно выделить 2 этапа этой эволюции: (1) этап диверсификации, т.е. увеличения разнообразия компьютерных ключей и (2) этап их сходной оптимизации, т.е. прихода к одинаковым решениям основных задач. Первый этап был обусловлен очень различными возможностями биологов разных стран и разных учреждений в сфере hardware. Для опытов в области диагностики использовались тогда обычно большие ЭВМ с очень разной периферией и существенно разными способами доступа пользователя к ресурсам машины. Естественно, что это вызвало появление очень разных диагностических программ - от простейшего поиска в пачке машинных перфокарт до интерактивных ключей. Вместе с теоретической разработкой оптимальных способов построения ключей совершенствовались и компьютеры. Уже более десяти лет разработки ориентируются на персональные компьютеры, превосходящие по мощности гигантские ЭВМ 60-х и 70-х годов. И теперь центр разнообразия программ переместился в область их интерфейса и способов использования графических изображений. А внутреннее устройство компьютерных ключей испытало заметную конвергенцию и теперь почти все диагностические программы, претендующие на широкое использование биологами, пришли к практически одинаковому оптимальному варианту.

 

В основе нашей оценки современного состояния компьютерной диагностики лежит сравнительный анализ примерно 20 наиболее известных диагностических программ из разных стран. Для того, чтобы можно было сопоставлять особенности этих программ в одной системе понятий, необходимо уточнить используемую нами терминологию.

 

 

Более перспективным подходом к оптимизации процесса определения является комплексная оценка ценности признаков не только в плане сокращения длины пути определения, но и в плане повышения надежности определения. Такой подход требует, к сожалению, от автора ключа вдвое большего объема исходных данных (необходимы оценки надежности каждого признака для каждого таксона и оценки встречаемости всех таксонов). При наличии таких данных можно использовать формулы комплексной оптимизации ключей (Svirodov, Leuschner, 1986; Свиридов, 1994), но нам неизвестны действующие программы, реализующие такой усложненный подход.

 

Так как компьютерные ключи являются достаточно сложными системами и имеют множество различных характеристик, то существует и множество различных классификаций таких ключей по разным аспектам. Однако две характеристики имеют особое значение и должны быть выделены в первую очередь.

 

Наиболее важная характеристика: число входов в ключ (number of entries) - число признаков, с которых можно начать новый диагноз или очередной его шаг. Обычно выделяют одновходовые ключи (monoentry), в которых у пользователя нет выбора - как на первом шаге, так и на последующих, он должен пользоваться единственным предъявленным ему признаком; и многовходовые ключи (multientry), в которых на каждом шаге пользователю предоставляются несколько признаков и он выбирает из них наиболее удобный и надежный.

 

Вторая и менее важная характеристика - число состояний, выделяемых в ключе для каждого признака (number of states). Обычно по этому основанию классификации выделяют дихотомические ключи (dichotomous), в которых у всех признаков имеется строго по два состояния; и политомические (polytomous), в которых хотя бы у части признаков могут быть три и более состояний.

 

Эти две характеристики ключа никак не связаны друг с другом (легко можно построить одновходовый политомический ключ и многовходовый дихотомический), но из-за того, что большинство традиционных текстовых (докомпьютерных) одновходовых ключей было строго дихотомическим, а появившиеся сравнительно недавно многовходовые ключи (табличные, перфокартные и компьютерные) обычно являются политомическими, произошло смешивание понятий и до сих пор (несмотря на все усилия теоретиков биологической диагностки) многовходовые ключи многие называют просто политомическими, что абсолютно неверно.

 

Современные компьютерные ключи предполагают пошаговое определение - с использованием одного признака или нескольких признаков на каждом шаге и с циклическим повтором одних и тех же операций для этих шагов. И, конечно, все рассматриваемые программы являются диалоговыми или интерактивными, т.е. подразумевающими поочередные действия компьютера и пользователя (ранее, до появления персональных компьютеров, альтернативой был пакетный режим использования компьютера, когда пользователь сдавал оператору задание на обработку и через несколько минут или часов получал ответ - диалог при этом исключался).

 

Обобщенный сценарий работы диагностических программ можно представить в виде такого алгоритма:

 

  1. Оценка всех возможных признаков для имеющегося множества возможных таксонов и выдача их пользователю для выбора в порядке убывания их ценности для продолжения диагноза.
  2. Выбор пользователем наиболее удобного признака и ввод в компьютер сведений о состоянии этого признака (или значения непрерывного количественного признака) у определяемого экземпляра.
  3. Перебор программой всех возможных таксонов и редуцирование этого набора за счет таксонов, которые не имеют введенного состояния.
  4. Если определение не закончено, то переход к пункту 1 - к следующему шагу определения.

 

Задачами для дальнейшего усовершенствования диагностических программ и улучшения их количественных характеристик (максимально допустимое число таксонов и признаков в ключе, время ответа системы при выполнении 1-го и 3-го пунктов алгоритма) являются именно эти два пункта алгоритма.

 

В 1-ом пункте скрыто наибольшее число проблем: возможность использования непрерывных количественных признаков (таких, как длина тела или отношение длины к ширине какой-то части организма), способ определения их диагностической ценности (так, чтобы она была сопоставима с оценками ценности для дискретных качественных признаков), оптимизация времени вычисления диагностической ценности при большом числе признаков и таксонов в ключе.

 

Во 2-ом пункте важной проблемой является учет возможных ошибок пользователя и сохранения в рассматриваемом и редуцируемом наборе даже тех таксонов, которые имеют ряд несовпадений по нескольким признакам.

 

С этой упрощенной схемой мы сопоставляли рассмотренные нами программы. В нашем обзоре использованы рабочие или демонстрационные версии (изредка - только общая информация со страниц Internet) следующих компьютерных программ или интерактивных ключей (в скобках указаны названия более крупных систем, к которым относятся некоторые идентификационные программы):

 

 Одновходовые ключи:
     Guide to Palearctic Flea Beetle Genera - A.Konstantinov, USA
     Interactive Atlas of Gymnamoebae - A.Smirnov, A.Goodkov & D.Goobanov, Russia
     KEYS - D.Remsen, USA
     TAXAKEY - R.Blackman, V.Eastop & G.Kibby, UK
     TAXOKEY - J.Byers, Sweden

 Многовходовые ключи:
   DOS:
     CABIKEY - I.White, UK
     ONLINE (PANKEY) - R.Pankhurst, UK
     TAXEX - E.Butakov & S.Lelekov, Ukraine

   Windows:
     Discover Mushrooms - Technology Developments Co., USA
     IdentifyIt (Linnaeus II) - F.MacIntyre & K.Estep, Netherlands
     INTKEY (DELTA) - M.Dallwitz & R.Payne, Australia
     LUCID - K.Thiele & G.Rutter, Australia
     MEKA - C.Meacham, USA
     PICKEY (BIKEY) - M.Dianov & A.Lobanov, Russia
     Pilz2000 - U.Lade, H.Thomas & R.Winkler, Germany
     SynKey - R.Senn, Switzerland
     Lysandra - K.Dovgailo, Belarus

   Windows с использованием протоколов Internet:
     Flowering Plant Family Identification - R. Phillips, USA
     FusKey - K.Sifert, Canada
     Interactive Key to Katydids - P.Naskrecki, USA
     Key to Genera of the Sarcoscyphineae - D.Pfister & N.Cross, USA
     NaviKey - M.Bartley, USA
     3I - D.Dmitriev, Russia
     WebKey-X - A.Vakhitov & A.Kirejtshuk, Russia

 

Ниже сделана попытка сравнения анализируемых программ по одному плану (для каждой программы указан год испытанной версии и в большинстве случаев - конкретный демонстрационный или рабочий ключ).

 

Одновходовые ключи

Многовходовые ключи для DOS

Многовходовые ключи для Windows

Многовходовые ключи для Windows с использованием протоколов Internet

 

Рассмотрение и обобщение положительных черт всех перечисленных программ позволяет синтезировать описание "идеального" компьютерного определителя. Бесспорно, что им должен быть многовходовый политомический ключ. На каждом шаге программа должна создавать пользователю наиболее благоприятные условия для выбора признака. Лучше всего предъявлять признаки не в стандартном порядке, а в порядке убывания их диагностической ценности - математической оценки потенциальной возможности разделить имеющийся набор таксонов на минимальные поднаборы (в идеале - ценность должна быть комплексной оценкой, одновременно оптимизирующей длину пути определения и надежность диагноза, особо оптимизируя эти параметры для наиболее обычных таксонов). Для правильного понимания сути признаков желательно делать упор не на их текстовые описания, а на выразительные поясняющие рисунки. При большом числе признаков имеет смысл разделять их на группы и давать пользователю возможность работы с признаками только одной группы. При переходе к выбору состояния внутри признака иллюстрации еще более необходимы. Дополнительными удобствами в этот момент являются возможность множественного выбора (указания сразу нескольких состояний, если нет уверенности в выборе только одного) и особые отметки у тех состояний, которые не могут иметь место у таксонов текущего набора (выбор таких состояний обычно является ошибкой и лучше пользователя об этом предупреждать).

 

На заключительном этапе шага программа обычно редуцирует текущий набор таксонов, оставляя в нем только те таксоны, у которых может быть заданное состояние признака. Если таких таксонов 2 или более, программа должна сделать переоценку доступных признаков и перейти к следующему шагу. Более перспективным является несколько другой подход, при котором исходный набор таксонов вообще не редуцируется, а на каждом шаге только пересчитываются вероятности принадлежности к каждому из таксонов накопленного за пройденные шаги "образа" определяемого экземпляра. Такой подход позволяет получить правильное определение даже при ошибке пользователя в части признаков. После завершения шага пользователь должен без дополнительных действий узнать его результат - увидеть число оставшихся в редуцированном наборе таксонов или список таксонов, имеющих наибольшую вероятность соответствия введенным признакам (при втором подходе). В последнем случае при работе с большими ключами (на десятки и сотни таксонов) надо создать возможность пользователю видеть не все таксоны, а только те, вероятность которых превышает некоторый порог. Желательно дать возможность просмотреть изображения таксонов из текущего набора - иногда это может существенно облегчить окончание диагноза. При обнаружении пользователем ошибки в уже введенных признаках программа должна давать возможность "отката" - возврата на один или несколько шагов для исправления ошибки. После окончания диагноза желательно выдать пользователю максимально полный набор сведений о таксоне, обязательно включающий дополнительные дифференцирующие признаки для проверки и иллюстрации (как тотальные, так и важнейших деталей строения).

 

Этот гипотетический оптимальный вариант можно сформулировать так: "многовходовый политомический диалоговый пошаговый компьютерный ключ, с широким использованием высококачественных цветных изображений таксонов и их признаков, с машинной оценкой и ранжированием признаков на каждом шаге определения и с набором приемов для повышения надежности определения".

 

Немаловажным обстоятельством является то, что многовходовые политомические ключи позволяют развивать диагностику по всему набору признаков, как по высоконадежным диагностическим, так и по сопутствующим менее надежным, имеющим малую диагностическую ценность, но более доступным для малоопытного пользователя. Наличие совпадения по нескольким сопутствующим признакам может обеспечить вполне надежное достоверное определение. Таким образом создаются наиболее благоприятные условия для выбора признака. При этом, если используется алгоритм подачи признаков не в стандартном порядке, а в порядке убывания их диагностической ценности - математической оценки потенциальной возможности разделить имеющийся набор таксонов на минимальные поднаборы, процесс определения становится особо оптимальным для пользователей вне зависимости от специальности и подготовки.

 

Анализ последних достижений компьютерной диагностики позволяет сделать вывод о том, что современные интерактивные определители уже ни в чем не уступают даже самым лучшим традиционным бумажным изданиям, а преимуществ перед последними имеют столько, что по эффективности, доступности для неспециалистов в области систематики и надежности определения они уже примерно на порядок превосходят печатные ключи. Несомненно, что накопление диагностической информации в стандартных базах данных или в формате DELTA для последующего использования в интерактивных многовходовых ключах станет в ближайшее время стандартным приемом работы систематиков в ботанике и зоологии. Поэтому разработка новых решений для усовершенствования программ компьютерной диагностики остается актуальной и по сей день.

 

Библиографический указатель, включающий и цитированные здесь работы, приведен на отдельной веб-странице.

 

Эта публикация подготовлена при поддержке грантов РФФИ 05-07-90179 и 09-04-00789-а.

А.Л. Лобанов, А.Г. Кирейчук, И.С. Смирнов
Май 2009 г.