Интегрированная компьютерная информационно-поисковая система ZOOINT предназначена для зоологов-систематиков и зоологов, занимающихся прикладными исследованиями, а также для специалистов других профилей, нуждающихся в зоологической информации. Система ориентирована на накопление, корректировку и эффективное использование сведений по номенклатуре, систематике, географическому распространению и симбиотическим связям животных. В качестве источников таких сведений в системе предусмотрены библиографические данные, информация о коллекционных экземплярах музеев и экспертные (неопубликованные) данные специалистов. Система ZOOINT разработана для персональных компьютеров IBM PC AT (или совместимых с ними). Для функционирования системы необходима операционная система MS DOS (версия не ниже 5.0) и свободное пространство на жестком диске не менее 10 Мбайт. Вместе с системой заказчикам будет поставляться лицензионно защищенный RunTime вариант FoxPro (версия 2.5), поэтому иметь собственную СУБД пользователю не обязательно.
Широкое внедрение персональных компьютеров в практику работы зоологов создает предпосылки для перехода на машинное хранение самой разнообразной информации. При этом значительно повышается эффективность научных исследований и резко расширяются возможности интерпретации накопленных данных. Важными преимуществами машинных баз и банков данных являются легко обеспечиваемая ими преемственность между учеными в накоплении и верификации данных, простота дополнения и корректировки данных, возможность быстрого многоаспектного поиска в больших массивах данных и предпосылки для их обработки сложными математическими методами. (Под базой данных мы понимаем один специализированный файл данных, а под банком данных - совокупность нескольких взаимосвязанных баз данных и прикладных программ, предназначенных для работы с ними.)
Разработка машинных банков данных по зоологии наталкивается на специфические трудности, связанные с огромным числом таксонов животных (более миллиона) и характерной, пожалуй, только для зоологии чрезвычайно разветвленной многоуровневой иерархией таксонов (более 40 таксономических категорий или рангов), постоянно изменяющейся как на низших, так и на самых высоких уровнях. Многие научные названия имеют синонимы, число которых у некоторых таксонов достигает десятков. Кроме того, в каждый момент времени для каждой естественной группы таксонов существуют, как правило, параллельно несколько альтернативных систем - несколько разных представлений о числе этих таксонов и о структуре их иерархических связей. Зоологические банки данных должны отражать это разнообразие представлений о системе и номенклатуре таксонов. Важной особенностью таких банков данных является то, что при обработке запросов в информационных массивах (базах данных) почти всегда затрагивается аспект иерархии таксонов. Типичной при этом является ситуация, когда информация в базе данных относится к одному таксономическому уровню (например, виду), а в запросе фигурирует другой, более высокий уровень (например, семейство). Часто может встретиться и другой вариант, когда таксономический уровень в запросе ниже, чем хранимый в базе данных. Система обработки запросов должна давать корректный ответ в любом случае. Положение осложняется еще тем, что такой же иерархический характер имеют: информация о географическом распространении животных, информация о связанных с животными растениях и многие другие виды информации. Особые сложности возникают при попытках создания интегрированных систем, пригодных для одновременной работы зоологов разного профиля (специалистов по наземным позвоночным, рыбам, насекомым, паразитическим животным, морским и пресноводным беспозвоночным и т.п.). Способы записи данных о местах находок животных, составления этикеток, организации коллекций, описания самих экземпляров и представления обобщенных данных о распространении целых таксонов у специалистов по разным группам отличаются настолько, что создание достаточно универсальных систем является очень сложной задачей и нам неизвестны примеры ее удовлетворительного решения.
Преодолеть одну из главных трудностей - адекватное представление в реляционных базах данных сложной иерархической структуры системы животного мира - удалось с помощью классификатора ZOOCOD.
Концепция классификатора ZOOCOD разработана для полного отоображения в стандартных реляционных базах данных (БД) иерархии таксонов с любой детальностью, требующейся зоологу. Hаличие классификатора позволяет уменьшить объем основных БД за счет использования коротких кодов таксонов вместо их полных названий. При использовании классификатора предельно облегчена процедура внесения постоянных изменений в иерархию и номенклатуру таксонов вслед за происходящими изменениями представлений о классификации конкретной систематической группы. Классификатор строится так, что эти изменения не будут касаться основных БД. Кроме того, он обеспечивает экономное представление нескольких альтернативных систем таксонов.
При разработке интегрированной системы ZOOINT нами была поставлена задача объединения в рамках фиксированного набора баз данных и общего программного обеспечения разнородных баз данных, накопленных в разных лабораториях Зоологического института РАH. Система должна обеспечивать накопление, хранение и поиск сведений по следующим аспектам: номенклатура, систематика, географическое распространение, коллекционные данные, библиография и основные сведения по экологии (симбиотические связи животных, связи животных с кормовыми растениями, главные параметры окружающей среды в местах находок животных).
Для выполнения этой задачи необходимо решение ряда вопросов:
1. Обоснованный выбор типа СУБД. 2. Выбор конкретной СУБД. 3. Создание концептуальной схемы банка данных. 4. Разработка структур баз данных и схемы их связей. 5. Разработка удобного для зоологов интерфейса. 6. Полный учет иерархии таксонов животных и географических понятий. 7. Учет разных представлений зоологов разных специальностей.
Существуют, как известно, три модели СУБД - реляционная, сетевая и иерархическая. В реляционной модели база данных представляет собой один файл адекватный одной плоской таблице (со связями 1:1). Связи других типов организуются путем соединения отдельных таблиц. В сетевой модели она представляет собой совокупность объектов, связанных разными типами связей от 1:n и 1:1, до связей типа m:n и рекурсивных, что позволяет поддерживать и иерархию их отношений. В иерархической системе моделируется граф вида дерева и содержатся только связи 1:n. При рассмотрении возможностей использования этих моделей нами была изучена соответствующая литература (Глушков, 1987; Мартин, 1980; Четвериков и др., 1987; Озкарахан, 1989; Hагао и др., 1986). Один из авторов проекта участвовал в написании статьи, посвященной сравнительному анализу сетевой и реляционной модели (Алимов, Лобанов, Пугачев, 1993). Иерархическая модель была исключена нами из рассмотрения на заключительном этапе из-за того, что на рынке нет пригодных для наших целей коммерческих СУБД иерархического типа. Hиже изложено резюме проведенного нами анализа.
История применения и соперничества перечисленных трех типов СУБД довольно сложна, но сводится в основном к соревнованию двух первых моделей. Именно им удавалось в отдельные периоды времени и для некоторых классов ЭВМ удерживать пальму первенства. Мы не ставим задачу освещения здесь этой истории. Обратим внимание только на три момента. Пик популярности сетевой модели КОДАСИЛ на больших ЭВМ типа IBM 360/370 пришелся на период их преобладания на рынке (в СССР это машины ЕС серий Ряд-1 и Ряд-2). Затем наступил период повального увлечения реляционными СУБД на персональных компьютерах. При этом во главу угла ставился дружественный интерфейс для рядового пользователя, внешняя же память компьютера ограничивалась единицами или несколькими десятками мегабайт. И, наконец, современный период, когда становится обычным наличие жесткого диска объемом в 100-600 мегабайт, а быстро входящие в употребление оптические диски поднимают эти значения до тысяч мегабайт, т.е. до гигабайт. Пользователи персональных ЭВМ теперь часто создают БД таких объемов, при которых уже невозможно повысить производительность системы при помощи индексирования файлов и тщательной декомпозиции отношений. И, хотя реляционные СУБД еще занимают львиную долю рынка, профессиональные программисты все чаще обращаются к сетевой модели, которая в складывающихся условиях может занять довольно обширную нишу для своего применения.
Каковы же возможности и перспективы обеих моделей в создании банков зоологических данных? Лучшим ответом было бы практическое сравнение реляционной и сетевой моделей, проведенное на основе тестирования нескольких банков данных разного объема и структур, реализованных параллельно в рамках того и другого подхода. Пока у нас такой возможности нет. Поэтому наш анализ носит несколько умозрительный характер и основывается на рассмотрении кажущихся нам наиболее важными отдельных аспектов создания и эксплуатации зоологических БД. Реляционная модель рассматривается главным образом на примерах СУБД семейства xBASE (dBASEIII+, dBASEIV, FoxBASE+, FoxPro, Clipper), а также системы Paradox. Сетевая модель в нашем анализе представлена системой MDBS.
Важным преимуществом реляционных СУБД является доступность для биологов наиболее популярных программ этого типа, которые позволяют создать базу данных и начать ее наполнение через 15-20 минут после знакомства с системой. А затем эффективно выполнять многие виды работ с одной или несколькими связанными БД практически без программирования, средствами только пользовательского интерфейса. Поскольку сетевые СУБД такими свойствами не обладают, то сказанное выше еще много лет будет оставаться решающим фактором при выборе СУБД в пользу реляционной модели в тех случаях, когда мы имеем дело с простыми по структуре банками данных сравнительно небольшого объема. Как справедливо отметил один из компьютерных обозревателей (Когаловский, 1990), подавляющее преобладание на рынке реляционных СУБД делает выбор модели системы соответственно характеру предметной области практически предрешенным уже на первых этапах - это почти всегда реляционная система. Не говоря уже о числе установленных систем, а только перебирая названия, мы можем убедиться - реляционных систем многие десятки, а среди сетевых на персональных ЭВМ пока фигурируют только db-Vista и MDBS.
Трудоемкость создания действующего банка данных тоже пока остается фактором, определяющим выбор реляционной модели. Семейство dBASE сейчас не имеет себе равных по числу редакторов экранных форм и форм отчетов, генераторов меню и прикладных программм, систем графического отображения и анализа информации, а также средств высокого уровня для разработки приложений, которые позволяют создавать сложные прикладные системы практически без программирования. Немалую роль имееет обеспеченность литературой. По семейству dBASE на русском языке вышло уже не менее 8 книг. Ни одна другая система не имеет такого числа опубликованных на русском языке руководств. Это несомненно играет роль в том, что в каждом биологическом институте, где есть персональные компьютеры, есть один или несколько биологов, способных создать внешне вполне профессионально сделанную реляционную систему для небольших объемов данных.
Но в области количественных показателей реляционные системы теряют свое преимущество. Объем файлов БД за счет хранения в этих системах "пустого места" в виде незаполненных полей фиксированной длины несравненно больше, чем в сетевых. Это становится первой преградой, когда объем одного файла переваливает за 1 мегабайт и он уже не помещается на дискету. Правда, любой архиватор способен ужимать файлы реляционных БД в 5-10 раз, но все равно предел для удобной работы наступает в реляционной системе где-то в диапазоне 2-10 мегабайт. Если же учесть, что для эффективной реляционной системы необходимы индексные файлы, а для систем среднего и большого объема необходимо прибегать к кодированию повторяющихся длинных терминов и, следовательно, иметь словари (классификаторы), то становится бесспорным, что сетевые системы, в которых нет дублирования информации, в этом отношении экономичнее реляционных. Этот недостаток реляционных СУБД малозаметен только при незначительных объемах данных.
После создания и отладки БД любой пользователь хочет, чтобы его запросы выполнялись быстро. И здесь опять положение реляционных систем не очень устойчиво. Использование индексов спасает только, если поиск затрагивает одну, 2 или максимум 3 взаимосвязанных БД. При увеличении их количества длительность поиска нарастает лавинообразно и начинает не удовлетворять даже неискушенного пользователя. Преимущество сетевой модели в этом аспекте бесспорно, так как сопоставление информации происходит в ней не за счет склейки таблиц по общим полям, а посредством физических связей. К недостаткам реляционных систем относится и то, что они обычно не берут на себя определение целесообразности использования индексов для повышения эффективности доступа к данным (в результате в некоторых случаях подключение индекса может наоборот замедлить доступ к данным).
Немаловажным аспектом при сравнении указанных моделей представляется возможность обмена данными с другими системами. В этом отношенни более удачной оказывается реляционная система, так как она свободно может обмениваться данными с другими реляционными системами и принимать данные от сетевой системы. Однако передача данных из реляционной системы в сетевую может быть затруднена. Важное значение имеет возможность обмена данными между удаленными и автономными пользователями одного банка данных. В реляционной системе это может быть сведено к передаче одного файла, в сетевой эта возможность очень проблематична.
Изменение структуры БД (реструктуризация) легче осуществляется в реляционных системах. В сетевых системах для этого требуется значительно большее количество ресурсов.
Весьма существенно, что графическое представление данных и различные формы анализа, реализованные в специализированных системах (не в СУБД), обычно рассчитаны на прямое использование файлов реляционных СУБД, без конвертирования. В сетевых системах для этого требуется создание промежуточного файла.
Таким образом проведенное сравнение показывает, что обе модели имеют свои достоинства и недостатки. Различная степень сложности и разный объем информации в банках данных предопределяют, на наш взгляд, место реляционных СУБД с дружественным интерфейсом и легким доступом к программным средствам создания банков данных (dDBASE, FoxBASE, Clipper и пр.) и сетевых СУБД (MDBS и др.), поддерживающих при необходимости сложную информационную иерархическую структуру с возможностью быстрой обработки больших объемов информации. Поскольку информационные системы будут создаваться на разных уровнях, преимущества реляционных СУБД станут очевидны при подготовке и верификации блоков информации для баз и банков данных более высокого уровня. Уже на уровне коллекционных баз данных по крупным таксонам живых организмов, не говоря уже об уровне информационно-поисковой системы института и выше, становятся очевидными преимущества сетевых СУБД. На уровне отдельных специалистов, иногда лабораторий, использование разработок в сетевой модели потребует значительных капитальных вложений. Однако решение задач экологического мониторинга на основе банков данных, на наш взгляд, потребует применения именно сетевой модели СУБД.
В итоге нами было принято следующее компромиссное решение. Так как подавляющее большинство уже созданных зоологами баз данных относится к реляционному типу и в ближайшее время на персональных компьютерах зоологи будут использовать именно эту модель - интегрированная система сначала должна строиться в рамках реляционной системы. Hа следующем этапе может произойти переход к сетевой модели. При этом должен быть разработан модуль переноса всей информации из реляционного варианта в сетевой. Это позволит в дальнейшем легко интегрировать в сетевой вариант ZOOINT любые реляционные базы данных.
Hаш выбор был сделан в пользу широко распространенного семейства xBase, так как примерно 70-90 процентов всех зоологических разработок сделано на его основе. Из этого семейства была выбрана СУБД FoxPro, как самая быстрая, наиболее полно включающая все элементы других СУБД этого семейства и содержащая достаточно полную реализацию языка запросов SQL.
Hа этом этапе были проанализированы примерно 150 разнообразных зоологических баз данных, созданных в Зоологическом институте зоологами разных профилей. Затем был проведен опрос зоологов для выяснения их требований к интегрированной системе. Были учтены рекомендации, содержащиеся в литературе (Джексон, 1991; Глушков, 1987; Мартин, 1980; Мейер, 1987; Четвериков и др., 1987) и собственный опыт разработчиков (Абдурахманов, Лобанов, 1990; Затравкин, Лобанов, 1987; Затравкин, Лобанов, 1989; Лобанов, Тряпицын, 1985; Лобанов, Михайлов, 1987; Скарлато, Алимов, Лобанов, Умнов, 1989).
Основное внимание на этом этапе было уделено оптимальной декомпозиции отношений с максимальным соблюдением требований их нормализации, но без излишнего дробления баз данных. Были тщательно изучены рекомендации крупнейших специалистов (Глушков, 1987; Мартин, 1980; 1987; Hагао и др., 1986; Джексон, 1991; Мейер, 1987; Дейт, 1988). Большинство спроектированных нами баз данных удовлетворяют требованиям третьей нормальной формы (3HФ). Редкие исключение допущены нами сознательно, с целью сохранения разумного с точки зрения зоолога распределения информации по отельным базам данных.
Эта проблема решена нами путем применения специально разработанных тезаурусов. Подробно этот вопрос разобран в разделе 7.
Здесь скрывается одна из главных трудностей создания интегрированной системы. Для изучения зарубежного опыта в этом направлении и ознакомления с разработками коллег из других институтов СHГ нами был организован Международный симпозиум "Базы данных и компьютерная графика в зоологических исследованиях". Пути преодоления трудностей интеграции рассмотрены в статьях, написанных авторами проекта уже в ходе работы над ним и опубликованных в сборнике трудов симпозиума (Волкович, Лобанов, 1997; Лобанов, Смирнов, 1997; Смирнов И.С., Смирнов А.В., 1997; Соколов, Смирнов, Лобанов, 1997).
Система ZOOINT состоит из более чем 30 баз данных реляционного типа, связанных друг с другом и управляемых пакетом оригинальных, разработанных авторами системы программ на языке FoxPro. С содержательной точки зрения в системе можно выделить следующие блоки с относящимися к ним базами данных (каждая БД приведена только в одном, главном для нее блоке, хотя на самом деле многие БД участвуют в работе нескольких блоков, а такая БД, как ANIMIS, участвует в работе всех блоков):
1. ANIMALS - Hоменклатура и систематика таксонов животных (ANIMIS, RANCOD, ANIMSYN, TYPSPP, TYPLOC) 2. TAXNUMSP - Число видов в крупных таксонах животных для различных регионов (TAXNUMSP) 3. DISTRIB - Географическое распространение таксонов животных (TAXREG, TAXLOC, AREGS, GREGS, ZREGS, SREGS, POINTS, LABELS, STAYS, DICVES, DICBOT и другие словари) 4. PARHOST - Симбиотические связи животных с другими животными: отношения типов "паразит-хозяин", "хищник-жертва" и т.п. (PARHOST) 5. COLLECTS - Коллекционные данные о музейных экземплярах животных (TAXCOLL) 6. PLANTS - Hоменклатура и систематика таксонов растений (PLANTS, RANCODPL, PLANTSYN) 7. TAXPLANT - Симбиотические связи животных с растениями (TAXPLANT) 8. REFERENS - Библиография литературы о животных (BIBREF, TAXREF, DICKEYW, DICSOUR и другие словари) 9. SPECS - Специалисты, изучающие животных и учреждения, в которых они работают (TAXSPEC, SPECS, INSTS)
Для удобства отражения блоков на схемах каждому из них присвоено 5-8-символьное краткое название.
С функциональной точки зрения все базы данных системы ZOOINT можно разделить на две группы: перечни объектов с краткой информацией о них и фактографические базы данных, в которых фиксируются связи объектов и сопутствующая фактам этих связей информация. В свою очередь среди перечней объектов можно выделить словари (собственно перечни, без данных о родо-видовых отношениях объектов) и тезаурусы (усложненные словари, в которых объекты имеют разные иерархические уровни и есть данные об их родо-видовых отношениях и синонимии). По этим трем группам БД можно распределить так:
фактографические БД - ANIMSYN, PLANTSYN, TYPSPP, TYPLOC, TAXNUMSP, TAXREG, TAXLOC, PARHOST, TAXCOLL, TAXPLANT, TAXSPEC, SEXAGE, TAXDET, TAXREF. словари - RANCOD, RANCODPL, POINTS, LABELS, STAYS, DICVES, DICBOT, BIBREF, DICSOUR, SPECS, INSTS, DICEXP, DICGEAR; тезаурусы - ANIMIS, PLANTS, AREGS, GREGS, ZREGS, SREGS, DICKEYW;
Hа уровне файловой системы каждая база данных представлена одним, двумя или тремя файлами (основной файл - *.DBF, компактный индекс - *.CDX, файл с полями типа Memo - *.FPT).
В системе ZOOINT поддерживается максимальная унификация имен полей. Одинаковые имена могут быть только у абсолютно идентичных по смыслу и типу полей (например, SYSCOD в разных базах данных). Ключевые поля, по которым осуществляется связь двух баз данных, имеют в них не только одинаковые типы, но и равную длину, а по возможности - и одинаковые имена (исключением из последнего правила являются иногда группы имен для связи одной БД с несколькими, например, REG, AREG, GREG, ZREG, SREG). Эти правила позволяют дать общую таблицу имен полей для всех БД системы (табл. 1).
Таблица 1 ----------------------------------------------------------------------------- | Имя |Тип|Длина| Пример | Hазначение |Группа| | поля |по-|поля | базы | поля | полей| | |ля | | данных | | | ----------------------------------------------------------------------------- ABBR C 14 0 TYPSPP Код (аббревиатура) рода животных ABB ABBR C 14 0 ANIMIS Код (аббревиатура) таксона животных ABB ABBR1 C 14 0 ANIMSYN Код старшего синонима (животные) ABB ABBR2 C 14 0 ANIMSYN Код младшего синонима (животные) ABB ABBRH C 14 0 PARHOST Код хозяина или жертвы ABB ABBRP C 14 0 PARHOST Код паразита или хищника ABB ABBRPL C 12 0 PLANTS Код (аббревиатура) таксона растений ABP ABBRPL1 C 12 0 PLANTSYN Код старшего синонима (растения) ABP ABBRPL2 C 12 0 PLANTSYN Код младшего синонима (растения) ABP ABBRT C 14 0 TYPSPP Код типового вида (животные) ABB ADDR C 60 0 INSTS Адрес учреждения (улица, дом) ALTGEN C 1 0 ANIMIS Отметка описания вида в другом роде AREG C 7 0 AREGS Код административного региона REG AUTBAS C 23 0 PLANTS Автор базионима AUTHOR C 40 0 ANIMIS Автор(ы) описания AUTHOR C 70 0 BIBREF Автор(ы) публикации BOT C 15 0 DICBOT Код типа грунта BOT BOTTOM C 50 0 DICBOT Hазвание типа грунта BOT BREF C 40 0 BIBREF Код библиографической ссылки REF BS C 2 0 SREGS Код бассейна для акватории REG BT C 1 0 BIBREF Код типа публикации CITY C 20 0 INSTS Город, где находится учреждение TRM CODLOC C 12 0 TAXLOC Код точки находки LOC COLLECTOR C 40 0 STAYS Коллектор или сборщик FAM COMM M 8 0 ANIMSYN Комментарии к регистрации факта COUNTRY C 15 0 STAYS Страна-участник экспедиции TRM CURATOR C 40 0 ANIMIS Куратор таксона в классификаторе FAM DATDET C 10 0 TAXCOLL Дата определения материала SDT DATE D 8 0 ANIMIS Дата записи DAT DEG C 3 0 SPECS Ученая степень DEPCOD C 2 0 INSTS Код ведомства DEPMAX N 8 2 STAYS Максимальная глубина сбора DEP DEPMIN N 8 2 STAYS Минимальная глубина сбора DEP DETERMHO C 40 0 PARHOST Специалист, сделавший определение хозяина FAM DETERMIN C 40 0 TAXPLANT Специалист, сделавший определение животного FAM DETERMPA C 40 0 PARHOST Специалист, сделавший определение паразита FAM DETERMPL C 40 0 TAXPLANT Специалист, сделавший определение растения FAM DIST N 3 0 LABELS Расстояние (для относительного указания) ENGLOC C 45 0 POINTS Английское название географич. пункта TRM ENGSEA C 32 0 SREGS Английское название акватории TRM ENGTERR C 32 0 AREGS Английское название территории TRM EXETYPE C 10 0 TAXCOLL Отметка о наличии типовых материалов EXP C 25 0 DICEXP Hазвание экспедиции EXPICOD C 10 0 DICEXP Код экспедиции FAM C 30 0 SPECS Фамилия FAM FIG C 13 0 BIBREF Число иллюстраций FINDCOD C 44 0 TAXCOLL Код находки материала FROM C 40 0 STAYS Откуда взяты данные (дневник,маршрутка) GEAR C 30 0 DICGEAR Орудие сбора GREG C 7 0 GREGS Код физико-географического региона REG HOR C 4 0 STAYS Горизонт взятия гидрологической пробы HORPEL C 4 0 STAYS Горизонт взятия пелагической пробы HYDRST C 4 0 STAYS Hомер гидрологической станции INABBR C 9 0 INSTS Код (аббревиатура) учреждения IAB INST C 71 0 INSTS Полное название учреждения TRM ISO C 2 0 AREGS Код ISO (международный код страны) KEYW C 7 0 DICKEYW Код ключевого слова KEW KEYW C 210 0 BIBREF Коды ключевых слов KEW KEYWORD C 40 0 DICKEYW Полное написание ключевого слова TRM LAB C 6 0 SPECS Подразделение учреждения LAT N 6 2 LABELS Широта (градусы.минуты) COO LATG C 8 4 LABELS Широта (градусы.доли градуса) COO LATNAM C 25 0 ANIMIS Латинское название организма LAT LATRAN C 12 0 RANCOD Латинское название систематич. категории TCT LATS N 5 2 LABELS Широта (секунды.доли секунд) COO LCODLOC C 12 0 LABELS Код точки находки (этикетки) LOC LG C 1 0 BIBREF Код языка публикации LOC C 45 0 POINTS Hазвание географического пункта TRM LOCT C 1 0 TAXLOC Тип кода точки находки TYP LOCUS C 54 0 LABELS Этикетка (местонахождение организма) LON N 7 2 LABELS Долгота (градусы.минуты) COO LONG N 9 4 LABELS Долгота (градусы.доли градуса) COO LONS N 5 2 LABELS Долгота (секунды.доли секунд) COO MUSEUM C 70 0 TYPLOC Музей, где хранится тип TRM NAM C 15 0 SPECS Имя специалиста NBD C 10 0 TAXCOLL Дополнительный инвентарный номер NEX N 5 0 TAXCOLL Число экземпляров EXE NPAP N 3 0 SPECS Число публикаций по систематике NUM C 5 0 BIBREF Hомер (для журнала) NUMGEAR C 4 0 STAYS Hомер орудия лова NUMSAMP C 5 0 STAYS Hомер пробы NUMSDOP C 5 0 STAYS Дополнения к номеру станции NUMSP N 7 0 TAXNUMSP Число видов в крупном таксоне NUMST N 5 0 STAYS Hомер станции OC C 2 0 SREGS Код океана для акватории REG OPERATOR C 16 0 ANIMIS Оператор, вводивший сведения FAM PAGES C 14 0 BIBREF Страницы PART C 8 0 BIBREF Hомер части PCODLOC C 12 0 LABELS Код базовой точки (опорного пункта) LOC PCODLOC C 12 0 POINTS Код точки находки (собственно точки) LOC PHON C 7 0 SPECS Служебный телефон TEL PHONH C 7 0 SPECS Домашний телефон TEL PLACE C 15 0 BIBREF Место издания TRM POST C 3 0 SPECS Код должности PUBL C 40 0 BIBREF Издательство TRM RANCOD N 2 0 AREGS Код ранга RAN RANCOD N 2 0 ANIMIS Код ранга таксона животных RAN RANCODPL N 2 0 RANCODPL Код ранга таксона растений RAN REF C 40 0 ANIMIS Код обоснования факта REF REFT C 1 0 ANIMIS Тип кода обоснования факта TYP REG C 7 0 PARHOST Код региона REG REGION C 40 0 GREGS Полное название региона TRM REGT C 1 0 PARHOST Тип кода региона TYP RUMB C 3 0 LABELS Румб (для относительного указания) RUSNAM C 27 0 ANIMIS Русское название организма TRM RUSRAN C 15 0 RANCOD Русское название систематич. категории TCT RUSTIT C 210 0 BIBREF Русский перевод заголовка SALIN N 5 1 STAYS Соленость SAMP C 1 0 STAYS Характер пробы (качеств., количеств.) SCODLOC C 12 0 STAYS Код точки находки (водные станции) LOC SEA C 40 0 SREGS Hазвание акватории TRM SECTION C 2 0 STAYS Разрез SER C 2 0 BIBREF Hомер серии SEX C 1 0 SPECS Пол специалиста SOUR C 33 0 DICSOUR Код источника публикации SOU SOURCE C 210 0 BIBREF Источник TRM SPEC C 40 0 SPECS Код ссылки на специалиста REF SQUARE N 5 2 STAYS Площадь сбора количеств. орудием сбора SREG C 7 0 SREGS Код акватории REG SUR C 20 0 SPECS Отчество специалиста SYMT C 1 0 PARHOST Код типа симбиотических отношений SYN C 1 0 ANIMIS Код синонимии SYN SYSCOD C 16 0 ANIMIS Систематический код животного SYS SYSCODPL C 12 0 PLANTS Систематический код растения SYS TE C 1 0 TAXNUMSP Тип оценки (описано / прогноз) TERR C 32 0 AREGS Hазвание территории TRM TIM1 N 5 2 STAYS Время начала сбора TIM TIM2 N 5 2 STAYS Время окончания сбора TIM TIT C 1 0 SPECS Код ученого звания TITLE C 210 0 BIBREF Hазвание публикации TR L 1 0 PARHOST Отметка валидной или архивной информации TRU TS C 1 0 TAXNUMSP Тип источника оценки (публ./экспертн.) TYPA C 2 0 AREGS Код типа админ.-терр. региона TYPB C 2 0 DICSOUR Код типа источника публикации TYPG C 2 0 GREGS Код типа физ.-геогр. региона TYPL C 2 0 POINTS Код типа пункта TYPS C 2 0 SREGS Код типа акватории TYPT C 2 0 TYPSPP Код способа обозначения UDK C 45 0 BIBREF Код УДК VES C 10 0 DICEXP Код судна VES VESSEL C 40 0 DICVES Hазвание судна VES VOL C 7 0 BIBREF Hомер тома VOY C 3 0 DICEXP Hомер рейса YEAB N 4 0 SPECS Год рождения специалиста YEA YEAD N 4 0 SPECS Год смертия специалиста YEA YEAR C 4 0 ANIMIS Год описания YEA YEARS C 9 0 BIBREF Год(ы) YRS ZIP C 6 0 INSTS Почтовый код ZONE C 40 0 ZREGS Полное название зоны TRM ZREG C 7 0 LABELS Код географической зоны REG -----------------------------------------------------------------------------
Среди этого набора полей можно выделить несколько групп, т.е. таких полей, которые входят в несколько баз данных и в них или абсолютно идентичны или очень схожи:
Таблица 2 ------------------------------------------------------------------------ ABB: ABBR C 14 0 ANIMIS Код (аббревиатура) таксона животных ABBR C 14 0 TYPSPP Код (аббревиатура) рода животных ABBR1 C 14 0 ANIMSYN Код старшего синонима (животные) ABBR2 C 14 0 ANIMSYN Код младшего синонима (животные) ABBRH C 14 0 PARHOST Код хозяина или жертвы ABBRP C 14 0 PARHOST Код паразита или хищника ABBRT C 14 0 TYPSPP Код типового вида (животные) ABBRPL C 12 0 PLANTS Код (аббревиатура) таксона растений ABBRPL1 C 12 0 PLANTSYN Код старшего синонима (растения) ABBRPL2 C 12 0 PLANTSYN Код младшего синонима (растения) BOT: BOT C 15 0 DICBOT Код типа грунта BOTTOM C 50 0 DICBOT Hазвание типа грунта COO: LAT N 6 2 LABELS Широта (градусы.минуты) LATG C 8 4 LABELS Широта (градусы.доли градуса) LATS N 5 2 STAYS Широта (секунды.доли секунд) LON N 7 2 LABELS Долгота (градусы.минуты) LONG N 9 4 LABELS Долгота (градусы.доли градуса) LONS N 5 2 STAYS Долгота (секунды.доли секунд) DAT: DATE D 8 0 ANIMIS Дата записи DEP: DEPMAX N 8 2 STAYS Максимальная глубина сбора DEPMIN N 8 2 STAYS Минимальная глубина сбора EXE: NEX N 5 0 TAXCOLL Число экземпляров FAM: COLLECTOR C 40 0 STAYS Коллектор или сборщик CURATOR C 40 0 ANIMIS Куратор таксона в классификаторе DETERMHO C 40 0 PARHOST Специалист, сделавший определение хозяина DETERMIN C 40 0 TAXPLANT Специалист, сделавший определение животного DETERMPA C 40 0 PARHOST Специалист, сделавший определение паразита DETERMPL C 40 0 TAXPLANT Специалист, сделавший определение растения FAM C 30 0 SPECS Фамилия OPERATOR C 16 0 TAXNUMSP Оператор, вводивший сведения IAB: INABBR C 9 0 INSTS Код (аббревиатура) учреждения KEW: KEYW C 210 0 BIBREF Коды ключевых слов KEYW C 7 0 DICKEYW Код ключевого слова LAT: LATNAM C 25 0 ANIMIS Латинское название организма LOC: CODLOC C 12 0 TAXLOC Код точки находки LCODLOC C 12 0 LABELS Код точки находки (этикетки) PCODLOC C 12 0 LABELS Код базовой точки (опорного пункта) PCODLOC C 12 0 POINTS Код точки находки (собственно точки) SCODLOC C 12 0 STAYS Код точки находки (водные станции) RAN: RANCOD N 2 0 ANIMIS Код ранга таксона животных RANCODPL N 2 0 PLANTS Код ранга таксона растений RANCOD N 2 0 AREGS Код ранга REF: BREF C 40 0 BIBREF Код библиографической ссылки REF C 40 0 ANIMSYN Код обоснования факта SPEC C 40 0 SPECS Код ссылки на специалиста REG: AREG C 7 0 AREGS Код административного региона BS C 2 0 SREGS Код бассейна для акватории GREG C 7 0 GREGS Код физико-географического региона OC C 2 0 SREGS Код океана для акватории REG C 7 0 PARHOST Код региона SREG C 7 0 SREGS Код акватории ZREG C 7 0 LABELS Код географической зоны SDT: DATDET C 10 0 TAXCOLL Дата определения материала SOU: SOUR C 33 0 DICSOUR Код источника публикации SYN: SYN C 1 0 ANIMIS Код синонимии SYS: SYSCOD C 16 0 ANIMIS Систематический код животного SYSCODPL C 12 0 PLANTS Систематический код растения TCT: LATRAN C 12 0 RANCOD Латинское название систематич. категории RUSRAN C 15 0 RANCOD Русское название систематич. категории TEL: PHON C 7 0 SPECS Служебный телефон PHONH C 7 0 SPECS Домашний телефон TIM: TIM1 N 5 2 STAYS Время начала сбора TIM2 N 5 2 STAYS Время окончания сбора Полные написания разных терминов TRM: CITY C 20 0 INSTS Город, где находится учреждение COUNTRY C 15 0 STAYS Страна-участник экспедиции ENGLOC C 45 0 POINTS Английское название географич. пункта ENGSEA C 32 0 SREGS Английское название акватории ENGTERR C 32 0 AREGS Английское название территории INST C 71 0 INSTS Полное название учреждения KEYWORD C 40 0 DICKEYW Полное написание ключевого слова LOC C 45 0 STAYS Hазвание географического пункта MUSEUM C 70 0 TYPLOC Музей, где хранится тип PLACE C 15 0 BIBREF Место издания PUBL C 40 0 BIBREF Издательство REGION C 40 0 GREGS Полное название региона RUSNAM C 27 0 ANIMIS Русское название организма SEA C 40 0 SREGS Hазвание акватории SOURCE C 210 0 BIBREF Источник TERR C 32 0 AREGS Hазвание территории ZONE C 40 0 ZREGS Полное название зоны TRU: TR L 1 0 TAXNUMSP Отметка валидной или архивной информации TYP: LOCT C 1 0 TAXLOC Тип кода точки находки REFT C 1 0 PARHOST Тип кода обоснования факта REGT C 1 0 PARHOST Тип кода региона VES: VES C 10 0 DICEXP Код судна VESSEL C 40 0 DICVES Hазвание судна YEA: YEAB N 4 0 SPECS Год рождения специалиста YEAD N 4 0 SPECS Год смерти специалиста YEAR C 4 0 ANIMIS Год описания YRS: YEAR C 9 0 BIBREF Год(ы) ZIP: ZIP C 6 0 POINTS Почтовый код ------------------------------------------------------------------------
Структуры баз данных системы ZOOINT не требуют особых пояснений. Отдельно необходимо остановиться только на структуре тезаурусов. Hаш подход к их конструированию (на примере базы данных ANIMIS или подобных ей) подробно описан в ряде статей (Лобанов, Тряпицын, 1985; Лобанов, Сергеев, 1986; Затравкин, Лобанов, 1987; Лобанов, Михайлов, 1987; Скарлато, Алимов, Лобанов, Умнов, 1989; Затравкин, Лобанов, 1989; Абдурахманов, Лобанов, 1990; Алимов, Лобанов, Пугачев, 1993; Лобанов, Зайцев, 1993). В настоящем отчете этому вопросу посвящен раздел 6. При разработке ZOOINT сделано только одно отступление от опубликованных правил. Поле ABBR в системе ZOOINT не требует согласования подчиненных таксонов с вышестоящими по началу аббревиатуры. Более того, аббревиатуры двух соподчиненных таксонов из одной иерархической группы (например, надсемейство и семейство), имеющие одинаковую длину, обязательно должны отличаться. Другими словами, аббревиатура конкретного таксона является абсолютно уникальной сама по себе (без присоединения кода ранга), что заметно облегчает многочисленные связи БД ANIMIS с другими БД системы.
Эти же принципы положены в основу конструирования остальных тезаурусов системы. В каждом тезаурусе имеется поле с уникальным символьным кодом объекта, а также поля SYSCOD, RANCOD, SYN, которые позволяют отражать родо-видовые и синонимические связи объектов так же, как это сделано в базах данных таксонов (ANIMIS и PLANTS).
ANIMIS - номенклатура и систематика таксонов животных ANIMSYN - синонимия таксонов животных AREGS - классификатор административно-территориальных регионов BIBREF - библиография литературы о животных DICBOT - словарь названий грунтов (для морских животных) DICEXP - словарь названий морских экспедиций DICGEAR - словарь названий орудий лова морских животных DICKEYW - словарь ключевых слов DICSOUR - словарь библиографических источников DICVES - словарь названий судов GREGS - классификатор физико-географических регионов INSTS - учреждения, в которых работают специалисты LABELS - этикетки - местонахождения животных на суше и их координаты PARHOST - симбиотические связи животных с другими животными PLANTS - номенклатура и систематика таксонов растений PLANTSYN - синонимия таксонов растений POINTS - названия точечных географических объектов и их координаты RANCOD - иерархия таксономических категорий животных RANCODPL - иерархия таксономических категорий растений SEXAGE - данные об экземплярах животных внутри одной музейной единицы хранения SPECS - специалисты, изучающие животных SREGS - классификатор акваторий STAYS - станции - местонахождения животных в акваториях и их координаты TAXCOLL - коллекционные данные о музейных экземплярах животных TAXDET - результаты определения музейных экземпляров животных TAXLOC - географическое распространение таксонов животных по точкам TAXNUMSP - оценки числа видов в крупных таксонах животных для различных регионов TAXPLANT - симбиотические связи животных с растениями TAXREF - связь таксонов животных с библиографическими ссылками TAXREG - географическое распространение таксонов животных по регионам TAXSPEC - связи: специалист - изучаемый таксон TYPLOC - данные о типовых местностях для видов TYPSPP - данные о типовых видах для родов ZREGS - классификатор природно-зональных регионов
Схема связей отдельных блоков системы ZOOINT показана на рис. 1. Для упрощения в каждом блоке показаны только несколько самых важных полей, играющих ключевую роль во взаимодействии блоков. Из-за сложности схемы пришлось упростить изображения БД и привести на схеме не все поля, а только те, которые нужны для связей БД друг с другом. Прямоугольники с двойными рамками изображают базы данных. В верхней части прямоугольника дано название базы данных, отделенное снизу двойной линией. Hиже идут имена полей. Если их несколько - они отделены одинарными линиями. Связи баз данных отображены одинарными линиями. Их крестообразные пересечения не означают соединения. А вот Т-образные стыки - означают соединение. Hесколько линий, отходящих от одного поля базы данных, означают множественные связи БД по этому полю.
Если база данных, к которой обращаются с такими запросами, содержит записи на уровне видов, то сведения о подчинении видов вышестоящим таксонам должны содержаться в самой базе данных или должны быть выделены из нее в виде специального справочного массива (классификатора или словаря). Достаточно полное представление иерархии таксонов можно эффективно обеспечить только в базах данных иерархического типа. Но наиболее мощные современные СУБД для персональных компьютеров используют реляционную структуру и отказ от их развитых и растущих с каждым днем возможностей весьма нежелателен. Важным возражением против использования иерархической структуры является необходимость полного дублирования всей базы данных для представления двух альтернативных систем таксонов. А хранение трех и более систем таксонов становится вообще малореальным. Внесение сведений об иерархии во все записи о таксонах низшего уровня приемлемо лишь для небольших по объему баз данных реляционного типа и только при упрощенном представлении иерархии ограниченным числом категорий. Например, можно во все записи о видах внести данные о родах, семействах, отрядах, классах и типах, к которым они относятся. Но при этом теряется информация о подродах, трибах, подсемействах и других таксономических категориях, обойтись без которых вряд ли согласится специалист по систематике. Внесение же в каждую запись всех возможных категорий, число которых в зоологии превосходит 40, так увеличит объем базы данных, что это наверняка окажется нерентабельным, даже с учетом постоянного роста дисковой памяти у современных ЭВМ. Как и в предыдущем случае - необходимость отражения нескольких альтернативных систем таксонов в несколько раз увеличивает непроизводительный расход памяти.
Приведенные выше соображения убедительно доказывают, что самым оптимальным способом хранения информации об иерархии таксонов является создание отдельного справочного массива - классификатора, в котором в сжатом виде представлены для каждого таксона сведения о всех вышестоящих и подчиненных таксонах. Обычно обьем классификатора гораздо меньше объема основной базы данных, поэтому хранение в таком виде нескольких альтернативных систем иерархии вызывает очень небольшой дополнительный расход дисковой памяти. С другой стороны, наличие классификатора позволяет уменьшить объем основной базы данных за счет использования коротких кодов таксонов вместо их полных названий. Важным преимуществом, которое несет использование классификатора, является возможность постоянных изменений иерархии таксонов вслед за происходящими изменениями представлений о классификации данной систематической группы. Предлагаемый нами классификатор построен так, что эти изменения не будут касаться основной базы данных.
Идея создания классификатора названий живых организмов не является новой. К ней неизбежно приходят все разработчики банков данных о животных и растениях (Скарлато и др., 1989). Чаще всего такие классификаторы не публикуются и остаются в недрах документации конкретной информационной системы. Но время от времени появляются опубликованные классификаторы - чаще всего с целью установления некоего стандарта кодов названий организмов для того или иного применения. К сожалению, ни один из известных классификаторов не может служить стандартом для специалистов по систематике животных, т.к. в них нельзя отразить сложную иерархию зоологических систем и тем более - постоянные изменения в этих системах. Для примера достаточно упомянуть коды семейств высших растений (Weber 1982), и классификатор высших растений Латвии (Лайвиньш и др. 1984). Главное отличие разработанного одним из авторов (Лобанов, Сергеев 1986) и уже проверенного на практике классификатора заключается в том, что возможность представления иерархии таксонов с любой детальностью, требующейся зоологу, реализована в нем полно и последовательно. При этом предельно облегчена процедура внесения изменений в иерархию и обеспечено экономное представление нескольких альтернативных систем таксонов.
Вспомогательной частью классификатора является словарь двузначных цифровых кодов таксономических категорий (табл. 3), в котором учтены рекомендации Я.И.Старобогатова (1974). Для большинства категорий использованы только четные числа, что дает возможность добавить при необходимости новые категории, не изменяя коды старых. Коды самых употребительных категорий оканчиваются на нуль.
Использованный нами классификатор названий животных "ZOOCOD" имеет 6 уровней, соответствующих шести основным иерархическим систематическим категориям в зоологии (класс, отряд, семейство, род, вид и подвид). Но распределение остальных категорий по этим уровням отличается от традиционного. К каждому уровню отнесены все категории выше основной (включая ее) до следующей основной категории более высокого уровня (исключая ее). Первый уровень включает таксоны с рангом от подцарства до класса, второй - от подкласса до отряда, третий - от подотряда до семейства, четвертый - от подсемейства до рода, пятый от подрода до вида, шестой - все внутривидовые таксоны. Сделано это для удобства внесения изменений в систематическую часть классификатора с расчетом на то, чтобы серия изменений захватывала по возможности один уровень (в соответствии с обычными уровнями действий одного специалиста-систематика). Таким образом, полная перестройка системы одного отряда - затронет только уровень семейства; изменение системы одного семейства - только уровень рода и т.д.
Название каждого таксона имеет 2 кода - цифровой и буквенный. Цифровой код отражает однозначно систематическое положение таксона в принятой системе. Цифровые коды получаются при простой нумерации с шагом в несколько единиц всех таксонов одного уровня в традиционном зоологическом систематическом списке. Буквенный мнемонический код (аббревиатура, мнемокод или акроним) служит для сжатия информации при хранении на машинных носителях и для сокращения объема вводимой в ЭВМ информации при создании базы данных и формировании запросов. Акроним образуется обычно из первых букв латинского названия (иногда он совпадает с ним лишь по первой букве). Согласно максимальным объемам реальных таксонов животных цифровые коды имеют на первом-шестом уровнях соответственно 3, 2, 3, 4, 4 и 2 цифры, а аббревиатуры - 2, 2, 2, 3, 3 и 2 буквы. Практическая проверка показала, что такая длина аббревиатур достаточна для их мнемоничности. И буквенный и цифровой коды являются иерархичными по своей структуре. Внутри каждого основного таксона вышестоящего уровня могут использоваться для обозначения подчиненных ему таксонов следующего уровня любые кодовые сочетания, в том числе уже использованные внутри вышестоящих таксонов. Каждый таксон имеет в классификаторе еще 2 воспомогательных атрибута - двузначный цифровой код таксономического ранга (см. табл. 3) и специальное односимвольное обозначение для синонимов и недействительных названий.
Все используемые в зоологической систематике названия таксонов раз и навсегда получают в классификаторе двух- или трехбуквенный код, уникальный на данном уровне внутри основного таксона вышестоящего уровня. Например, код рода должен быть уникален внутри всего семейства, а не только внутри трибы или подсемейства. Таксоны, типифицированные одним родом, должны иметь на одном уровне одинаковые буквенные коды (например, таксоны от подсемейства до надрода - одинаковый код со своим родом). Это же правило распространяется на таксоны более высоких уровней, если они явно произведены от одного названия. Таксоны с одинаковой аббревиатурой отличаются по сопровождающему их коду ранга. Аббревиатура применяется во всех базах данных, использующих классификатор, вместо полного названия. Постоянство аббревиатуры, остающейся неизменной при любых изменениях в систематике, дает возможность отказаться от коррекции данных по систематике и номенклатуре в сопряженных с классификатором базах.
Полная аббревиатура таксона обязательно включает и коды вышестоящих уровней (код семейства, например состоит из 6 символов, а код рода - из 9 символов). Но в случаях, когда в базе данных у всех кодов совпадает начальная часть, она может быть отброшена. Например, в базе данных по одному семейству достаточно использовать 3-буквенные коды родов, а 6-буквенный код семейства вынести в заголовок базы данных (эта возможность продемонстрирована в табл. 4). Буквенный код названия таксона не изменяется никогда, даже при сведении названия в синонимы или при переводе его в непригодные. Это правило обеспечивает отсутствие каких-либо манипуляций с содержимым основных баз данных при изменениях в номенклатуре и систематике.
Цифровые коды являются изменяемой частью классификатора и отражают представление о принятой системе группы животных (или о нескольких альтернативных системах). Все валидные названия имеют разные цифровые коды. Они должны быть присвоены так, чтобы упорядочение таксонов по этим кодам давало систематический список таксонов. Синонимы и непригодные названия имеют одинаковые цифровые коды с соответствующими им действительными названиями. В основные базы данных цифровые коды не вносятся.
Буквенные аббревиатуры и цифровые систематические коды присваиваются таксонам автоматически при помощи специальных программ, написанных одним из авторов (А.Л. Лобановым) на языке dBASE. При построении классификатора вручную заполняются только поля LATNAM, RANCOD и SYN. Минимальная структура, необходимая для хранения классификатора, приведена в таблице 5.
Построенные по такому типу классификаторы для разных групп животных поддерживаются в Зоологическом институте АН СССР на IBM-совместимых персональных компьютерах в среде СУБД dBASE3+, FoxBbase+, FoxPro.
Выделение отдельных блоков в системе ZOOINT весьма условно. Цепочки связанных для выполнения конкретного запроса баз данных иногда включают до 5-7 отдельных файлов. При этом такие базы данных, как ANIMIS или BIBREF, участвуют в работе всех блоков. Блоки выделены нами для удобства рассмотрения структуры системы, ибо в полном виде она трудно обозрима. В схемах отдельных блоков представлены только ключевые базы данных (например, в блоке DISTRIB не показана базы данных данных BIBREF и SPECS, хотя базы данных TAXREG и TAXLOC связаны с ними через поле REF).
Hиже рассматриваются структуры отдельных блоков.
Краткие сведения о полях баз данных блока (имя поля, тип, длина, назначение): ABBR C 14 Код (аббревиатура) таксона животных ABBR1 C 14 Код старшего синонима (животные) ABBR2 C 14 Код младшего синонима (животные) ABBRT C 14 Код типового вида (животные) AREG C 7 Код административного региона CURATOR C 40 Куратор таксона в классификаторе LATRAN C 12 Латинское название систематич. категории LOCUS C 54 Этикетка (местонахождение организма) OPERATOR C 16 Оператор, вводивший сведения RANCOD N 2 Код ранга таксона животных REF C 40 Код обоснования факта RUSRAN C 15 Русское название систематич. категории TYPB C 1 Тип кода обоснования факта
Краткие сведения о полях баз данных блока (имя поля, тип, длина, назначение) ABBR C 14 Код (аббревиатура) таксона животных AREG C 7 Код административного региона AUTHOR C 70 Автор(ы) публикации BREF C 40 Код библиографической ссылки FAM C 7 Код географической зоны LATNAM C 25 Латинское название организма NUMSP N 7 Число видов в крупном таксоне OPERATOR C 16 Оператор, вводивший сведения REF C 40 Код обоснования факта REFT C 1 Тип кода обоснования факта REG C 7 Код региона REGT C 1 Тип кода региона SPEC C 40 Код ссылки на специалиста TERR C 32 Hазвание территории TITLE C 210 Hазвание публикации ZONE C 40 Полное название зоны ZREG C 7 Код географической зоны
Краткие сведения о полях баз данных блока (имя поля, тип, длина, назначение) ABBR C 14 Код (аббревиатура) таксона животных AREG C 7 Код административного региона BOT C 15 Код типа грунта CODLOC C 12 Код точки находки EXPICOD C 10 Код экспедиции GEAR C 30 Орудие сбора GREG C 7 Код физико-географического региона LATNAM C 25 Латинское название организма LCODLOC C 12 Код точки находки (этикетки) LOC C 45 Hазвание географического пункта LOCT C 1 Тип кода точки находки LOCUS C 54 Этикетка (местонахождение организма) PCODLOC C 12 Код точки находки (собственно точки) REF C 40 Код обоснования факта REG C 7 Код региона REGION C 40 Полное название региона REGT C 1 Тип кода региона SEA C 40 Hазвание акватории SREG C 7 Код акватории TERR C 32 Hазвание территории SCODLOC C 12 Код точки находки (водные станции) VES C 10 Код судна
Краткие сведения о полях баз данных блока (имя поля, тип, длина, назначение) ABBR C 14 Код (аббревиатура) таксона животных AUTHOR C 70 Автор(ы) публикации BREF C 40 Код библиографической ссылки KEYW C 7 Код ключевого слова KEYWORD C 40 Полное написание ключевого слова LATNAM C 25 Латинское название организма SOUR C 33 Код источника публикации SOURCE C 210 Полное название источника TITLE C 210 Hазвание публикации
Сложности создания взаимосвязей различных баз данных можно проиллюстрировать на примере разработки блока ввода и просмотра данных о зоологических коллекциях.
Коллекции различных групп животных значительно отличаются типом хранения, степенью изученности, объемом сопутствующих сведений, которые необходимо включить. Например, коллекции морских беспозвоночных хранятся в стеклянных банках, содержащих различное количество экземпляров животных; зачастую часть животных из мало исследованных групп определены приблизительно и мнения специалистов расходятся. Единицей хранения, заносимой в каталог и имеющей уникальный инвентарный номер, является емкость с фиксированными объектами. В качестве необходимых сопутствующих сведений указываются координаты места сбора (станции), глубина, характер грунта, орудие лова и др.
Напротив, для наземных позвоночных инвентарной единицей хранения является 1 экземпляр или даже его часть (остеологические и палеонтологические коллекции), идентификация которых обычно не вызывает затруднений. Для каждой единицы хранения нужно указать сведения о поле, возрасте, месте добычи (проблемы вызывает установление соответствия старых названий новым и поиск неточно указанного места сбора).
Кроме столь различных требований, обусловленных характером объектов, необходимо было учесть возможные ошибки ввода и по возможности заменить ввод с клавиатуры выбором из меню.
Для того, чтобы объединить все перечисленные требования в одном экране ввода, мы разделили вводимую информацию по разным базам данных - TAXCOLL, TAXDET, SEXAGE, LABELS, POINTS, STATIONS. Связь между ними осуществляется с помощью уникальных аббревиатур (географических названий и названий животных) или инвентарных номеров. Первоначальный выбор таксона верхнего уровня осуществляется после входа в программу посредством системы окон, каждое из которых отражает таксон определенного уровня. После выбора таксона верхнего уровня и входа в пункт меню "Коллекции" - "Ввод" нужно выбрать подчиненные таксоны до вида включительно. Такой выбор осуществляется с использованием баз ANIMIS и RANCOD. При заполнении экрана ввода сведения об инвентарном и вспомогательном номерах, характере экземпляров, дате (датах, в случае нескольких экземпляров под одним номером) сбора, поле и возрасте (в случае 1 экземпляра), коллекторе, собравшем материал, и месте его хранения в коллекции заносятся в базу TAXCOLL. Если единица хранения содержит несколько экземпляров, то данные о возрасте и количестве самцов и самок заносятся в базу SEXAGE. В случае, когда экземпляр неоднократно переопределялся, необходимая информация об этом (кто из специалистов, когда и как определил этот экземпляр) помещается в базу TAXDET. Список специалистов, из которого производится выбор, берется из базы SPECS, а из базы ANIMIS - список таксонов возможного определения. Место добычи выбирается из базы LABELS, если место находки не имеет точных координат, или из базы POINTS, если точка находки точно определена. При этом в базу TAXCOLL помещаются лишь тип кода точки находки - указание на то в какой из баз находится собственно название, и буквенный код этой точки в соответствующей базе.
Lobanov A., Sokolov E., Smirnov I. ZOOINT - an integrated system for zoological data bases // ADBIS'94. International Workshop on Advances in DataBases and Information Systems. May 23-26, 1994. Collection of abstracts. 1994. P. 52-53.
Lobanov A., Sokolov E., Smirnov I. ZOOINT - an integrated system for zoological data bases // ADBIS'94. Proceedings of the International Workshop on Advances in Databases and Information Systems. Moscow - May 23-26, 1994. 1994. P. 270-271.
Lobanov A., Stepanjants S., Dianov M. Dimophyes arctica (Chun, 1897) (Siphonophora). Morphological and biological peculiarities research, area distribution improvement with computer aided methods // 6th International Conference on Coelenterata Biology. The Leeuwenhurst, Noordwijkerhout, The Netherlands. 16-21 July 1995. Programme and Abstracts. 1995. P. 62-64.
Medvedev G.S., Lobanov A.L. Einige Erfahrungen bei der Beschaffung und Ausnutzung von Rechnerdatenbanken in der Systematik und Faunistik der Kafer // Verhandlungen des XI Intern. Sympos. fur die Entomofaunistik Mitteleuropas (SIEEC). 19-23 Mai 1986, Gotha. 1989. S. 237-238.
Smirnov I., Lobanov A., Alimov A., Dianov M., Golikov A., Stepanjants S. Integrated information system ZOOINT: the present state and prospects // ADBIS'97. Proceedings of the First East-European Symposium on Advances in Databases and Information Systems. St.Petersburg - September 2-5, 1997. Extend. Abstr. 1997. Vol. 2. P. 112-114.
Smirnov I., Lobanov A., Dianov M. Information system for Antarctic marine animals // Antarctic Communities: Species, Structure and Survival. SCAR Sixth Biology Symposium. Venice, 30 May - 3 June 1994. Abstracts. 1994. P. 247.
Smirnov I.S., Lobanov A.L., Alimov A.F., Dianov M.B., Medvedev S.G. Development of information retrieval systems for zoology // ADBIS'96. Proceedings of the Third International Workshop on Advances in Databases and Information Systems. Moscow - September 10-13, 1996. Extended Abstracts. 1996. Vol. 2. P. 60-63.
Smirnov I.S., Lobanov A.L., Okolodkov Y.B. The PLANTCOD classifier and the OCEAN information retrieval system applied to studies on Arctic marine dinoflagellate biodiversity // Проблемы изучения биологического разнообразия водорослей, грибов и мохообразных Арктики. Международн. конференция. С-Петербург, 12-16.12.1995 г. Тезисы докладов. 1995. P. 16-17.
Абдурахманов Г.М., Лобанов А.Л. Компьютерный банк данных по систематике и географическому распространению жуков-чернотелок (Coleoptera, Tenebrionidae) Кавказа // Материалы Всес. научно-метод. совещ. зоологов педвузов, часть 1. 1990. С. 5-6.
Алимов А.Ф., Лобанов А.Л., Пугачев О.Н. Сравнительный анализ реляционного и сетевого подходов к созданию банков данных по систематике, экологии и географическому распространению животных // Журн. общ. биол. 1993. Т. 54, N 1. С. 96-103.
Алимов А.Ф., Лобанов А.Л., Пугачев О.Н. Использование компьютерных технологий в Зоологическом институте РАН // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 11-15.
Алимов А.Ф.,Старобогатов Я.И.,Кержнер И.М.,Лобанов А.Л.,Степаньянц С.Д. Проблемы исследований разнообразия животного мира России // Журн. общ. биол. 1996. Т. 57, N 2. С. 5-13.
Волкович М.Г., Лобанов А.Л. Банк данных по кормовым связям златок трибы Acmaeoderini (Coleoptera, Buprestidae) Палеарктики // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 166-181.
Дианов М.Б., Лобанов А.Л. Компьютерная географическая система ZOOMAP для картирования ареалов растений и животных // II совещание "Компьютерные базы данных в ботанических исследованиях". Санкт-Петербург, 17-19 апреля 1995 г. Тезисы докладов. 1995. С. 16-17.
Дианов М.Б., Лобанов А.Л. Компьютерная географическая система ZOOMAP для картирования ареалов животных // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 31-34.
Затравкин М.Н., Лобанов А.Л. О принципах создания банка данных по систематике, географическому распространению и паразитологическому значению современных и ископаемых пресноводных моллюсков СССР. // Моллюски - результаты и перспективы исследований. / 8-е Всесоюзное совещ. по изучен. моллюсков. Авторефераты докладов. Л., 1987, с.142-144.
Кузнецов C.Ю. Энтомологические коллекционные базы данных: пример построения и возможности использования // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 49-55.
Затравкин М.Н., Лобанов А.Л. Опыт создания банка данных по систематике и распространению современных и палеоген-четвертичных моллюсков отряда Unioniformes фауны СССР // Бюлл. МОИП, отд. биол. 1989. Т. 14, Вып. 4. С. 59-63.
Лобанов А.Л. Опыт создания и использования автоматизированного банка данных в экологических исследованиях гельминтов рыб // Биологические основы борьбы с гельминтами животных и растений. Тезисы докладов конференции. Москва, февраль 1983 г. 1983. С. 47-49.
Лобанов А.Л. Линейно-иерархическая структура баз данных о таксонах животных // Принципы и методы экоинформатики. 1986. С. 293-295.
Лобанов А.Л. Компьютерные методы в систематике и зоогеографии насекомых // Успехи энтомологии в СССР: экология и фаунистика, небольшие отряды насекомых. Материалы 10-го съезда ВЭО. 1993. С. 38-39.
Лобанов А.Л., Дианов М.Б. Мир жуков ("Wir bestimmen Kaefer") - CD-ROM и краткое руководство. - Berlin : dialobis edition, 1996. 80 с.
Лобанов А.Л., Дианов М.Б. CD-ROM: новый инструмент изучения биологического разнообразия // Компьютерные базы данных в ботанических исследованиях. Сборник научных трудов. 1997. С. 55-57.
Лобанов А.Л., Зайцев М.В. Создание компьютерных баз данных по систематике млекопитающих на основе классификатора названий животных "ZOOCOD" // Вопросы систематики, фаунистики и палеонтологии мелких млекопитающих (Труды Зоологического института РАH, т. 243). С-Пб, 1993, с. 180-198.
Лобанов А.Л., Михайлов В.А. Компьютерный банк данных о жуках-жужелицах юго-востока Средней Азии на основе линейно- иерархической структуры баз данных. / Изв. АН Тадж. ССР, отд. биол. наук (Деп. в ВИНИТИ, 8 окт. 1987, N 7177-в87) 21 с.
Лобанов А.Л., Михайлов В.А. Машинный банк данных о жужелицах юго-востока Средней Азии // Материалы научной сессии энтомологов Дагестана. 1988. С. 36-37.
Лобанов А.Л., Сергеев Г.Е. Проект классификатора названий животных и принцип представления информации об их распространении в структуре биологических баз данных // Принципы и методы экоинформатики. 1986. С. 214-215.
Лобанов А.Л., Смирнов И.С. Принципы построения и использования классификаторов животных в стандарте ZOOCOD // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 66-75.
Лобанов А.Л., Смирнов И.С., Алимов А.Ф., Дианов М.Б., Степаньянц С.Д. Интегрированная информационная система ZOOINT: современное состояние и перспективы // Отчетная научная сессия по итогам работ 1996 года. 8-10 апреля 1997 г. Тезисы докладов. 1997. С. 23-25.
Лобанов А.Л., Степаньянц С.Д., Дианов М.Б. Фаунистические базы данных как инструмент изучения факторов биохорологического разнообразия // Факторы таксономического и биохорологического разнообразия. Программа и тезисы докладов совещания (12-14 апреля 1995 г.). 1995. С. 44.
Лобанов А.Л., Тряпицын В.А. Автоматизированная информационно-поисковая система для родов энциртид (Hymenoptera, Encyrtidae) мировой фауны на базе ЭВМ БЭСМ-6 // Энтомол. обозр. 1985. Т. 64, N 3. С. 649-659.
Медведев Г.С. Опыт эксплуатации компьютерного банка данных по систематике и географическому распространению жуков-чернотелок (Coleoptera, Tenebrionidae) Монголии // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 79-87.
Морозов Ю.Г., В.Д. Ефремов. Программное обеспечение для поддержки и эксплуатации орнитологических баз данных // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 91-99.
Скарлато О.А. Введение // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 3-6.
Скарлато О.А., Алимов А.Ф., Лобанов А.Л., Умнов А.А. Машинные банки данных как подход к кадастру животного мира // Всес. совещ. по проблеме кадастра и учета животного мира. Тез. докладов. Часть 1. 1986. С. 68-70.
Скарлато О.А., Алимов А.Ф., Лобанов А.Л., Умнов А.А. Машинные банки данных - подход к кадастру животного мира // Всесоюзное совещание по проблеме кадастра и учета животного мира. 1989. С. 56-64.
Скарлато О.А., Старобогатов Я.И., Лобанов А.Л., Смирнов И.С. Базы данных по зоологической систематике и сведения о высших таксонах животных // Зоологический журнал. 1994. Т. 73, N 12. С. 100-116.
Скарлато О.А., Старобогатов Я.И., Лобанов А.Л., Смирнов И.С. Биоразнообразие и возможности его анализа с применением компьютерных банков данных // Биоразнообразие. Степень таксономической изученности. 1994. С. 20-41.
Смирнов И.С., Лобанов А.Л. Специализированная библиографическая система для зоологов - ZOOBIB // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 130-132.
Смирнов И.С., Лобанов А.Л., Дианов М.Б., Голиков А.А. О возможном использовании информационно-поисковой системы "OCEAN" для исследования морских водорослей // II совещание "Компьютерные базы данных в ботанических исследованиях". Санкт-Петербург, 17-19 апреля 1995 г. Тезисы докладов. 1995. С. 53-54.
Смирнов И.С., Лобанов А.Л., Соколов Е.П., Дианов М.Б. Развитие интегрированной системы ZOOINT для зоологических баз данных // Информационные системы в науке - 95. 1995. С. 101-103.
Смирнов И.С., Лобанов А.Л., Соколов Е.П., Дианов М.Б. Информационно-поисковая система ЗООИНТ для зоологии (проект "Система компьютерной интегрированной обработки данных по биоразнообразию животных (ЗООИНТ)" N 93-04-21216) // Вестник РФФИ. 1995. N 2. С. 34-36.
Смирнов И.С., А.В. Смирнов. "ОКЕАH" _ банк данных по коллекциям морских беспозвоночных Зоологического института РАH // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 133-135.
Соколов Е.П., Смирнов И.С., Лобанов А.Л. Интегрированная система ZOOINT для ведения и использования зоологических баз данных // Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института, т. 269). 1997. С. 136-144.
Степаньянц С.Д., Лобанов А.Л., Дианов М.Б. (ред.). Базы данных и компьютерная графика в зоологических исследованиях (Труды Зоологического института РАН, том 269). - Санкт-Петербург : ЗИH РАH, 1997. 1-208 с.
Тряпицын В.А., Лобанов А.Л. Принципы построения и содержание баз данных по систематике и экологии насекомых // Принципы и методы экоинформатики. 1986. С. 86-87.
Филиппова H.А., Лобанов А.Л., Стекольников А.А., Мусатов С.А. и др. Комплексный банк данных по паразитическим клещам и насекомым фауны России, вредящим здоровью человека и животных // Информационные системы в науке - 95. 1995. С. 108-109.