Синхронизация списка исследователей с Авторы.xls

Материал из Common History development
Перейти к навигации Перейти к поиску

комментарии в LiveJournal Начинаю собирать список работ исследователей из разных источников в одну базу данных.

Учитываю, что такое собирание-синхронизация никогда не закончится.

Сформулируем бизнес-модель[править]

Авторы делают работы (по-английски "document", "product"). Автором может быть или один человек, или несколько человек, или организация.

Организация, которая регулярно выполняет работы по некоторой тематике, называется проектом.

Работа может быть закрытой (секретной) или публичной, в разном степени готовности.

Публичное представление автором готовой работы как явления, которое возможно скопировать (прочитать, увидеть), называется публикацией (по-английски "publication"). Важной считается публикация на бумажном носителе (книга, журнал, газета, карта), зарегистрированная кодом ISSN-ISBN. Публикация в Сети регистрируется уникальным адресом.

Копия публикации называется экземпляром. Фотография, отсканированная копия экземпляра, текст экземпляра называется артефактом. Удобно хранить артефакт в цифровом виде.

Одна работа может публиковаться несколько раз.

Подтверждение факта публикации лично от автора имеет информационную ценность.

Алгоритм переноса Эксель-файла в медиавики[править]

  1. в режиме визуальной правки копи-пастим таблицу из Экселя в медиавики
  2. переключаемся в режим редактирования кода, имеем текстовое отображения Эксель-данных; на этом этапе удобно сравнивать изменения с предыдущей версией Эксель-файла
  3. вместо разметки таблицы проставляем разметку для шаблон:публИзАвторы.xls; меняем символ |- на }}{{публИзАвторы.xls, изменяем начало-конец таблицы и убираем тег nowiki

Связываем Эксель-файл с общей базой данных[править]

Любой Эксель-файл на самом деле является обыкновенной базой данных. Сайт с медиавики позиционирует себя не просто как база данных, а как единая, качественно нормализированная база, без дубликатов. На данный момент http://hist.tk/o обеспечивает уникальность авторов, то есть каждый автор хранится на отдельной странице.

Синхронизирую вручную авторов из файла Авторы.xls. Синхронизировал всех, кроме некоторых из публикаций РосНОУ, которых считаю сейчас неинтересными - они выделены красным цветом.

Синхронизирую вручную публикации, то есть сохраняю в отдельные страницы. Пример - страница Цивилизация знаний: проблемы и смыслы образования: в 2 ч. Труды Восемнадцатой Международной научной конференции, Москва, 21-22 апреля 2017 г..

В правиле Каждая страница медиавики есть аналогом строки таблицы абстрактной базы данных есть исключение для подобъектов, которые имитируют страницу-строку таблицы и при этом находятся внутри другой страницы. Это исключение использую для строк файла Авторы.xls.

Начинаем тематическук систематизацию публикаций[править]

Можно собирать аннотации на одну и ту же публикацию, написанные разными людьми, но такие тексты не будут краткими и точными. Другой путь - строить аннотации самостоятельно. Для этого можно:

  1. классифицировать каждого автора
  2. классифицировать проект, сайт, печатное издание
  3. классифицировать темы работы; УДК для этого случая хороший классификатор
  4. формализовать специфичный подход такой, как Парадигмы. Итоги

Первый же шаг (классификация каждого автора) дал хороший результат - весь Файл:Авторы.xls‎ можно увидеть на одной странице в более-менее понятном виде для непосвящённого читателя.

Сортировку подобрал так, чтобы умершие исследователи были внизу, ведь нас интересуют обновляемые идеи.

Синхронизация списка исследователей с Авторы.xls.png

скриншот для Систематизация исследователей по авторам

Выводы[править]

На данный момент реализована возможность синхронизации имён авторов, включая требование РосНОУ - фамилии и инициалы авторов на русском и английском языках

Также эта работа показала мне, что неприязнь Андрея Степаненко к ФиНам преувеличена. Поскольку Андрей печатается в РосНОУ от имени их проекта Новая Хронология, то похоже, что он называет политически заангажированным только Фоменко, а не всех ФиНов. Как одно из следствий, буду думать про интеграцию с Хроно-Вики (http://chronology.org.ru).

Конфликты данных[править]

Обнаружил такие несуразности в файле Авторы.xls:

  • конференция 25-26 апреля 2014 называется Четырнадцатой, а на самом деле она Пятнадцатая
  • в программе конференции 2017 года работы Степаненко А.Г. называются "Попытка реконструкции хронологии", "Пусковые механизмы Потопа", а в файле - "Идентификация монголо-татарского ига", "Метангидратная катастрофа и Дарданов потоп" и "Этапы кометной катастрофы".