Коллективы решающих правил


Лекция 1-2: Базовые понятия ии

Назва Лекция 1-2: Базовые понятия ии
Сторінка 14/18
Дата 26.06.2012
Розмір 1.56 Mb.
Тип Лекция
1. /LECT_P1.rtf Лекция 1-2: Базовые понятия ии

Метод предельных упрощений (МПУ)

По тому, как организован процесс обучения распознающих систем, четко выделяются два подхода к проблеме ОРО. Первый основан на построении сложных разделяющих поверхностей в случайно выбранных пространствах, а во втором — центр тяжести проблемы переносится на достижение понимания принципов формирования такого описания объектов, в рамках которого сам процесс распознавания чрезвычайно прост. Обучение в этом случае рассматривается как некий процесс конструирования пространств для решения конкретных задач.

В МПУ предполагается, что разделяющая функция задается заранее в виде линейного (самого простого) полинома, а процесс обучения состоит в конструировании такого пространства минимальной размерности, в котором заранее заданная наиболее простая разделяющая функция безошибочно разделяет обучающую последовательность. МПР назван так потому, что в нем строится самое простое решающее правило в пространстве небольшой размерности, т. е. в простом пространстве.

Пусть на некотором множестве объектов V заданы два подмножества V * 1 и V * 2, определяющих собой образы на обучающей последовательности V. Рассмотрим i-е свойство объектов, такое, что некоторые объекты обучающей последовательности этим свойством обладают, а другие — нет. Пусть заданным свойством обладают объекты, образующие подмножество V1i, а объекты подмножества V2i этим свойством не обладают (V1i V2i = V). Тогда i-е свойство называют признаком первого типа относительно образа V * 1, если выполняются соотношения

и признаком второго типа, если выполняются

Если же выполняются соотношения

то i-е свойство считается признаком первого типа относительно образа V * 2, а если выполняются

то это же свойство объявляется признаком второго типа относительно образа V * 2. Если свойство не обладает ни одной из приведенных особенностей, то оно вообще не относится к признакам и не участвует в формировании пространства.

Одинаковые признаки — это два признака xi и xj, порождающие подмножества V1j, V2j, V1i, V2i, такие, что

Доказано утверждение, смысл которого заключается в том, что если пространство конструировать из однотипных, но неодинаковых признаков, то в конце концов будет построено такое пространство, в котором обучающая последовательность будет безошибочно разделена на два образа линейным, т. е. самым простым, решающим правилом.

Метод предельных упрощений состоит в том, что в процессе обучения последовательно проверяются всевозможные свойства объектов и из них выбираются только такие, которые обладают хотя бы одной из особенностей, определяемых соотношениями (ф. ), (ф. ). Такой отбор однотипных, но неодинаковых признаков продолжается до тех пор, пока при некотором значении размерности пространства не наступит безошибочное линейное разделение образов на обучающей последовательности. В зависимости от того, из признаков какого типа строится пространство, в качестве разделяющей плоскости выбирается плоскость, описываемая уравнением

Каждый объект относится к одному из образов в зависимости от того, по какую сторону относительно плоскости находится соответствующий этому объекту вектор в пространстве признаков размерности n.

Коллективы решающих правил

Давно известны приемы повышения качества принимаемых реше­ний, состоящие в объединении специалистов той или иной области знаний в коллектив, вырабатывающий совместное решение. Идею коллективного решения можно применить и к «коллективу» фор­мальных алгоритмов, что позволит повысить эффективность ре­шения многих задач.

Для рационального использования особенностей различных алгоритмов при решении задач распознавания возможно объединить различные по характеру алгоритмы распозна­вания в коллективы, формирующие классификационное решение на основе правил, принятых в теории коллективных решений. Пусть в некоторой ситуации Х принимается решение S. Тогда S=R(X), где R—алгоритм принятия решения в ситуации X. Предположим, что существует L различных алгоритмов решения задачи, т. е. Sl=Rl(X), l=1, 2, . , L, где Sl—решение, получен­ное алгоритмом Rl. Будем называть множество алгоритмов =1, R2, . Ri.> коллективом алгоритмов решения задачи (кол­лективом решающих правил), если на множестве решений Sl в любой ситуации Х определено решающее правило F, т. е. S=F(S1, S2, . SL, X). Алгоритмы Rl принято называть членами коллектива, Sl — решением l-го члена коллектива, а S — коллек­тивным решением. Функция F определяет способ обобщения ин­дивидуальных решений в решения коллектива S. Поэтому синтез функции F, или способ обобщения, является центральным момен­том в организации коллектива.

Принятие коллективного решения может быть использовано при решении различных задач. Так, в задаче управления под си­туацией понимается ситуация среды и целей управления, а под решением — самоуправление, приводящее объект в целевое состоя­ние. В задачах прогноза Х — исходное, а S — прогнозируемое состояние. В задачах распознавания ситуацией Х является опи­сание объекта X, т. е. его изображение, а решением S — номер образа, к которому принадлежит наблюдаемое изображение. Индивидуальное и коллективное решения в задаче распозна­вания состоят в отнесении некоторого изображения к одному из образов. Наиболее интересными коллективами распознающих ал­горитмов являются такие, в которых существует зависимость веса каждого решающего правила Rl от распознаваемого изображения. Например, вес решающего правила Rl может определяеться соотно­шением

где Bl — область компетентности решающего правила Rl. Веса решающих правил выбираются так, что

для всех возможных значений X. Соотношение (ф. ) означает, что решение коллектива определяется решением того решающего правила Ri, области компетентности которого принадлежит изоб­ражение объекта X. Такой подход представляет собой двухуров­невую процедуру распознавания. На первом уровне определяется принадлежность изображения той или иной области компетент­ности, а уже на втором — вступает в силу решающее правило, компетентность которого максимальна в найденной области. Решение этого правила отождествляется с решением всего кол­лектива. Основным этапом в такой организации коллективного решения является обучение распознаванию областей компетентности. Прак­тически постановкой этой задачи различаются правила органи­зации решения коллектива. Области компетентности можно ис­кать, используя вероятностные свойства правил коллектива, можно применить гипотезу компактности и считать, что одина­ковым правилам должны соответствовать компактные области, которые можно выделить алгоритмами самообучения. В про­цессе обучения сначала выделяются компактные множества и соответствующие им области, а затем в каждой из этих областей восстанавливается свое решающее правило. Решение такого пра­вила, действующего в определенной области, объявляется дикта­торским, т. е. отождествляется с решением всего коллектива.

Непараметрические коллективы решающих правил

В монографии с позиции принципов коллективного оценивания предлагается методика синтеза и анализа нового класса непараметрических моделей статических и динамических моделей. Особенность разработанных непараметрических коллективов решающих правил состоит в максимальном использовании информации обоучающих выборок на основе управляемого сочетания преимуществ параметрических и локальных аппроксимаций. Рассматривается их применение при исследовании социальных и технических систем.
Книга предназначена для специалистов в области искусственного интеллекта и автоматизированных систем обработки информации, аспирантов и студентов вузов.

Коллективы решающих правил

СИНТЕЗ И АНАЛИЗ НЕПАРАМЕТРИЧЕСКИХ МОДЕЛЕЙ КОЛЛЕКТИВНОГО ИПА В ЗАДАЧАХ ВОССТАНОВЛЕНИЯ СТОХАСТИЧЕСКИХ ЗАВИСИМО-ТЕЙ.

1.1. Классификация статистических моделей коллективного типа.

1.2. Восстановление многомерных стохастических зависимостей на основе непараметрических коллективов.

1.3. Непараметрические коллективы решающих правил в задаче распознавания образов.

1.4. Дифференциация признаков анализируемой ситуации по степени их влияния на формируемое решение.

1.5. Асимптотические свойства непараметрических моделей коллективного типа

1.6. Сравнение аппроксимационных свойств непараметрических моделей коллективного типа.

1.7. Оптимизация непараметрических моделей коллективного типа.

1.8. Свойства непараметрических моделей коллективного типа в условиях ограниченных выборок.

ЕПАРАМЕТРИЧЕСКИЕ МОДЕЛИ ВРЕМЕННЫХ ЗАВИСИМОСТЕЙ, ОСНО-!АННЫЕ НА МЕТОДЕ ДВОЙНОГО КОЛЛЕКТИВНОГО ОЦЕНИВАНИЯ

2.1. Традиционные непараметрические модели временных зависимостей коллективного типа и их свойства.

2.2. Синтез и анализ непараметрических моделей временных зависимостей, основанных на методе двойного коллективного оценивания.

2.3. Асимптотические свойства непараметрических коллективов временных зависимостей.

2.4. Сравнение аппроксимационных свойств непараметрических коллективов в задаче восстановления временных зависимостей.

2.5. Исследование свойств непараметрических моделей коллективного типа при коротких временных рядах.

КОЛЛЕКТИВЫ ГИБРИДНЫХ МОДЕЛЕЙ В ЗАДАЧЕ ВОССТАНОВЛЕНИЯ СТОХАСТИЧЕСКИХ ЗАВИСИМОСТЕЙ.

3.1. Направления повышения эффективности использования априорной информации.

3.2. Гибридные модели и их модификации.

3.3. Модификации гибридных моделей.

3.4. Синтез и анализ коллективов гибридных моделей.

3.5. Оценка эффективности входящих в коллектив гибридных моделей.

3.6. Сравнение аппроксимационных свойств коллектива гибридных моделей

3.7. Непараметрические модели стохастических зависимостей с учетом их частичного описания.

НЕПАРАМЕТРИЧЕСКИЕ МОДЕЛИ ПОСЛЕДОВАТЕЛЬНЫХ ПРОЦЕССОВ ПРИНЯТИЯ РЕШЕНИЙ.

4.1. Непараметрические модели статических систем с линейной структурой..

4.2. Непараметрические модели стохастических зависимостей, основанные на методе группового учета аргументов.

НЕПАРАМЕТРИЧЕСКИЕ МОДЕЛИ АНАЛИЗА МНОЖЕСТВ СЛУЧАЙНЫХ ВЕЛИЧИН.

5.1. Регрессионная оценка плотности вероятности.

5.2. Применение метода декомпозиции обучающей выборки в задаче распознавания образов.

5.3. Синтез и анализ непараметрической регрессии на основе метода декомпозиции выборки.

5.4. Анализ множеств случайных величин при восстановлении стохастических зависимостей.

5.5. Свойства непараметрических моделей стохастических зависимостей в условиях больших выборок.

ИНФОРМАЦИОННАЯ СИСТЕМА ПРОГНОЗИРОВАНИЯ ДИНАМИКИ СОСТОЯНИЯ ПРЕСТУПНОСТИ РЕГИОНА.

6.1. Основные понятия и определение объекта исследования.


6.2. Системный анализ преступности и ее причины.

6.3. Задачи исследования состояния преступности региона.

6.4. Анализ направлений научных исследований в задачах профилактики и борьбы с преступностью.

6.5. Структура информационной системы и описание процесса ее функционирования.

СТАТИСТИЧЕСКИЕ МОДЕЛИ ОЦЕНИВАНИЯ ПОКАЗАТЕЛЕЙ ЭФФЕКТИВ-НОСТИ ЭЛЕКТРОТЕХНИЧЕСКИХ ИЗДЕЛИЙ.

7.1. Непараметрические модели оценивания показателей эффективности электронасосных агрегатов.

7.2. Статистический анализ влияния конструктивных особенностей рабочих колес на эффективность электронасосных агрегатов.

7.3. Разработка и исследование непараметрических моделей малорасходных вентиляторов системы охлаждения.

Перед читателями — научный бестселлер американского писателя Джона Дербишира, удостоенный премии имени Эйлера за лучшее популярное изложение математической проблемы. Книга посвящена великой догадке немецкого математика Бернхарда Римана, выдвинутой им в работе «О числе простых чисел, не превышающих. (Подробнее)

Перед Вами — блистательное исследование чилийских ученых-биологов Умберто Матураны и Франсиско Варелы. В нем представлены основы альтернативной теории познания, главные положения которой противопоставлены классической теории отображения действительности (репрезентационизму).

Сюжетом этой книги. (Подробнее)

Перед читателями — уникальный своеобразный путеводитель по марксизму, в который вошли извлечения из классических работ В.И.Ленина, посвященные системе взглядов и учению Карла Маркса. Составитель хрестоматии, академик АН СССР В.В.Адоратский, выбрал работы Ленина с таким расчетом, чтобы получилось. (Подробнее)

В последние 30 лет на передовых рубежах научного знания формируется принципиально новый взгляд на феномен жизни, в рамках которого жизнь предстает как системное явление. Все больше внимания уделяется вопросам, связанным с теорией сложности, с понятиями сетей и моделей организации, что. (Подробнее)

В настоящей книге представлен подробный перечень дат жизни и деятельности великого немецкого философа, основоположника научного коммунизма, экономиста, социолога, политического журналиста Карла Маркса, составленный на основе источников по его биографии и по истории марксизма Институтом Маркса—Энгельса—Ленина. (Подробнее)

Ведущие исследователи работ Маркса предлагают неожиданную радикальную интерпретацию марксизма, объясняющую провалы неолиберализма и закладывающую основания для новой политики освобождения. Не проводя плоских сравнений между мировоззрением Маркса и нашей сегодняшней политической ситуацией, Славой Жижек. (Подробнее)

Данная книга — первая русскоязычная монография о великом шотландском философе эпохи Просвещения Дэвиде Юме, охватывающая все стороны его жизни и творчества и все его труды. Автор разъясняет ключевые идеи Юма, сохраняющие значение в наши дни, подробно рассказывает о его жизни, а также детально. (Подробнее)

Перед читателем — удивительная книга, переведенная на все основные языки мира и ставшая мировым интеллектуальным бестселлером. Она повествует об истории одного математика, Петроса Папахристоса, оставшегося до конца верным великой идее познания истины, всю свою жизнь посвятившего поиску решения одной-единственной. (Подробнее)

В предлагаемой читателям книге ее автор, выдающийся социолог Иммануил Валлерстайн, кратко и доступно излагает комплексный подход к пониманию истории и развития современного мира, предложенный им более сорока лет назад. Сразу после своего появления миросистемный анализ стал популярной методологией. (Подробнее)

Вопреки сложившемуся стереотипу, наука — дело веселое и увлекательное, что лишний раз подтверждает эта книга, объединившая — наверное, впервые — юмор представителей сразу нескольких научных специальностей. Книга написана на основе материалов четырех изданий: «Математики тоже шутят» (М., URSS). (Подробнее)

Выберите страну доставки

Для получения полной информации о книгах
нужно указать страну доставки
Вашего возможного заказа:

Коллективы решающих правил

Специальность 05.13.01 – системный анализ, управление и обработка

информации (энергетика, приборостроение, информатика, производственные процессы)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени доктора технических наук

Работа выполнена на кафедре Управления и информатики Московского энергетического института (технического университета).

Официальные оппоненты: доктор технических наук, профессор Орлов Александр Иванович доктор технических наук, профессор Фомичев Владимир Александрович доктор технических наук, профессор Фролов Александр Борисович

Ведущая организация: Институт проблем управления им. В.А. Трапезникова РАН

Защита состоится 8 октября 2009 г. в 16 часов в Малом актовом зале МЭИ (ТУ) на заседании диссертационного совета Д.212.157.08 при Московском энергетическом институте (техническом университете) по адресу г. Москва, ул. Красноказарменная, д.

Отзывы в количестве двух экземпляров, заверенные и скрепленные печатью учреждения, просим присылать по адресу: 111250, г. Москва, ул. Красноказарменная, д.

14, Ученый Совет МЭИ.

С диссертацией можно ознакомиться в библиотеке МЭИ.

Автореферат разослан “” _ 2009 г.

Ученый секретарь диссертационного совета кандидат технических наук, доцент Д.Н. Анисимов

Общая характеристика работы

Актуальность темы. Для современного этапа развития общества характерна информатизация всех сфер деятельности, в результате которой текстовые данные в электронном виде превратились в ресурс, во многом определяющий научно-технический и экономический потенциал государства. По оценкам экспертов, в настоящее время около 70% накопленной и используемой обществом цифровой информации находится в неструктурированной (текстовой) форме.

В сложившейся ситуации особую актуальность приобретают работы по созданию систем обработки текстовой информации (СОТИ). В последнее десятилетие в России и за рубежом было разработано и внедрено значительное число коммерческих СОТИ, ориентированных, прежде всего, на массового потребителя. При этом значительно меньше внимания было уделено созданию инструментальных средств для удовлетворения информационных потребностей пользователей (специалистов-предметников), занятых научно-исследовательской деятельностью. К числу основных информационных потребностей данной категории пользователей следует отнести: мониторинг публикуемых научных материалов и отслеживание тенденций, происходящих в области профессиональных интересов; выявление и получение из имеющегося документального потока значимых научных статей, необходимых для проведения НИОКР и подготовки современных учебных курсов, диссертационных работ.

Общеизвестно, что в Интернет, корпоративных хранилищах информации в некоммерческом доступе обычно находятся библиографические документы. Если СОТИ ориентирована на работу с такими документами, то появляется возможность на основе их анализа проводить отбор и адресный заказ небольшого числа платных полнотекстовых статей, необходимых для успешного проведения научных исследований. Данный подход к обработке информации обеспечивает снижение материальных затрат на подписку и закупку периодических изданий и материалов конференций, что особенно важно для малых научных коллективов (кафедра, лаборатория, отдел) и специалистовпредметников, самостоятельно проводящих исследования.

Чаще всего информационная потребность специалиста-предметника состоит не только в выделении релевантных документов из общего документального потока, но также в разнесении этого текстового массива на тематические группы, соответствующие более узким вопросам (подтемам). Поэтому практически все современные СОТИ содержат модуль классификации документальной информации в качестве одного из основных компонентов системы.

Методы классификации давно находятся в центре внимания многих коллективов разработчиков. Вместе с тем до сих пор не создано универсального решающего правила, обладающего большой обобщающей способностью и показывающего устойчиво высокую точность на различных выборках. Более того, в условиях изначально непредсказуемой структуры текстовой выборки многие достаточно точные методы классификации показывают противоречивые результаты и их точность от выборки к выборке варьируется в значительных пределах. В большинстве практических задач использование только одного метода не может гарантировать желаемых результатов.

Обзор и анализ публикаций в области обработки данных показывает, что один из наиболее эффективных подходов к увеличению точности и устойчивости классификации основан на синтезе коллективов решающих правил (КРП, комитетов классификаторов). В КРП для принятия решения о классификации документа используется не один, а m методов, каждый из которых самостоятельно присваивает метку класса, после чего формируется общий результат классификации, например, с помощью простого голосования членов комитета.

К числу важных достоинств КРП необходимо отнести следующие свойства.

1) Групповые решения обладают значительно большей устойчивостью и независимостью от структуры и размера выборок. В КРП компенсируются неточности и ошибки, возникающие из-за ограниченного размера обучающей выборки, наличия в ней нерелевантных шумовых элементов, несовершенства методов, используемых на стадии предварительной обработки данных. В условиях практически полного отсутствия априорной информации о структуре документального массива комитеты классификаторов позволяют получать наиболее точное из возможных решений за счет использования дополняющих друг друга решающих правил и специальных стратегий обучения.

2) Существует возможность наращивания сложности решающего правила путем увеличения числа членов КРП до той степени, которая отвечает требованиям решаемой задачи классификации, обеспечивая заданную точность.

3) Групповые решения легко интерпретируются, что особенно важно при применении КРП на практике.

Основным недостатком данного подхода является низкое быстродействие и высокая ресурсозатратность (вычислительная сложность) при обучении. В связи с этим особую актуальность приобретают работы по синтезу высокоточных, быстродействующих и малозатратных КРП для обработки и анализа библиографических текстовых документов. Как показывают специально проведенные автором исследования, для решения данной задачи требуется разработка новых (или усовершенствование уже имеющихся) индивидуальных методов классификации.

Объектом исследований в данной работе являются системы обработки текстовой информации, позволяющие автоматизировать процесс анализа документов и обеспечивающие своевременное получение и распределение информации по классам согласно профессиональным потребностям пользователя.

Предметом исследований в диссертации являются индивидуальные и коллективные методы классификации библиографической текстовой информации.

Цель работы заключается в разработке новых методов классификации и синтезе коллективов решающих правил, обеспечивающих высокую точность, быстродействие и небольшую ресурсозатратность решения задачи классификации библиографических текстовых документов.

Методы исследования. Полученные в диссертации результаты основываются на применении аппарата системного анализа, теории вероятностей, математической статистики, линейной алгебры, теории множеств, вычислительной геометрии, теории алгоритмов, систем искусственного интеллекта, численных методов, имитационного моделирования.

Научная новизна.

1. На основе системного анализа процесса обработки библиографических текстовых документов предложен критерий, учитывающий требования к процедурам выявления информативных терминов, обучения и классификации по точности, быстродействию, ресурсозатратам; построена модель процесса, имеющая модульную структуру, что позволяет оценить влияние различных этапов обработки и анализа библиографических данных на значение целевого критерия.

2. Проведена систематизация процедур выявления информативных терминов и методов классификации текстовых данных, сформулированы рекомендации по их использованию. Построена классификационная матрица, которая позволяет осуществлять обоснованный выбор процедур выявления информативных терминов и методов классификации, исходя из требований к точности, быстродействию и ресурсозатратам.

3. Разработано три новых метода классификации библиографических текстовых документов (модифицированный метод ближайшего соседа, обобщенный метод ближайшего соседа и метод MI- профилей). Адаптированы метод 2 — профилей и метод Q — профилей для решения задач классификации библиографических текстовых документов. Даны рекомендации по выбору настраиваемых параметров в предложенных алгоритмах.

4. Получены оценки вычислительной сложности для разработанных и адаптированных методов на стадиях обучения и классификации. Показано, что при классификации текстовых документов предложенные методы обеспечивают более высокое быстродействие по сравнению с известными процедурами.

5. Сформулированы требования к простым классификаторам. Разработана и обоснована процедура синтеза высокоточных, быстродействующих и малозатратных КРП на основе простых классификаторов для обработки и анализа библиографических текстовых документов.


6. На основе предложенной процедуры проведен синтез двух новых коллективов решающих правил, состоящих из простых классификаторов. Синтезированные КРП состоят как из известных процедур, так и из методов классификации, разработанных в ходе выполнения диссертации. Экспериментально показано, что сформированные КРП имеют меньшую ошибку по сравнению с известными индивидуальными классификаторами.

7. Рассчитаны оценки вычислительной сложности синтезированных КРП.

Показано, что их быстродействие существенно превышает быстродействие метода кближайших соседей.

8. Разработана оригинальная процедура выявления тематических журналов по заданным пользователем предметным областям. Данная процедура позволяет организовать автоматизированный мониторинг информационных ресурсов и получение релевантных научных публикаций, соответствующих потребностям пользователя.

Практическая ценность результатов.

1. Разработан программный комплекс (ПК) “СКАТ” (“Система Классификации и Анализа Текста”), реализующий полный цикл обработки и анализа библиографической текстовой информации. ПК “СКАТ” ориентирован на использование широким кругом пользователей, не имеющих специальных знаний в области теории классификации и программирования.

2. Разработанный ПК “СКАТ” позволяет пользователям получать и обрабатывать в автоматизированном режиме текстовые документы из библиографических баз данных и с Интернет-сайтов. Показано, что предложенные в диссертации методы, алгоритмически и программно реализованные в ПК, эффективны при обработке больших массивов библиографических текстовых данных, обладают высокой точностью, быстродействием, не требуют существенных затрат на стадии обучения. Подтверждено, что точность классификации может быть повышена при формировании КРП с учетом обоснованных в работе рекомендаций.

3. Теоретические результаты и опыт применения ПК “СКАТ” в экспериментальных исследованиях обобщены в методике использования данного ПК для классификации библиографических документов из научных журналов, получаемых из сети Интернет.

4. Разработан, апробирован и внедрен в учебный процесс учебноисследовательский программный комплекс, предназначенный для подготовки специалистов в области обработки и анализа текстовых данных. Продемонстрированы его возможности по проведению самостоятельных комплексных исследований методов обработки и анализа текстовой информации. Алгоритмическую основу программного комплекса составляют разработанные автором методы классификации и синтезируемые из них КРП.

5. Показано, что функциональные возможности ПК “СКАТ” и учебноисследовательского программного комплекса позволяют эффективно решать широкий круг реальных задач обработки и анализа библиографических текстовых документов (автоматизированный мониторинг информационных ресурсов, фильтрацияклассификация научных публикаций по заданным тематикам, наукометрический анализ библиографических баз данных, исследование и сравнительный анализ методов обработки и анализа документальной информации).

Реализация результатов. Разработанный ПК “СКАТ” внедрен в эксплуатацию в Федеральном государственном учреждении Научно-исследовательском институте “Республиканский исследовательский научно-консультационный центр экспертизы” (ФГУ НИИ РИНКЦЭ). ПК “СКАТ” был использован для автоматизированного получения с сайтов электронных издательств англоязычных публикаций по заданным научнотехническим тематикам и фильтрации-классификации документального массива. Практическое применение разработанного программно-алгоритмического и методического обеспечения подтверждается актом о внедрении.

Разработанные в диссертации инструментальные средства были успешно использованы для обработки и анализа базы данных научных публикаций в области химии, в частности для определения основных тематик исследований, построения профилей научных групп, отслеживания изменения тематик работ с течением времени. По результатам применения разработанных инструментальных средств в Институте проблем химической физики РАН (г.Черноголовка) автором был получен акт о внедрении.

Процедура выявления тематических журналов, разработанные индивидуальные и коллективные решающие правила были использованы в издательстве «Новые технологии» для обработки и анализа англоязычных документальных потоков в области информатики. Эффективность применения на практике предложенных теоретических подходов подтверждается актом о внедрении.

Разработанный учебно-исследовательский программный комплекс внедрен в учебный процесс для проведения лабораторного практикума по курсу «Интеллектуальные информационные системы», курсового и дипломного проектирования на кафедре Управления и информатики МЭИ, что подтверждается актом о внедрении.

Апробация работы. Материалы диссертации докладывались на одиннадцати международных конференциях “Информационные средства и технологии” (1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008 гг. Москва, МЭИ), на восьми Научных сессиях МИФИ (2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009 гг. Москва, МИФИ), на семи научно-технических семинарах “Современные технологии в задачах управления, автоматики и обработки информации” (2002, 2003, 2004, 2005, 2006, 2007, 2008 гг.

Публикации. Автором опубликовано 55 работ по теме диссертации, в том числе 14 статей в журналах, рекомендованных ВАК по направлению управление, вычислительная техника и информатика, монография и учебное пособие.

Структура и объем работы. Диссертация состоит из введения, пяти глав, заключения, списка литературы, содержащего 284 наименований, 6 приложений. Основной текст диссертации излагается на 335 машинописных страницах, содержит 27 рисунков и 25 таблиц.

Во введении обоснована актуальность, цель и задачи проводимого исследования, приведен обзор известных публикаций, указаны возможные области использования результатов работы.

В первой главе рассматривается специфика обработки библиографических текстовых документов, сопоставляются различные модели представления документальной информации, проводится сравнительный анализ способов оценки точности классификации.

В диссертации для представления текстовых документов используются векторная и матричная модели. В векторной модели любой документ описывается в виде точки в M–мерном пространстве, где М – количество признаков (размер словаря терминов):

Здесь x j – вес термина i в документе j (j=1,…,N, N – количество документов в выборке, i=1,…,M).

Выборка текстовых документов может быть представлена в виде матрицы “документ – термин”, строки которой представляют собой документы, а столбцы – термины, содержащиеся в этих документах. Для определения весов терминов в документах используются специальные методы взвешивания (например, tfc-взвешивание, см. формулу (3)).

В первой главе также обосновывается применение методологии системного анализа для решения поставленных в диссертации задач. На основе методологии системного анализа формируется целевой критерий (ЦК) “точность-быстродействиересурсозатратность”, которому должны удовлетворять разрабатываемые в диссертации инструментальные средства. Такой критерий может быть записан в виде:

где P (precision) – точность системы обработки текстовых данных, t – быстродействие системы, – ошибка системы, Z – затраты на этапе обучения, Z допуст. – допустимые затраты ресурсов на этапе обучения.

При этом точность оценивается по экзаменационной (тестовой) выборке как отношение количества правильно проклассифицированных документов к общему размеру экзаменационной выборки. Под быстродействием понимается время, которое затрачивается алгоритмом для классификации нового документа (присвоения документу метки класса). Под затратами понимаются временные и материальные ресурсы, необходимые для формирования обучающих и экзаменационных выборок, организации и проведения настройки параметров процедур обработки и анализа текстовых данных.

Обычно при настройке параметров различных методов классификации используются одни и те же выборки и алгоритмы предварительной обработки данных, поэтому эти затраты одинаковы для большинства методов классификации и их можно зафиксировать, относя к “неизбежным” потерям, всегда возникающим при проведении классификации текстовых документов. В этом случае главным фактором, определяющим показатель ресурсозатратности, становятся затраты на стадии обучения, возникающие при настройке параметров решающих правил на обучающих и экзаменационных выборках.

В диссертационной работе оценивание быстродействия классификации и затрат на стадии обучения проводится с использованием инструментария теории алгоритмов на основе расчета вычислительной сложности. Математический аппарат теории алгоритмов позволяет получать оценки вычислительной сложности алгоритма вне зависимости от производительности компьютерной техники с помощью оценки количества необходимых элементарных вычислительных операций. Таким образом, вычислительная сложность в работе будет рассчитываться с помощью О-оценок, которые зависят от размера входных данных алгоритма.

В первой главе в рамках методологии системного анализа строится модель процесса обработки библиографической текстовой информации. В модель включены следующие модули: “Сбор информации и формирование выборок”; “Предварительная обработка данных”, которая объединяет процедуры удаления разметки и стоп-слов, выделения основ слов (stemming), индексирования и выявления информативных признаков, представления текстового массива в виде матрицы “документ-термин”; “Выбор методов классификации”; “Обучение классификаторов”; “Оценка точности, быстродействия и затрат”.

Предложенная модель позволяет выделить наиболее важные модули с точки зрения ЦК. К таким модулям относятся:

1) предварительная обработка текстовой информации, прежде всего, выбор процедуры выявления информативных признаков;

2) выбор классификаторов и их обучение; объединение классификаторов в высокоточные, быстродействующие и малозатратные КРП.

В рамках сформулированной цели работы наиболее логичным и естественным шагом является анализ существующих методов классификации и выявление из них таких решающих правил, на основе которых можно сформировать высокоточные, быстродействующие и малозатратные комитеты. Однако, учитывая многоаспектность и разнохарактерность исследований, проводившихся в области теории классификации, такая задача представляется нетривиальной. Для ее решения в данной работе используется методология системного анализа. С позиций системного анализа осуществляется систематизация процедур, выполняемых на наиболее ответственных этапах обработки и анализа текстовых данных, и оценивается их взаимосочетаемость. Причем предлагаемая систематизация строится на общих принципах как для процедур выявления информативных признаков, так и для методов классификации.

Для проведения объективной систематизации процедур выявления информативных признаков и методов классификации были проанализированы практически все доступные (на момент подготовки работы) материалы по данной проблематике. Эти материалы состояли из известных публикаций, экспертных суждений и собственных экспериментальных исследований.

В качестве основного результата систематизации процедур выявления информативных признаков, следует отметить выделение алгоритмов взвешивания, которые наиболее полно удовлетворяют сформулированному ЦК. Наилучшие результаты в данной работе были получены для tfc-взвешивания, которое рассчитывается по формуле:

где fij – частота слова i в документе j, N – число документов в выборке, М – число слов в выборке после удаления служебных слов и выделения корней слов, Ni – общее количество документов, содержащих слово i.

Главный итог систематизации методов классификации заключается в том, что выявлено крайне незначительное число известных классификаторов, которые обладают приемлемыми показателями по быстродействию, точности и затратам на стадии обучения (к таким классификаторам можно отнести метод центроидов и наивный байесовский метод). В связи с этим важным направлением исследований в области теории классификации является разработка новых (или модификация известных) методов, которые должны обладать высокой точностью и высоким быстродействием, а также быть приемлемыми с точки зрения требуемых ресурсозатрат. Кроме того, проведенная систематизация позволяет отнести синтез КРП к перспективному и актуальному направлению исследований. При этом особый интерес вызывает решение проблемы построения высокоточных, быстродействующих, малозатратных комитетов.

Проведенная систематизация процедур выявления информативных признаков и методов классификации позволяет сформировать единую классификационную таблицу, которая существенно облегчает исследователю выбор средств для решения той или иной практической задачи обработки библиографической текстовой информации. Фактически такая таблица является аналогом номограммы, которая в зависимости от требований к точности, быстродействию и допустимым затратам позволяет рекомендовать наиболее подходящие алгоритмы выявления информативных признаков и классификации.

Во второй главе проводится обзор основных направлений исследований в области разработки коллективов решающих правил. Под коллективом решающих правил в работе понимается совокупность методов классификации , объединенных для выработки общего решения. Сравнительный анализ различных стратегий голосования в КРП позволяет сделать вывод, что если комитет составляется из разнородных классификаторов, обладающих приблизительно одинаковой индивидуальной (достаточно высокой) точностью, то предпочтительно использовать простое голосование. В таких неоднородных КРП каждый классификатор имеет равный вес при принятии решения и новое наблюдение X N 1 относится к тому классу, за который проголосовало большинство членов КРП.

Отметим, что простое голосование не увеличивает совокупной сложности синтезируемых КРП и не приводит к росту затрат на стадии обучения. Кроме того, для простого голосования можно теоретически рассчитать верхнюю точностную границу, к которой будут стремиться комитетные решения. Для расчета необходимо сделать следующие предположения: все методы, используемые в КРП, независимы; точность членов комитета известна и все решающие правила являются равноточными; КРП состоит из нечетного количества классификаторов ( 3 m 9 ).

Определим верхнюю точностную границу комитета, который может состоять соответственно из трех, пяти, семи или девяти методов классификации, при этом индивидуальная точность р членов КРП меняется от 0,6 до 0,9. Результаты расчета приведены в таблице 1. Анализ полученных результатов показывает, что применение КРП на основе простого голосования гарантирует увеличение точности по сравнению с точностью отдельных классификаторов, членов комитета, если они являются независимыми и их индивидуальная точность p 0,5.

Принципы проведения селекции методов для их включения в неоднородные КРП остаются одним из наименее формализованных и разработанных вопросов в теории классификации. В данной работе для отбора классификаторов в КРП используются меры разнородности. Проведенный автором сравнительный анализ мер разнородности позволил выделить Q –статистику в качестве наиболее подходящей меры разнородности при синтезе неоднородных КРП на основе простого голосования.

Q –статистика показывает связь между ошибками, которые допускаются двумя решающими правилами J s и J p из коллектива. Парная Q –статистика рассчитывается по следующей формуле:

Здесь a – число раз, когда оба решающие правила J s и J p сделали правильную классификацию; b – число раз, когда решающее правило J s сделало правильную классификацию, J p – неправильную; c – число раз, когда решающее правило J p сделало правильную классификацию, J s – неправильную; d – число раз, когда оба решающие правила J s и J p сделали неправильную классификацию.

Илон Маск рекомендует:  Тег noframes

На основе специально проведенного имитационного моделирования и экспериментальных исследований в работе выявлен наиболее информативный диапазон изменения меры разнородности: Q [0;0,85]. Данный диапазон используется при отборе методов для их включения в КРП.

Несмотря на активизацию исследований по разработке комитетов классификаторов для группировки фактографической информации и распознавания образов, к настоящему моменту существует весьма небольшое количество работ по синтезу неоднородных КРП для классификации текстовых документов. На большинстве выборок неоднородные КРП, сформированные в известных публикациях, улучшали точность классификации на 3–5 процентов. Необходимо особо отметить, что все КРП в качестве одного из членов включали метод ближайшего соседа (или метод к-ближайших соседей).

В данной работе проводится синтез высокоточных быстродействующих и малозатратных КРП на основе простых классификаторов. К сожалению, имеющиеся на настоящий момент интуитивно понятные определения простого классификатора мало конструктивны и вряд ли могут использованы для синтеза КРП, эффективных с вычислительной точки зрения. Незначительное внимание к данной проблеме в отечественной и зарубежной литературе, противоречивые подходы и определения не позволили ранее получить значимый выигрыш в быстродействии при формировании комитетных решений, используя идею комбинирования достаточно точных, быстрых, малозатратных методов.

В работе уточняется понятие простого классификатора. Для этого вводятся принципы, которым должны удовлетворять простые классификаторы.

Первый принцип непосредственно связан с требованием простоты модели. В простом классификаторе количество настраиваемых на этапе обучения параметров не должно превосходить трех – J <1, 2, 3 >.

Второй принцип направлен на сокращение ресурсозатрат, необходимых на стадии обучения, т.е. простые классификаторы должны иметь приемлемое время настройки параметров 1, 2,3. Для этого фиксируется способ обучения. В работе показано, что наиболее рационально использовать метод обучающих-тестовых выборок, который обеспечивает высокое качество настройки параметров, не требует дополнительных затрат на формирование большого числа выборок и организацию многоступенчатой процедуры обучения.

Третий принцип заключается в том, что простые классификаторы должны обеспечивать высокое быстродействие. Так как в данной работе для оценки быстродействия используется вычислительная сложность алгоритма, то представляется возможным сформулировать более строгие требования к быстродействию простых классификаторов. Будем считать, что на стадии классификации простой класификатор должен иметь быстродействие не менее, чем в 10 раз большее быстродействия, которое обеспечивает метод к-ближайших соседей (метод к-БС):

Здесь Oп.к. ( M ) — количество вычислительных операций, необходимых для классификации документа с помощью простого классификатора, Oк БС (M ) — количество вычислительных операций, необходимых для классификации документа методом к-БС.

Так, если быстродействие простого классификатора в десять раз выше быстродействия метода к-БС, то в случае объединения независимых равноточных ( p 0,7 ) простых классификаторов в комитет размером m 9 теоретически возможно достичь 90% точности при более высоком быстродействии КРП, чем у метода к-БС.

Сформулированные выше принципы отвечают на вопрос, какие из классификаторов можно рассматривать в качестве кандидатов в члены КРП, однако они не дают возможности из имеющихся простых классификаторов отобрать наилучшие с целью их объединения в комитет. Для решения этой задачи необходимо совместно анализировать точностные свойства простых классификаторов и оценивать их взаимодополняемость (т.е. способность компенсировать ошибки друг друга).

В данной работе к кандидатам в члены КРП предъявляются следующие требования:

1) средняя точность простого классификатора на различных выборках должна быть не ниже 70 % (средняя точность находится в интервале р [0,7;0,8] ), при этом точность всех методов–претендентов на участие в комитете, соизмерима и не отличается более чем на 5 процентов;

2) средняя разнородность метода–претендента на место в комитете (по отношению к другим членам КРП), измеренная с помощью Q –статистики, должна удовлетворять неравенству Qсредняя 0,85.

В ряде известных работ по синтезу КРП для сопоставления коллективных и индивидуальных решений вводится базовый классификатор, в качестве которого обычно выбирается метод классификации с хорошо изученными свойствами. В данной работе базовым классификатором является метод к-ближайших соседей.


Сформулированные критерии включения простых классификаторов в комитет должны обеспечить следующие свойства синтезируемых КРП.

1.Точность. Средняя ошибка КРП на различных выборках должна быть не менее, чем на 4 процента ниже средней ошибки базового классификатора (метода к-БС). Средняя ошибка КРП также должна быть меньше средней ошибки наиболее точного решающего правила, входящего в комитет (по результатам экспериментов таким решающим правилом оказался метод центроидов).

2. Быстродействие. Быстродействие синтезируемых КРП должно быть выше быстродействия базового классификатора (метода к-БС).

3. Затраты. Уровень затрат при синтезе КРП фиксируется за счет выбора наиболее эффективной с точки зрения ЦК процедуры обучения (метод обучающих-тестовых выборок), снижения числа настраиваемых параметров классификаторов на стадии обучения (не более трех), ограничения размера комитета (не более семи), обеспечения вычислительной эффективности алгоритма (числа вычислительных операций на стадии обучения).

Обобщим приведенные выше результаты и сформулируем процедуру синтеза высокоточных, быстродействующих, малозатратных КРП на основе простых классификаторов.

Шаг 1. Все методы, кандидаты для включения в КРП, последовательно обучаются и тестируются с использованием процедуры обучающей-тестовой выборки, проводится экспериментальный анализ точности, быстродействия и необходимых затрат на стадии обучения. Из имеющихся методов в качестве кандидатов отбираются те, которые являются простыми классификаторами и имеют точность в интервале p [0,7;0,8].

Шаг 2. Для отобранных методов вычисляется мера разнородности с помощью Q –статистики. Выбираются методы, обладающие наилучшими показателями “точность–разнородность”, и из них формируется КРП, максимальный размер которого не превосходит семи.

Шаг 3. Проводится анализ точности, быстродействия и ресурсозатратности полученного комитета. Если средняя ошибка коллективного решения не уменьшается на 4% по сравнению со средней ошибкой метода к-БС, то необходимо вернуться на предыдущий шаг и увеличить размер КРП или сформировать комитет из другой комбинации разнородных методов или расширить число простых классификаторов, являющихся кандидатами для включения в комитет.

Третья глава посвящена разработке новых методов классификации текстовых документов, сочетающих малое время классификации, небольшие затраты на стадии обучения и высокую точность обобщения, сопоставимую с точностью известных методов.

В работе предлагается новый модифицированный метод ближайшего соседа (ММБС), разработанный и исследованный автором. Данный алгоритм предусматривает наличие стадии обучения и модифицирует метод ближайшего соседа (МБС) так, чтобы существенным образом сократить количество вычислительных операций, необходимых для проведения классификации, и тем самым увеличить быстродействие.

Целью алгоритма является определение области в M–мерном пространстве, в которую попадает новое наблюдение X N 1, и использование для классификации только тех X l (l 1. N l, N l N ), которые принадлежат выявленной области.

Эвристика, позволяющая осуществить поставленную цель, заключается во введении опорных точек (ОТ) P1. PS. Такие ОТ должны быть расположены на достаточном расстоянии друг от друга, например, являться центроидами различных классов.

Входными данными алгоритма являются: обучающая выборка документов, представленная в виде матрицы “документ-термин”; количество и расположение опорных точек (далее предполагается, что ОТ — центроиды всех классов, общее число ОТ S G ).

Выходные данные алгоритма представляются в виде упорядоченных матриц Dn ( n 1. S ; S G ; G — количество классов).

Для обучения ММБС необходимо выполнить следующие шаги.

1. Вычисление расстояний от всех документов обучающей выборки X l (l 1. N ) до опорных точек, получение N–мерных векторов расстояний:

2. Проведение сортировки внутри векторов d1, d 2. d s так, чтобы элементы мых близких к самым дальним) и расширение векторов d1, d 2. d s до матриц D1, D2. Ds размерностью N 3. Первый добавленный столбец содержит целочисленные значения, соответствующие исходному (до сортировки) номеру элемента; второй – метки классов, к которым относятся элементы.

где n – порядковый номер опорной точки (n 1. S; S G) ; j,r,f,m,i – порядковые номера наблюдений в исходной выборке размера N. – метки классов Входными данными алгоритма являются: новое наблюдение X N 1, заданное вектором весов терминов (или экзаменационная выборка документов, представленная в виде матрицы “документ-термин”); упорядоченные матрицы Dn (n 1. S; S G), полученные на стадии обучения.

Выходные данные алгоритма представляют собой метку класса, к которому отнесен новый документ X N 1.

го столбца упорядоченных матриц D1, D2. Ds, которые были бы наиболее близки к упорядоченных матрицах Dn в следующей позиции за элементами d n, т.е. справедN 1) ливо: d n d n по формулам:

D1, D2. Ds, соответствующих найденным на предыдущем шаге расстояниям d n.

Поиск общих точек, которые находятся в -области пересечения гиперколец с центраи d1 l 1), ми в опорных точках. Для этого анализируются точки, соответствующие d 3. В случае, если на предыдущем шаге обнаружить общие точки не удалось, увеличиl 2) ваются приращения радиусов Rn ( Rn d n Увеличение Rn проводится аналогичным образом до тех пор, пока не обнаружатся общие точки.

4. На основании правила ближайшего соседа (или правила к-БС) принимается решение об отнесении нового наблюдения X N 1 к одному из классов, при этом в голосовании участвуют только те наблюдения, которые попали в общую многомерную область пересечения гиперколец.

Важная особенность ММБС заключается в том, что имеется возможность на стадии обучения за счет увеличения ОТ снижать ошибку классификации. В работе излагается специальный алгоритм определения числа ОТ для обеспечения заданной точности.

В этом алгоритме первоначально в качестве опорных точек используются центроиды всех классов. Затем, при необходимости, из выборки случайным образом извлекаются дополнительные наблюдения. Если они успешно проходят проверки на удаленность от уже имеющихся ОТ и на принадлежность к населенной области признакового пространства, то эти наблюдения становятся новыми опорными точками.

Главной целью разработки ММБС являлось повышение быстродействия прототипа – МБС (или метода к-БС) при классификации новых наблюдений. В этой связи необходимо оценить количество операций, исполняемых в ММБС на стадии классификации нового наблюдения X N 1. Рассчитаем вычислительную сложность алгоритма ММБС на основе использования О-оценок.

Количество операций для расчета расстояний от нового наблюдения X N 1 до S опорных точек: O1этап. S O( M ), где O(М ) — вычислительная сложность операции расчета евклидова расстояния.

Количество операций по определению расстояний в упорядоченных матрицах Dn (n 1. S ) :

Oклассиф. S O(log N ), где O(logN ) — вычислительная сложность операции двоичного поиска.

Таким образом, на этапе классификации число необходимых операций вычисляется следующим образом:

На стадии обучения общая вычислительная сложность алгоритма ММБС включает расчет расстояний до ОТ (вычислительная сложность S O(NM ) ) и проведение сортировки (вычислительная сложность S O( N log N ) ):

Известно, что количество операций, необходимое для классификации нового наобщее блюдения в методе ближайшего соседа, равно ОМБС (классиф.) ( NM ) N O( M ). Тогда O(log N ) O(NM ).

В диссертации детально исследуются характеристики разработанного ММБС. В частности, анализируется механизм принятия решений. Отмечается, что если в методе кБС областью принятия решений является гиперсфера, то в ММБС такой областью является гипермногогранник, получаемый в результате пересечения гиперколец около классифицируемого наблюдения. В связи с этим область принятия решений в ММБС будет включать не только ближайших соседей (БС), содержащихся в гиперсфере, но и дополнительные точки, лежащие ближе к вершинам гипермногогранника.

Таким образом, решение в ММБС не всегда принимается исходя из анализа ближайших соседей. Используя понятие, введенное в литературе по непараметрическим методам классификации, можно назвать точки, лежащие внутри гипермногогранника, но не принадлежащие гиперсфере, аппроксимированными ближайшими соседями. Наблюапр дение X является аппроксимированным соседом для X N 1, если справедливо неравенство:

Здесь X * — ближайший сосед для X N 1, — положительная малая величина.

Алгоритм ММБС предоставляет потенциальную возможность для дальнейшего улучшения точности метода без существенного снижения быстродействия. Для этого в данной работе предлагается новая процедура классификации, получившая название обобщенного метода ближайшего соседа (ОМБС). Основная идея метода заключается в том, чтобы проводить взвешивание аппроксимированных БС, участвующих в принятии решений в ММБС. Это должно снизить ошибку за счет уменьшения влияния наиболее удаленных из аппроксимированных БС, которые получают меньший вес при определении метки класса.

Возможность появления среди аппроксимированных соседей точек, достаточно удаленных от классифицируемого наблюдения, обусловлена тем, что в ряде случаев гипермногогранник может быть вытянут (из-за структуры выборки) в одном (или нескольких) направлениях М-мерного признакового пространства.

В данной работе для проведения взвешивания соседей используется специально разработанная уточненная формула взвешивания:

В уточненной формуле взвешивания к–й сосед имеет вес, который определяется значением коэффициента взвешивания :

Экспериментальная настройка коэффициента взвешивания в процессе обучения позволяет корректировать веса различных соседей. Согласно проведенным автором исследованиям уточненная формула взвешивания обеспечивает более высокую точность классификации по сравнению с известными формулами линейного взвешивания.

Вышеизложенный алгоритм ММБС оперирует расстояниями от новой точки X N 1 до опорных, взвешивание которых нецелесообразно. В связи с этим расчет весов проводится для соседей, попавших в общую область. Алгоритмы обучения ММБС и выбора опорных точек в полной мере применимы для ОМБС. На стадии классификации первые три шага алгоритма ОМБС также аналогичны алгоритму классификации ММБС.

После чего выполняется дополнительные шаги.

Дополнительные шаги для алгоритма классификации ОМБС.

4. Для выявленных на предыдущем шаге точек, попавших в общую область, рассчитываются расстояния до классифицируемого наблюдения X N 1. Найденные расстояния d1БС. d к сортируются по возрастанию. С целью определения весов для попавших в общую область точек применяется уточненная формула линейного взвешивания (см. формулу (12)).

5. Осуществляется взвешенное голосование среди точек, попавших в общую область. Новое наблюдение X N 1 относится к классу, получившему наибольший вес при голосовании к-взвешенных соседей из области.

В диссертационной работе приводится также алгоритм экспериментальной настройки коэффициента взвешивания.

В ОМБС увеличивается время классификации нового наблюдения по сравнению с ММБС, однако быстродействие ОМБС остается значительно более высоким, чем у МБС или метода к–БС.

Так, в ОМБС добавляется по сравнению с ММБС дополнительный третий этап, включающий расчет расстояний от к точек, попавших в общую область, их сортировку и последующее взвешивание:

Здесь O(2) — вычислительная сложность элементарных операций (сложение, умножение, сравнение и т.п.), которые не зависят от размера входных данных.

Таким образом, количество вычислительных операций, которые осуществляются в ОМБС на этапе классификации, определяется следующим соотношением:

OОМБС (классиф.) O1этап. Oклассиф. Оклассиф.

Наряду с методом ближайшего соседа, позволяющим вводить новые эвристики, особый интерес при разработке простых классификаторов представляют профильные методы, основанные на вычислении некоторого формального объекта – профиля класса.

Наиболее известным профильным методом является метод центроидов (МЦ). Вместе с тем при использовании МЦ возникает ряд сложностей, главная из которых состоит в том, что многие термины с большим весом входят в профили сразу нескольких классов.

Для преодоления этой проблемы в диссертационной работе применяется подход, заключающийся в построения профилей классов на основе анализа двумерной таблицы сопряженности размера 2х2. Отличие данного подхода от центроидного заключается в том, что в профиль включаются термины, не только часто встречающиеся в данном классе, но и редко встречающиеся в других классах.

В диссертации рассматриваются принципы построения профилей классов на основе использования трех подходов: 2 – статистики; Q — статистики; улучшенного критерия взаимной информации, который был предложен автором.

Разработанные процедуры получили названия метода 2 –профилей, метода Q – профилей и метода MI–профилей (MI сокращение от Mutual Information – взаимная информация). В этих алгоритмах на этапе обучения проводится выявление наиболее информативных терминов для каждого класса на основе применения — статистики, Q статистики или улучшенного критерия взаимной информации. Затем полученный профиль ( Q – профиль или MI-профиль) используется для проведения классификации новых наблюдений.

В методах непараметрического оценивания 2 -статистика для данных, представленных таблицей сопряженности размера 2х2, рассчитывается по формуле:


В формуле (16) использованы следующие обозначения: А – число раз, когда термин x (i ) и класс Q g встречаются вместе; В – число раз, когда x (i ) встречается без Q g ;

C – число раз, когда Q g встречается без x (i ) ; D – число раз, когда Q g и x (i ) не встречаются; N – общее количество документов в выборке.

Величина Q – статистики во введенных выше обозначениях может быть рассчиAD BC В данной работе предлагается улучшенный критерий взаимной информации. В предлагаемом критерии параметр A в числителе формулы известного в литературе критерия взаимной информации возводится в степень r:

Возведение в степень параметра А позволяет существенно увеличить значение взаимной информации для высокочастотных терминов и скомпенсировать основной недостаток классического алгоритма по заниженному взвешиванию наиболее информативных терминов.

В предложенных процедурах на этапе обучения проводится выявление информативных терминов и составление профилей для каждого класса на основе расчета весов терминов с помощью 2 –статистики, Q – статистики или улучшенного критерия взаимной информации. После чего составляется матрица профилей классов – Р. Столбцы матрицы сортируются в порядке убывания значений весов. Единственным управляющим параметром для всех трех методов является пороговое значение Т, которое определяет длину профиля классов M g (предполагается, что все классы имеют одинаковую длину профиля M 1 M 2. M G ).

На этапе классификации рассчитываются значения весов классов g, которые представляют собой “информационные суммы”, соответствующие каждому классу. Расчет весов классов проводится по формуле:

где ( x (i ), Qg ) рассчитывается по одной из формул (16)-(18), tf i – частота встречаемости i–го термина в классифицируемом документе, M g – количество наиболее информативных терминов, включенных в профиль g–го класса.

Решающее правило в методе 2 –профилей, методе Q – профилей и методе MI– профилей одинаково и имеет вид: классифицируемый документ X N 1 относится к тому классу, которому соответствует наибольшая сумма весов ( X N 1 Q g, если g max, для g, g 1. G ).

В диссертационной работе приводится детальное описание алгоритмов обучения профильных методов и определения длины профиля.

Вычислительная сложность профильных методов. В рассмотренных выше профильных методах на этапе классификации рассчитываются значения весов классов по формуле (19). Для этого требуется следующее количество вычислительных операций:

Ваша жизнь поменяется.

где O1 — количество операций, необходимых для определения весов классов 1,…, G, O2 — количество операций сравнений, необходимых для определения наибольшего веса класса.

Сравнение вычислительной сложности профильных методов с вычислительной сложностью наивного байесовского метода и метода центроидов показывает, что методы 2 –профилей, Q – профилей и MI–профилей имеют практически такое же быстродействие, как наивный байесовский метод, который является одним из наиболее скоростных среди известных классификаторов. При этом быстродействие методов 2 – профилей, Q – профилей и MI–профилей выше быстродействия МЦ.

Проведенная в данной главе разработка новых методов позволила существенно расширить число простых классификаторов, которые могут рассматриваться в качестве кандидатов для включения в высокоточные, быстродействующие и малозатратные КРП.

Глава 4 посвящена организации экспериментов и исследованию разработанных методов классификации и коллективов решающих правил на различных выборках библиографических текстовых документов, сопоставлению характеристик новых методов с характеристиками известных процедур. Особое внимание в главе уделяется оценке точности, разнородности, быстродействия, ресурсозатратности методов классификации, выработке рекомендаций по настройке их параметров, выбору решающих правил для их объединения в КРП согласно приведенной выше процедуре синтеза комитетов на основе простых классификаторов.

Логика изложения, многоаспектность проведенных исследований потребовали разделения результатов на две большие достаточно самостоятельные группы.

В первой группе приводятся результаты формирования выборок для проведения исследований; сравнительного анализа процедур выбора информативных признаков и мер близости; организации процесса обучения и тестирования решающих правил; разработки новых малозатратных методов классификации, обеспечивающих высокую точность и быстродействие; настройки их параметров; исследования временных и точностных характеристик, сопоставления с уже известными процедурами; выявления зависимости точности и быстродействия методов классификации от структуры выборки текстовых документов.

Вторая группа состоит из результатов, непосредственно связанных с синтезом высокоточных, быстродействующих и малозатратных КРП. В ней содержатся итоги исследований по отбору простых классификаторов для их включения в комитет; расчету мер разнородности для кандидатов в члены КРП; формированию КРП с заданными свойствами из числа отобранных простых классификаторов; сопоставлению точности и быстродействия коллективных и индивидуальных методов; выявлению зависимости точности и быстродействия КРП от количества членов комитета, размера и структуры выборки.

В данной работе использовались коллекции текстовых документов из библиографической базы данных (БД) Compendex (COMPuterized ENgineering inDEX), цифровой библиотеки (ЦБ) ResearchIndex и цифровой библиотеки ACM (Association for Computing Machinery — Ассоциация по вычислительной технике). Все вышеназванные ЦБ и БД имеют встроенный экспертно составленный рубрикатор, что позволяет избежать субъективизма и предвзятости при формировании обучающих и экзаменационных выборок.

Основные эксперименты проводились на девяти выборках одинаковой структуры (по три выборки из БД Compendex, ЦБ ResearchIndex, ЦБ ACM). Каждая обучающая выборка состояла из 700 библиографических документов, распределенных по семи классам, в классах содержалось одинаковое число текстов. Каждая экзаменационная выборка содержала по 140 документов (по двадцать документов в классе). Сформированные обучающие и экзаменационные выборки, использованные автором при проведении исследований, доступны на сайте кафедры Управления и информатики МЭИ (http://uii.mpei.ru).

При проведении предварительной обработки текстовых данных использовался словарь стоп-слов и осуществлялось выделение основ слов. Проведенные эксперименты позволили зафиксировать размер словаря равным 125 информативным терминам, выбрать евклидову метрику для определения близости между документами и tfcвзвешивание в качестве наиболее эффективного способа определения веса слова, а также рекомендовать метод обучающих-тестовых выборок, как наиболее подходящий для задач, решаемых в диссертации.

В результате проведенных исследований были определены следующие настройки параметров для методов, используемых в работе: для метода к-БС количество ближайших соседей к = 29; для ММБС: к=23, количество опорных точек равно количеству центроидов классов S=7; для ОМБС: к=23, S=7, коэффициент взвешивания =0,21; для метода 2 –профилей пороговое значение Т=50, для метода Q–профилей и метода MI– профилей Т=75 (r=3). Метод центроидов и наивный байесовский метод не имеют настраиваемых параметров.

После настройки параметров методов был проведен сравнительный анализ их ошибок и быстродействия. Быстродействие оценивалось путем расчета процессорного времени выполнения операций (CPU-time). CPU-time измеряется в милисекундах и является специфической характеристикой конкретного компьютера, используемого для проведения расчетов. В данной работе измерения проводились на процессоре Pentium (3.0 Ггц и 1Гб ОЗУ).

Метод \ Характеристики Средняя ошибка Среднее быстродействие (мсек) Полученные экспериментальные результаты хорошо согласуются с теоретическими оценками вычислительной сложности и подтверждают, что все методы, разработанные в работе для классификации текстовых документов обладают высоким быстродействием, которое в разы превосходит быстродействие метода к-БС (при этом быстродействие разработанных профильных методов выше быстродействия высокоскоростного метода центроидов). В то же время предложенные методы обладают достаточно высокой точностью, соизмеримой с точностью “классических” классификаторов (метода кБС и МЦ).

Таблица 2 содержит средние значения ошибок и быстродействия, рассчитанные по девяти выборкам. В работе также приводятся ошибки методов на каждой из выборок, оценивается устойчивость классификации и анализируется влияние структуры документальных массивов на результирующую точность.

Благодаря разработке новых методов, проведенной при выполнении данной работы, увеличилось число простых классификаторов, которые могут быть использованы для формирования комитета. Это позволило на практике синтезировать КРП, удовлетворяющие сформулированным в диссертации требованиям по точности, быстродействию и допустимым затратам на стадии обучения.

На основе вышеизложенной процедуры синтеза КРП на основе простых классификаторов было синтезировано два новых комитета классификаторов: КРП -1, состоящий из метода 2 -профилей, МЦ и ОМБС; КРП -2, состоящий из метода 2 -профилей, МЦ, метода MI–профилей, ММБС, ОМБС.

Сравнительный анализ характеристик синтезированных КРП и известных индивидуальных классификаторов также проводился на девяти выборках. В таблице 3 приведены полученные на выборках ошибки, рассчитана средняя ошибка ( ) и размах ( ).

В качестве базовых классификаторов для сопоставления использовались МЦ и метод кБС.

Выборка \ Ошибка Средняя ошибка Приведенные в таблице 3 результаты свидетельствуют о том, что синтезированные КРП обеспечивают более высокую точность и устойчивость к выборочным изменениям в сопоставлении с базовыми классификаторами. При этом сформированные комитеты обладают большим быстродействием, чем метод к-БС.

Необходимость многократных экспериментов для настройки параметров решающих правил ведет к тому, что тестовые выборки фактически становятся частью процесса обучения. Тем самым ослабляется их роль как независимого критерия точности классификации. В данной диссертации были использованы три дополнительные выборки из БД Compendex, на которых были подтверждены точностные и временные характеристики разработанных коллективных и индивидуальных методов.

Важным результатом экспериментальных исследований процедур анализа текстовых данных должен стать ответ на вопрос: насколько значимо улучшается точность классификации при использовании коллективов решающих правил по сравнению с индивидуальными методами. Для определения того, насколько существенно отличаются ошибки синтезированного комитета (КРП-1) и индивидуальных базовых классификаторов в работе применялся непараметрический критерий Вилкоксона (критерий знаковых рангов для связанных выборок). Согласно критерию имеются статистически значимые различия между ошибками, полученными при использовании КРП-1 и метода центроидов. Это позволяет сделать вывод о том, что снижение ошибки при коллективной классификации по сравнению с ошибками метода центроидов носит систематический неслучайный характер.

В главе 5 дается обоснование необходимости проведения разработки собственного программного обеспечения, приводится структура и функциональные возможности двух разработанных программных комплексов, предназначенных для обработки и анализа библиографических текстовых документов.

ПК “СКАТ” (“Система Классификации и Анализа Текста”) ориентирован, прежде всего, на автоматизированный мониторинг тематических ресурсов Интернет и проведение фильтрации-классификации получаемой информации в соответствии с профессиональными потребностями пользователя. Кроме того, он предоставляет возможность построения моделей предметных областей, проведения наукометрического анализа и выявления из документального потока фрагментов значимой для специалистапредметника информации.

УИПК (“Учебно-исследовательский программный комплекс”) позволяет решать две взаимосвязанные проблемы. Во-первых, УИПК является важной составляющей учебного процесса на кафедре Управления и информатики МЭИ и на его основе реализован лабораторный практикум по курсу «Интеллектуальные информационные системы». Во-вторых, он позволяет студентам (магистрам, аспирантам, инженерам, преподавателям кафедры) осуществлять самостоятельные полномасштабные исследования процедур обработки и анализа библиографических текстовых документов в рамках курсового проектирования, квалификационных и научно-исследовательских работ, а также проводить разработку дополнительных модулей, расширяющих функциональные возможности УИПК. Алгоритмическую основу УИПК составляют разработанные автором методы классификации и синтезируемые из них КРП.

Основное внимание в главе 5 уделяется организации автоматизированного мониторинга научно-технических информационных ресурсов. Для выбора наиболее авторитетных в области специализации пользователя научных изданий в работе предлагается процедура выявления тематических журналов по заданным предметным областям. При этом основная задача данной процедуры заключается в увеличении точности поиска релевантной информации и обеспечении пользователя наиболее ценными публикациями.

В ходе разработки процедуры обосновывается использование импакт-факторов журналов для выявления наиболее рейтинговых и авторитетных изданий; определяется необходимое значение импакт-фактора для изданий, специализирующихся в области Информатики; формализуются действия пользователя по окончательному выбору количества и номенклатуры отслеживаемых изданий; рассматриваются способы уточнения сформированного списка журналов в ходе практической эксплуатации.

Разработанная процедура была использована для автоматизации системы информационного обеспечения научно-технической деятельности в ряде организаций: Республиканском исследовательском научно-консультационном центре экспертизы (РИНКЦЭ), кафедре Микросистемной техники МИРЭА, кафедре Управления и информатики МЭИ. Мониторинг тематических изданий и фильтрация-классификация публикаций были проведены с помощью ПК “СКАТ”. На основе анализа результатов эксплуатации и экспертных оценок специалистов, представляющих организации-заказчики, был сделан вывод об эффективности практического использования разработанных в работе индивидуальных и коллективных методов для обработки и анализа массивов научных библиографических документов.

Разработанные в диссертации инструментальные средства были использованы для обработки и анализа базы данных научных публикаций Института проблем химической физики РАН (ИПХФ РАН, г.Черноголовка). Анализ включал проведение следующих исследований: выделение из массива научных публикаций наиболее активных ученых и формирующихся вокруг них групп соавторов; установление связи между продуктивностью и соавторством; определение основных тематик исследований (профилей научных групп); отслеживание изменения тематик работ с течением времени. Результаты проведенных исследований, предоставленные для экспертного анализа, получили высокую оценку специалистов ИПХФ РАН, а выявленные закономерности нашли практическое применение при организации процесса планирования и управления НИОКР.

В ходе выполнения диссертации на базе разработанного алгоритмического, программного и методического обеспечения был построен терминологический портрет журнала «Информационные технологии», определена область специализации журнала и выявлены наиболее близкие тематические издания. В работе показано, что для решения задач данного класса целесообразно использовать профильные методы, разработанные в диссертации.

В пятой главе также приводятся результаты использования УИПК в учебных и исследовательских целях, указывается, что разработанный программный комплекс существенно отличается от имеющихся программных средств в рассматриваемой предметной области, реализуя, наряду с классическими методами, оригинальные эффективные процедуры индивидуальной и коллективной классификации, предложенные и апробированные в ходе выполнения данной работы.

В заключении подведены итоги проведенных исследований и кратко изложены основные выводы и результаты.

1. Показано принципиальное отличие задачи обработки и анализа текстовых данных от обработки и анализа фактографических наблюдений или распознавания образов.

Предложен целевой критерий синтеза системы обработки библиографической текстовой информации, учитывающий требования к точности, быстродействию и ресурсозатратам. На основе предложенного целевого критерия методом системного анализа построена модель, имеющая модульную структуру, что позволяет оценить влияние различных стадий обработки данных на значение целевого критерия.

2. С единых позиций проанализированы алгоритмы предварительной обработки и классификации библиографических текстовых данных, проведена их систематизация.

Построена классификационная матрица, которая позволяет осуществлять обоснованный выбор процедур выявления информативных признаков и методов классификации, исходя из требований к точности, быстродействию и ресурсозатратам.

3. Для организации экспериментальных исследований предложена методика формирования выборок, состоящих из библиографических текстовых документов. Обосновано использование метода обучающих-тестовых выборок для обучения и тестирования при проведении экспериментов.

4. Показано, что использование индивидуальных классификаторов не всегда способно обеспечить малую ошибку группировки текстовых документов, их оценки не являются устойчивыми, сильно изменяясь от выборки к выборке. Это связано с нарушением на практике ряда стандартных допущений (о независимости признаков, компактности выборки, сферичности (линейной разделимости) классов и т.п.), необходимых для эффективного функционирования конкретного решающего правила.

Для достижения более высокой точности в специализированной литературе предложено использовать дополнительные процедуры, приводящие чаще всего к синтезу коллективных решений. Однако существующие способы построения КРП не позволяют в полной мере формировать комитеты с заданными свойствами по точности, быстродействию, ресурсозатратности, уделяя завышенное внимание вопросам снижения ошибки классификации.

5. В работе с позиций предложенного ЦК рассмотрены имеющиеся комитеты классификаторов, проведен сравнительный анализ стратегий принятия решений в КРП.

Показано, что комитеты на основе простого голосования способны улучшить точность классификации по сравнению с точностью индивидуальных классификаторов. Методом имитационного моделирования исследована взаимосвязь между точностью методов и их разнородностью. Результаты моделирования наряду с проведенными экспериментальными исследованиями позволили выявить информативные диапазоны изменения данных характеристик.

6. В целях синтеза высокоточных, быстродействующих, малозатратных комитетов в работе уточняется понятие простого классификатора и вводятся требования, которым должны удовлетворять такие классификаторы. Предложена процедура синтеза КРП с заданными свойствами на основе простых классификаторов. Проведенный теоретический анализ вычислительной сложности алгоритмов классификации позволил выделить среди известных методов те, которые соответствуют требованиям к простым классификаторам.

7. Исходя из требований, которым должны удовлетворять простые классификаторы разработан и исследован ряд новых методов классификации: модифицированный метод ближайшего соседа, обобщенный метод ближайшего соседа, метод MI-профилей, а также для проведения группировки библиографических текстовых документов адаптированы метод 2 -профилей и метод Q -профилей. Показаны принципиальные отличия разработанных процедур от уже известных. Даны рекомендации по выбору значений внутренних параметров в предложенных алгоритмах.

Разработанные в диссертации методы предназначены как для самостоятельного применения при классификации библиографических текстовых документов, так и для использования в качестве простых классификаторов при формировании высокоточных, быстродействующих и малозатратных КРП.

8. Получены оценки количества вычислительных операций, необходимых для классификации текстовых документов с помощью разработанных методов (ММБС и ОМБС) и показано, что они требуют меньшего количества вычислительных операций по сравнению с прототипом (методом к-ближайших соседей). Также показано, что быстродействие метода MI–профилей, метода 2 –профилей и метода Q –профилей значительно выше, чем у известных эвристических процедур (в частности метода центроидов и метода к-ближайших соседей).

9. На основе предложенной автором процедуры синтезированы и исследованы высокоточные, быстродействующие и малозатратные КРП, сформированные из простых классификаторов и состоящие из трех и пяти членов. Обосновано включение в комитеты методов, ряд из которых разработан лично автором. Впервые получены КРП-1, состоящий из метода 2 -профилей, метода центроидов, обобщенного метода ближайшего сои КРП-2, включающий метод 2 -профилей, метод центроидов, метод MI– седа, профилей, модифицированный метод ближайшего соседа и обобщенный метод ближайшего соседа. На выборках из библиографических текстовых документов показано, что синтезированные КРП обеспечивают более высокую точность и устойчивость по сравнению с методом к-БС и методом центроидов, а также обладают более высоким быстродействием в сопоставлении с методом к-БС.

Илон Маск рекомендует:  Атрибут rules в HTML

10. Разработанные методы и ряд известных классификаторов реализованы в программных комплексах, созданных в ходе выполнения диссертационной работы. Опыт эксплуатации этих программных средств подтверждает эффективность полученных теоретических и научно-методических результатов. Практическое использование разработанных ПК позволяет решать важные прикладные задачи по отслеживанию научных публикаций в заданных предметных областях, выявлению содержательных фрагментов из неструктурированной информации и построению моделей (профилей) предметных областей, сопровождению учебного процесса. Разработанное программное обеспечение может быть адаптировано к различным предметным областям и требованиям пользователей, при необходимости оно может дополняться новыми модулями.


11. В рамках созданной в работе автоматизированной системы информационного обеспечения научно-технической деятельности предложена комплексная процедура выявления групп тематических журналов в информационных ресурсах Интернет. Использование данной процедуры позволило решить задачу своевременного обеспечения тематическими публикациями ряда научно-исследовательских и образовательных организаций, повысив эффективность научной деятельности заказчиков.

12. Разработан, апробирован и внедрен в учебный процесс учебноисследовательский программный комплекс, предназначенный для подготовки специалистов в области обработки и анализа текстовых данных. Продемонстрированы возможности УИПК по проведению комплексных исследований методов обработки и анализа текстовой информации. Алгоритмическую основу УИПК составляют разработанные автором методы классификации и синтезируемые из них КРП.

1. Толчеев В.О. Разработка и исследование новых модификаций метода ближайшего соседа. Приложение к журналу «Информационные технологии», №3, 2005, с. 1-32.

2. Толчеев В.О. Современные методы обработки и анализа текстовой информации.

Учебное пособие. М.: Изд-во МЭИ, 2006 – 75с.

3. Толчеев В.О. Синтез коллективов решающих правил для проведения классификации текстовых документов. Информационные технологии, №10, 2007, с. –32Толчеев В.О. Комплексный подход к классификации текстовых документов. Автоматизация и современные технологии, №8, 2005, с. 39-45.

5. Толчеев В.О. Анализ точностных характеристик модифицированного метода ближайшего соседа. Информационные технологии, №4, 2006, с. 52-58.

6. Толчеев В.О. Модели и методы классификации текстовой информации. Информационные технологии, №5, 2004, с. 6-14.

7. Толчеев В.О. Методы выявления информативных признаков в задаче классификации текстовых документов. Информационные технологии, №8, 2005, с. 14-21.

8. Толчеев В.О. Взвешенные и редуцированные методы ближайшего соседа. Вестник МЭИ, №5, 2005, с. 84-90.

9. Толчеев В.О. Обзор методов классификации текстовых документов. Автоматизация и современные технологии, №10, 2005, с. 28-33.

10. Некрасов И.В., Толчеев В.О. Модифицированный метод ближайшего соседа с использованием опорных точек для классификации текстовых документов.

Вестник МЭИ, №1, 2004, стр. 76-81.

11. Мальцев П.П., Стяжкин В.Б., Толчеев В.О. Об опыте использования методики выявления тематических журналов. Информационные технологии, №7, 2007, с.

12. Некрасов И.В., Толчеев В.О. Построение модели представления библиографического документа. Информационные технологии, №11, 2005, с. 57-63.

13. Некрасов И.В., Толчеев В.О. Современные средства поиска, обработки и анализа текстовой информации. Вестник МЭИ, №1, 2002, стр. 52-55.

14. Толчеев В.О. Функциональные возможности и области применения интеллектуальных агентов и многоагентных систем. Микросистемная техника, №4, 2002, с. 10-15.

15. Толчеев В.О. О новых подходах к разработке сложных интеллектуальных систем. Микросистемная техника, №2, 2002, с. 24-28.

16. Колосов О.С., Анисимов Д.Н., Толчеев В.О., Ягодкина Т.В., Гришин В.И., Спиридонов Д.К. Итоги работ в области идентификации на кафедре управления и информатики МЭИ. Приборы и системы, №8, 2001, с. 22-29.

17. Толчеев В.О. Методика синтеза коллективов решающих правил на основе “простых” классификаторов. Международная конференция Информационные средства и технологии. Том 2. МЭИ. Изд-во «Станкин», 2006, стр. 150-154.

18. Толчеев В.О. Формирование быстродействующих коллективов решающих правил.

Международная конференция “Современные технологии в задачах управления, автоматики и обработки информации”. Алушта. Изд-во МИФИ, 2006, с. 338.

19. Толчеев В.О. Расчет верхней точностной границы для коллективов решающих правил, использующих простое голосование. Международная конференция “Современные технологии в задачах управления, автоматики и обработки информации”. Алушта. Изд-во Тульского государственного университета, 2007, с. 282-283.

20. Толчеев В.О. Исследование зависимости между точностью и разнородностью в коллективах решающих правил с помощью имитационного моделирования. Международная конференция “Информационные средства и технологии” том 2. МЭИ. Издво «Станкин», 2007, с. 91-93.

21. Толчеев В.О. Обобщенный метод ближайшего соседа. Международная конференция “Информационные средства и технологии” том 2. МЭИ. Изд-во «Станкин», 2005, стр. 183-185.

22. Кокорев П.В., Толчеев В.О. Улучшенный критерий взаимной информации для классификации текстовых документов. Международная конференция “Современные технологии в задачах управления, автоматики и обработки информации”. Алушта.

Изд-во СГАУ, 2005, с. 293.

23. Кокорев П.В., Толчеев В.О. Разработка метода 2 -профилей для классификации текстовых документов. Международная конференция “Современные технологии в задачах управления, автоматики и обработки информации”. Алушта. Изд-во МИФИ, 2006, с. 309.

24. Толчеев В.О. Профильные методы классификации библиографических документов.

Международная конференция “Современные технологии в задачах управления, автоматики и обработки информации”. Алушта. Изд-во СПб. ГУАП, 2008, с.264-265.

25. Толчеев В.О. Методика выявления периодических изданий, наиболее значимых для специалистов. Международная конференция “Информационные средства и технологии” том 1. МЭИ. Изд-во «Станкин», 1999, с. 187-190.

26. Толчеев В.О. О проведении классификации текстовых документов по их заголовкам.

Международная конференция “Современные технологии в задачах управления, автоматики и обработки информации”. Алушта. Изд-во МГАПИ, 2002, с. 88-89.

27. Бородкин А.А., Толчеев В.О. Исследование влияния структуры выборки и процедур предварительной обработки на точность классификации текстовой информации.

Международная конференция “Информационные средства и технологии”. Том 2.

МЭИ. Изд-во Станкин, 2007, с. 33-34.

28. Бородкин А.А., Толчеев В.О. Об оценке точностных и временных характеристик методов классификации библиографических текстовых документов. Научная сессия МИФИ 2008. Том 11. М. МИФИ, 2008, стр. 152-153.

29. Некрасов И.В., Толчеев В.О. Разработка программного комплекса для классификации текстовых документов. Международная конференция “Информационные средства и технологии” том 2. МЭИ. Изд-во «Станкин», 2002, с. 160-163.

30. Бородкин А.А., Толчеев В.О. Структура и функциональные возможности учебноисследовательского программного комплекса. Международная конференция “Информационные средства и технологии” том 3. МЭИ. Изд-во «Станкин», 2008, с.85Кульга Д.В., Толчеев В.О., Филимонов Н.Б. Построение и анализ терминологического портрета журнала «Информационные технологии». Международная конференция “Информационные средства и технологии” том 3. МЭИ. Изд-во «Станкин», 2008, с. 104-105.

32. Некрасов И.В., Толчеев В.О. Экспериментальные исследования методов классификации текстовых документов. Научная сессия МИФИ 2005. М. МИФИ, 2005, стр. 152-153.

33. Зенкина Ю.И., Толчеев В.О. Разработка программного комплекса для отбора тематических изданий и публикаций в области информатики. Алушта. Изд-во Тульского государственного университета, 2007, с. 256-257.

34. Некрасов И.В., Толчеев В.О. Информационно-поисковая система для обработки научно-технической информации. Международная конференция “Информационные средства и технологии” том 1. МЭИ. Изд-во «Станкин», 2001, с. 114-117.

«ШАБАЛИНА Ольга Аркадьевна УПРАВЛЕНИЕ СИСТЕМОЙ ПОДГОТОВКИ РАЗРАБОТЧИКОВ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ С ИСПОЛЬЗОВАНИЕМ ОБУЧАЮЩИХ КОМПЬЮТЕРНЫХ ИГР Специальность: 05.13.10 – Управление в социальных и экономических системах АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора технических наук Астрахань – 2014 Работа выполнена на кафедре Системы автоматизированного проектирования и поискового конструирования (САПР и ПК) Федерального государственного бюджетного образовательного. »

«Грушина Ольга Андреевна ДИСКРЕТНО-АНАЛИТИЧЕСКАЯ МОДЕЛЬ ГРУППИРОВАНИЯ ЭЛЕКТРОННОГО ПУЧКА Специальность 05.13.18 – математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Автор МОСКВА — 2013 Работа выполнена в Федеральном государственном автономном образовательном учреждении высшего профессионального образования Национальный исследовательский ядерный университет МИФИ доктор. »

«НИКИТИН Алексей Борисович РАСПРЕДЕЛЕННАЯ ОБРАБОТКА И ГЕНЕРАЛИЗАЦИЯ ПРОСТРАНСТВЕННОЙ ИНФОРМАЦИИ ПО ВОДНЫМ РЕСУРСАМ НА ОСНОВЕ МНОГОМЕРНЫХ МОДЕЛЕЙ ДАННЫХ Специальность 05.13.01 Системный анализ, управление и обработка информации АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Уфа 2007 Работа выполнена на кафедре геоинформационных систем Уфимского государственного авиационного технического университета Научный руководитель д-р техн. наук, проф. »

«УДК 519.718+519.87 Алдын-оол Татьяна Андреевна АНАЛИЗ ВЕРОЯТНОСТНЫХ ХАРАКТЕРИСТИК НЕКОТОРЫХ СИСТЕМ СЕТЕВОЙ СТРУКТУРЫ 05.13.18 – Математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Новосибирск – 2011 Работа выполнена в Государственном образовательном учреждении высшего профессионального образования “Новосибирский государственный университет”. Научный руководитель : доктор. »

«Черкасова Валентина Андреевна Компьютерное моделирование концентрационных фазовых переходов в системах анизотропных частиц при наличии упорядочивающих факторов 05.13.18 Математическое моделирование, численные методы и комплексы программ Автореферат диссертации на соискание ученой степени кандидата физико-математических наук Астрахань 2010 Работа выполнена в Астраханском государственном университете. Научный руководитель : доктор физико-математических наук, профессор Тарасевич. »

«Солодянникова Юлия Владимировна МОДЕЛИРОВАНИЕ, ИДЕНТИФИКАЦИЯ И УПРАВЛЕНИЕ ПО СИСТЕМНЫМ КРИТЕРИЯМ КАЧЕСТВА ИОНООБМЕННЫМИ ПРОЦЕССАМИ ВОДОПОДГОТОВКИ Специальность: 05.13.01 — Системный анализ, управление и обработка информации (промышленность) Автореферат диссертация на соискание ученой степени кандидата технических наук Самара 2013 Работа выполнена на кафедре Управление и системный анализ в теплоэнергетике федерального государственного бюджетного образовательного учреждения. »

«Никольский Илья Михайлович РЕШЕНИЯ НЕЛИНЕЙНЫХ ПАРАБОЛИЧЕСКИХ УРАВНЕНИЙ, РАЗВИВАЮЩИЕСЯ В РЕЖИМЕ С ОБОСТРЕНИЕМ. 05.13.18 – Математические моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук. Москва- Работа выполнена в лаборатории математического. »

«Пшенокова Инна Ауесовна МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ И ВИЗУАЛИЗАЦИЯ ПРОЦЕССА ДЕФОРМИРОВАНИЯ ТВЕРДЫХ ТЕЛ МЕТОДОМ ДИНАМИЧЕСКИХ ЧАСТИЦ Специальность 05.13.18 – Математическое моделирование, численные методы и комплексы программ Автореферат диссертации на соискание ученой степени кандидата физико-математических наук Нальчик – 2011 2 Работа выполнена в Учреждении Российской академии наук Институте информатики и проблем регионального управления Кабардино-Балкарского научного центра. »

«БЕСХЛЕБНОВА Галина Александровна МОДЕЛИРОВАНИЕ ПРОЦЕССОВ КОРРОЗИОННЫХ ПОВРЕЖДЕНИЙ МАГИСТРАЛЬНЫХ ТРУБОПРОВОДОВ ДЛЯ ОЦЕНКИ ТЕХНИЧЕСКОГО И ТЕХНОГЕННОГО РИСКОВ Специальность 05.13.18 Математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Уфа 2007 2 Работа выполнена на региональной кафедре математики и информатики Всероссийского заочного финансово-экономического института (филиал в г. »

«Некрасова Руслана Сергеевна Регенеративное оценивание и его применение к системам с конечным буфером 05.13.18 – Математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Петрозаводск – 2012 2 Работа выполнена в Федеральном государственном бюджетном учреждении науки Институте прикладных математических исследований Карельского научного центра Российской академии наук Научный. »

«УДК 519.177:519.173:519.816 Чеботарев Павел Юрьевич МЕТОДЫ ЛАПЛАСОВСКОЙ ТЕОРИИ ОРГРАФОВ В СТРУКТУРНОМ АНАЛИЗЕ СИСТЕМ Специальность: 05.13.01 Системный анализ, управление и обработка информации (в отраслях информатики, вычислительной техники и автоматизации) АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора физико-математических наук Москва 2008 Работа выполнена в Учреждении. »

«Чубич Владимир Михайлович АКТИВНАЯ ПАРАМЕТРИЧЕСКАЯ ИДЕНТИФИКАЦИЯ СТОХАСТИЧЕСКИХ ДИНАМИЧЕСКИХ СИСТЕМ НА ОСНОВЕ ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТА Специальность 05.13.17 – Теоретические основы информатики АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора технических наук Новосибирск — 2013 Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Новосибирский государственный технический университет Научный. »

«Перегуда Евгений Станиславович АЛГОРИТМЫ СОКРАЩЕНИЯ ВЫЧИСЛИТЕЛЬНОЙ СЛОЖНОСТИ ФРАКТАЛЬНОГО АНАЛИЗА В СИСТЕМАХ ОБРАБОТКИ ВИЗУАЛЬНЫХ ДАННЫХ 05.13.01 Системный анализ, управление и обработка информации Автореферат диссертации на соискание ученой степени кандидата технических наук Хабаровск 2008 Работа выполнена в Тихоокеанском государственном университете Научный руководитель : доктор технических наук, доцент Сай Сергей Владимирович Официальные оппоненты : доктор технических. »

«Копит Татьяна Александровна ОБРАТНАЯ ЗАДАЧА ИНТЕРПРЕТАЦИИ ДАННЫХ ПО РЕЗУЛЬТАТАМ ТЕСТОВЫХ ЭКСПЕРИМЕНТОВ 05.13.18 — Математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва 2012 Работа выполнена на кафедре компьютерных методов физики физического факультета Московского государственного университета имени М.В.Ломоносова. Научный руководитель доктор физико-математических. »

«Бакаев Максим Александрович РАЗРАБОТКА ИНТЕЛЛЕКТУАЛЬНОЙ СИСТЕМЫ ДЛЯ ПОДДЕРЖКИ ПРОЕКТИРОВАНИЯ ЧЕЛОВЕКО-КОМПЬЮТЕРНОГО ВЗАИМОДЕЙСТВИЯ В ВЕБ-ПРИЛОЖЕНИЯХ Специальность 05.13.11 – Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Новосибирск-2012 2 Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального. »


«Беззубов Владимир Федорович МЕТОДЫ И СРЕДСТВА ОБЕСПЕЧЕНИЯ ФУНКЦИОНАЛЬНО ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ РЕЗЕРВИРОВАННЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ НА ОСНОВЕ МЕЖМАШИННОГО ПРЯМОГО ДОСТУПА Специальность 05.13.19 Методы и системы защиты информации, информационная безопасность АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Санкт-Петербург 2013 г. Работа выполнена на кафедре Вычислительной техники в Санкт-Петербургском национальном исследовательском. »

«Каширин Виктор Валерьевич ЭВРИСТИЧЕСКИЕ АЛГОРИТМЫ МОДЕЛИРОВАНИЯ И ОПТИМИЗАЦИИ СТРУКТУРЫ НЕОДНОРОДНЫХ КОМПЛЕКСНЫХ СЕТЕЙ Специальность: 05.13.18 — Математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Санкт-Петербург 2013 2 Работа выполнена на кафедре информационных систем и в НИИ Наукоемких компьютерных технологий Санкт-Петербургского национального исследовательского университета. »

«Зеленков Юрий Александрович МЕТОДОЛОГИЯ СТРАТЕГИЧЕСКОГО УПРАВЛЕНИЯ РАЗВИТИЕМ КОРПОРАТИВНОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ КРУПНОГО ПРОМЫШЛЕННОГО ПРЕДПРИЯТИЯ В СОВРЕМЕННЫХ УСЛОВИЯХ Специальность 05.13.10 –Управление в социальных и экономических системах Автореферат диссертации на соискание ученой степени доктора технических наук Челябинск- 2013 Диссертационная работа выполнена на кафедре информационно-аналитического обеспечения управления в социальных и экономических системах ФГБОУ. »

«Порецков Олег Александрович Алгоритмы и методы вычисления первого регуляризованного следа оператора Лапласа-Бельтрами с негладким потенциалом на единичной двумерной сфере 05.13.18. — математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Челябинск-2003 Работа выполнена на кафедре математического анализа Магнитогорского государственного университета. Научные руководители. »

«Былов Игорь Александрович РАЗРАБОТКА МОДЕЛЕЙ И ПРОГРАММНЫХ КОМПЛЕКСОВ ДЛЯ ИССЛЕДОВАНИЯ НАДЕЖНОСТИ И БЕЗОПАСНОСТИ ЯДЕРНЫХ УСТАНОВОК ВЕРОЯТНОСТНЫМИ МЕТОДАМИ Специальность 05.13.01 — Системный анализ, управление и обработка информации (по техническим наук ам) Автореферат диссертации на соискание ученой степени кандидата технических наук Нижний Новгород, 2011 Работа выполнена в ОАО Опытное конструкторское бюро машиностроения им. И.И.Африкантова Научный руководитель доктор. »

© 2013 www.diss.seluk.ru — «Бесплатная электронная библиотека — Авторефераты, Диссертации, Монографии, Методички, учебные программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.

Сотник С.Л. Основы проектирования систем искусственного интеллекта — файл gl1-4.doc

Доступные файлы (3):

gl1-4.doc 892kb. 03.09.1998 05:25 скачать
n2.doc 225kb. 24.02.1999 20:38 скачать
n3.doc 317kb. 07.07.1999 16:26 скачать

gl1-4.doc

Метод предельных упрощений (МПУ)

По тому, как организован процесс обучения распознающих систем, четко выделяются два подхода к проблеме ОРО. Первый основан на построении сложных разделяющих поверхностей в случайно выбранных пространствах, а во втором — центр тяжести проблемы переносится на достижение понимания принципов формирования такого описания объектов, в рамках которого сам процесс распознавания чрезвычайно прост. Обучение в этом случае рассматривается как некий процесс конструирования пространств для решения конкретных задач.

В МПУ предполагается, что разделяющая функция задается заранее в виде линейного (самого простого) полинома, а процесс обучения состоит в конструировании такого пространства минимальной размерности, в котором заранее заданная наиболее простая разделяющая функция безошибочно разделяет обучающую последовательность. МПР назван так потому, что в нем строится самое простое решающее правило в пространстве небольшой размерности, т. е. в простом пространстве.

Пусть на некотором множестве объектов V заданы два подмножества V * 1 и V * 2, определяющих собой образы на обучающей последовательности V. Рассмотрим i-е свойство объектов, такое, что некоторые объекты обучающей последовательности этим свойством обладают, а другие — нет. Пусть заданным свойством обладают объекты, образующие подмножество V1i, а объекты подмножества V2i этим свойством не обладают (V1i  V2i = V). Тогда i-е свойство называют признаком первого типа относительно образа V * 1, если выполняются соотношения

и признаком второго типа, если выполняются

Если же выполняются соотношения

то i-е свойство считается признаком первого типа относительно образа V * 2, а если выполняются

то это же свойство объявляется признаком второго типа относительно образа V * 2. Если свойство не обладает ни одной из приведенных особенностей, то оно вообще не относится к признакам и не участвует в формировании пространства.

Одинаковые признаки — это два признака xi и xj, порождающие подмножества V1j, V2j, V1i, V2i, такие, что

Доказано утверждение, смысл которого заключается в том, что если пространство конструировать из однотипных, но неодинаковых признаков, то в конце концов будет построено такое пространство, в котором обучающая последовательность будет безошибочно разделена на два образа линейным, т. е. самым простым, решающим правилом.

Метод предельных упрощений состоит в том, что в процессе обучения последовательно проверяются всевозможные свойства объектов и из них выбираются только такие, которые обладают хотя бы одной из особенностей, определяемых соотношениями (ф. 18), (ф. 21). Такой отбор однотипных, но неодинаковых признаков продолжается до тех пор, пока при некотором значении размерности пространства не наступит безошибочное линейное разделение образов на обучающей последовательности. В зависимости от того, из признаков какого типа строится пространство, в качестве разделяющей плоскости выбирается плоскость, описываемая уравнением

Каждый объект относится к одному из образов в зависимости от того, по какую сторону относительно плоскости находится соответствующий этому объекту вектор в пространстве признаков размерности n.

Коллективы решающих правил

Давно известны приемы повышения качества принимаемых реше­ний, состоящие в объединении специалистов той или иной области знаний в коллектив, вырабатывающий совместное решение. Идею коллективного решения можно применить и к «коллективу» фор­мальных алгоритмов, что позволит повысить эффективность ре­шения многих задач.

Для рационального использования особенностей различных алгоритмов при решении задач распознавания возможно объединить различные по характеру алгоритмы распозна­вания в коллективы, формирующие классификационное решение на основе правил, принятых в теории коллективных решений. Пусть в некоторой ситуации Х принимается решение S. Тогда S=R(X), где R—алгоритм принятия решения в ситуации X. Предположим, что существует L различных алгоритмов решения задачи, т. е. Sl=Rl(X), l=1, 2, . , L, где Sl—решение, получен­ное алгоритмом Rl. Будем называть множество алгоритмов =1, R2, . Ri.> коллективом алгоритмов решения задачи (кол­лективом решающих правил), если на множестве решений Sl в любой ситуации Х определено решающее правило F, т. е. S=F(S1, S2, . SL, X). Алгоритмы Rl принято называть членами коллектива, Sl — решением l-го члена коллектива, а S — коллек­тивным решением. Функция F определяет способ обобщения ин­дивидуальных решений в решения коллектива S. Поэтому синтез функции F, или способ обобщения, является центральным момен­том в организации коллектива.

Принятие коллективного решения может быть использовано при решении различных задач. Так, в задаче управления под си­туацией понимается ситуация среды и целей управления, а под решением — самоуправление, приводящее объект в целевое состоя­ние. В задачах прогноза Х — исходное, а S — прогнозируемое состояние. В задачах распознавания ситуацией Х является опи­сание объекта X, т. е. его изображение, а решением S — номер образа, к которому принадлежит наблюдаемое изображение. Индивидуальное и коллективное решения в задаче распозна­вания состоят в отнесении некоторого изображения к одному из образов. Наиболее интересными коллективами распознающих ал­горитмов являются такие, в которых существует зависимость веса каждого решающего правила Rl от распознаваемого изображения. Например, вес решающего правила Rl может определяеться соотно­шением

где Bl — область компетентности решающего правила Rl. Веса решающих правил выбираются так, что

для всех возможных значений X. Соотношение (ф. 25) означает, что решение коллектива определяется решением того решающего правила Ri, области компетентности которого принадлежит изоб­ражение объекта X. Такой подход представляет собой двухуров­невую процедуру распознавания. На первом уровне определяется принадлежность изображения той или иной области компетент­ности, а уже на втором — вступает в силу решающее правило, компетентность которого максимальна в найденной области. Решение этого правила отождествляется с решением всего кол­лектива. Основным этапом в такой организации коллективного решения является обучение распознаванию областей компетентности. Прак­тически постановкой этой задачи различаются правила органи­зации решения коллектива. Области компетентности можно ис­кать, используя вероятностные свойства правил коллектива, можно применить гипотезу компактности и считать, что одина­ковым правилам должны соответствовать компактные области, которые можно выделить алгоритмами самообучения. В про­цессе обучения сначала выделяются компактные множества и соответствующие им области, а затем в каждой из этих областей восстанавливается свое решающее правило. Решение такого пра­вила, действующего в определенной области, объявляется дикта­торским, т. е. отождествляется с решением всего коллектива.

В перцептроне каждый A-элемент может интерпретироваться как член коллектива. В процессе обучения все A-элементы при­обретают веса, в соответствии с которыми эти A-элементы участ­вуют в коллективном решении. Особенность каждого A-элемента состоит в том, что он действует в некотором подпространстве ис­ходного пространства, характер которого определяется связями между S- и A-элементами. Решение, получаемое на выходе перцептрона, можно интерпретировать как средневзвешенное реше­ние коллектива, состоящего из всех A-элементов.

Руководство творческим коллективом: 9 правил управления креативщиками

В этой статье Вы узнаете

  • Особенности управления творческим коллективом
  • 3 больших ошибки в мотивации творческой личности
  • Условия, необходимые для эффективного руководства творческим коллективом

Творческие коллективы не ограничиваются лишь рекламными агентствами, они также представлены разными музыкальными группами, создателями фильмов и прочих произведений. Креативные сотрудники работают в разных сферах, они и считаются главными авторами, разработчиками идей.

Но результат деятельности принадлежит не только компании. Когда человек создает произведение, оно принадлежит компании лишь частично, оставаясь в полной собственности создателя. В этом и заключаются возможные риски при работе с творческим коллективом – когда удержать творческих людей в штате не удается, бизнес может столкнуться с серьезными последствиями в дальнейшем. Поэтому руководство творческим коллективом должно строиться на учете определенных нюансов и правил.

Для максимальной выгоды от творческого потенциала своей команды, рекомендуем учитывать тонкости деятельности креативных сотрудников, чтобы добиться гармонии рисков и пользы.

Особенности руководства творческим коллективом

Не нужно досконально контролировать творческого работника. На самом деле во время выполнения творческих заданий гораздо сложнее схалтурить, чем при рутинных поручениях. Поэтому злоупотреблять постоянным контролем и формальной отчетностью не стоит – в творческой работе важнее результат (также и соблюдение временных сроков). Основным контролером работы становится сам работник – его чувство удовлетворения результатом и личная ответственность. Не стоит бояться наделять ответственностью своих сотрудников, обеспечивая для них свободу действий, с соответствующей поддержкой и достаточным инструментарием.

Развивайтесь с коллективом. Креативные сотрудники работают над проектом и в команде, пока им будет интересно. Когда такие работники перерастают возможности компании и руководства, их сложно сохранить в коллективе даже серьезными вознаграждениями. Поэтому, если руководите творческим коллективом, всегда нужно оставаться выше своих сотрудников хотя бы на одну ступень.

Делегируйте руководство творческим коллективом такой же творческой личности. Творческим людям не свойственна готовность подчиняться, они не признают формальных авторитетов. Готовы всегда оспаривать и сомневаться в используемых методах, стратегиях и принятых решениях. Поэтому готовы работать под начальством только тех людей, которые смогли заслужить их доверие. Оптимальный вариант, когда в коллективе действует экспертная власть. Следовательно, гендиректор должен делегировать оперативное управление творческой персоне (признанному профессионалу в своей сфере), сохраняя при этом за собой функции контроля, оценки, решение административных вопросов. Довольно распространенной практикой в различных сферах является разделение функций управления между администратором (гендиректором) и творческим руководителем (например, главный редактор, художественный руководитель либо режиссер). Хотя некоторые компании придерживаются принципа концентрации всех рычагов управления в одних руках.

Говорит Генеральный Директор

Ирина Никифорова, Президент торгового дома «Зималетто», Москва

В московском офисе Zimaletto, что на Большой Академической, располагается дизайн-бюро, где под руководством арт-директора Юрия Новикова и президента торгового дома «Зималетто» Ирины Никифоровой ведется работа по созданию коллекций бренда, которые обновляются четыре раза в год (сезоны осень-зима и весна-лето).

Я решаю административные вопросы и оцениваю работу дизайнерского бюро, то есть совмещаю функции менеджера и руководителя творческим коллективом.

Понятия «творческая личность» и «творческая профессия» — разные вещи. Управлять творческим коллективом может только творческая личность, вместе с тем этот человек должен быть менеджером, иметь управленческое образование. Дело в том, что людям, получившим творческие специальности, бывает неудобно сделать замечание коллеге, указать на ошибку, поскольку они сами знают, как тяжело иногда дается создание чего-либо креативного. Менеджер же всегда скажет, что так делать нельзя, и при этом объяснит, почему именно нельзя. И, конечно, менеджер должен уметь творчески мыслить. Иначе будут штампы, которые не будут пользоваться устойчивым спросом, — бизнес окажется краткосрочным.

Олег Желтов, Генеральный Директор ЗАО «СВР-Медиа», Москва

Мы с главным редактором — единомышленники, поэтому безболезненно разделили функции: я руковожу дирекцией, а он — редакцией. Думаю, теоретически и он, и я могли бы совмещать функции администратора с функциями творческого руководителя. Однако в этом случае существует вероятность снижения эффективности работы. Каждый должен максимально сосредоточиться на тех вопросах, в которых лучше разбирается.

В начале 1990-х Генеральный Директор нередко был одновременно и главным редактором. Удавалось это единицам. Хорошие примеры — Владислав Старков из «АиФ», Владимир Сунгоркин из «Комсомольской правды». Однако большинство случаев совмещения функций заканчивались печально. Многие редакторы, создавая продукт, были уверены в его гениальности и не воспринимали критику, которая может идти только от менеджера.

Сегодня на Западе издательский бизнес организован по принципу develop media — центров управления большим количеством проектов. У каждого проекта есть издатель, координирующий работу и коммерческих структур, и редакции. Издатель отвечает за конечный результат перед акционерами. У нас другая схема, и пока есть все основания считать ее эффективной, поскольку нам удалось собрать миллионную аудиторию за десять месяцев.

9 условий для эффективного управления творческим коллективом

Время для размышлений. Следует учитывать простое правило. Можно заставить человека качественно поклеить обои, но заставить создать прекрасную симфонию не удастся. Для созидания необходимо время на работу мысли. Если человеку приходится всё время активно бегать и решать массу вопросов, он просто лишается достаточного времени для поиска творческих решений. Это вовсе не значит, что нужно постоянно предоставлять дополнительные выходные либо отпуск, просто дозируйте нагрузку должным образом, чтобы человек располагал временем для размышлений и общения с коллегами.

Отсутствие формальных заданий. Существует работа, с которой креативному человеку не под силу качественно справиться. В частности, не сможет идеально решать слишком простые задачи – банальные звонки, заполнение формуляра, сведение данных в таблицу, составление договора. Подобные задачи будут откладываться сотрудником до последнего, выполняться с отвращением. Если такие задачи будут часто повторяться, сотрудник предпочтет трудоустроиться в другом месте.

Заданные алгоритмы действий. Бизнес должен получать доход благодаря работе творческого коллектива. Чтобы результаты работы соответствовали вашим ожиданиям и требованиям клиентов, нужно придерживаться определенных стандартов работы. Если сначала внедрение таких стандартов и приведет к сопротивлению творческих натур, они со временем всё же привыкнут к новшеству, воспринимая изменения как повседневный распорядок. После резкого неприятия изменений творческие натуры затем вновь смогут вернуться к вдохновению и достижению новых результатов.

Дисциплина. Она считается обязательным условием для эффективной работы творческих коллективов. Конечно, творческим натурам свойственно нарушать заданные правила, но всё же они нуждаются в компании и будут придерживаться её требований. Они могут достичь эффективной работы, если в компании сформированы благоприятные для этого условия и ресурсы. Грамотная организация будет не мешать, а лишь способствовать вдохновению

Порядок. Гении, быть может, и не терпят дисциплину, но она необходима для творческих сотрудников – ради эффективной и организованной работы.

Соответствующие ресурсы, инструменты, материалы.

Свободное время. Вдохновение и отличные идеи не могут приходить по заказу. Поэтому следование графику еще не гарантирует креативный продукт. Возможно появление идеи в неформальной атмосфере. Сотрудничество с творческими натурами основано на принципе проектов либо заказов, оплата каждого из них производится отдельно. Например, сотрудникам компании Google предоставляются по часу в день и по дню в неделю «для собственных разработок». Такой формат предполагает, что 80% времени сотрудник проводит на своем рабочем месте, а оставшееся – на его усмотрение.


Атмосфера приятия, поощрения. Генри Форд выступал с поддержкой творческих инициатив работников – давая каждому, кто предложит новую идею, по доллару. При этом деньги давал даже в случае, если не планировал воплощать предложенную идею.

Отсутствие иерархических барьеров. Иерархия коллектива построена на предельно линейной структуре.

Говорит Генеральный Директор

Ирина Никифорова, Президент торгового дома «Зималетто», Москва

Творческому человеку ставить дедлайн1 бесполезно. У нас есть дизайнеры, очень талантливые люди, с которыми другие руководители отказывались работать именно по причине срыва сроков. Нам пока удается договориться благодаря соблюдению следующих простых условий:

Первое — творческому работнику нужно всегда объяснить, что он должен сделать задание быстро (к определенному сроку). У него должна возникнуть внутренняя потребность сделать работу красиво, креативно и быстро, то есть его нужно зажечь, вдохновить. Творческие сотрудники (дизайнеры) должны понимать вынужденность жестких мер, на которые идет Генеральный Директор. Например, фабрика может объявить, что на производство ткани под определенный артикул уйдет три месяца. Модель не попадает в сезон и поэтому не будет продаваться (пальто должно поступить на склад не позднее августа, а в торговый зал — в августе-сентябре, иначе есть риск не попасть в пик продаж перед началом сезона: начиная с ноября пальто не покупают). Снятие модели с производства в данной ситуации — объективная необходимость, которую должны понимать сотрудники, тогда они будут уважительно относиться к Вашим решениям.

Второе — творческому сотруднику нельзя давать слишком много времени на выполнение задания. Иначе он перегорит, переключится на другую идею, ему станет неинтересно.

Третье — творческому человеку очень сложно переделывать однажды сделанную работу. Поэтому надо оценивать не только конечный результат, но и поэтапно контролировать весь процесс работы. Например, я прохожу все стадии создания модели — от рисунка до образца из реальной ткани и затем производства — вместе с дизайнером.

Четвертое — руководитель творческого коллектива должен быть готов принимать людей такими, какие они есть. Никто не будет срывать сроки специально. Бывает, что есть идея и дизайнеру нужно время для ее реализации, и я даю ему такую возможность. Твердость нужно проявлять, когда дизайнер вмешивается в работу над моделью на поздних стадиях. От рисунка до готовой модели, запущенной в производство, проходит год. Творческие люди всегда хотят что-то улучшить. Однако небольшое исправление деталей модели отбрасывает работу всего коллектива на несколько этапов (месяцев) назад. Желание воплотить появившиеся слишком поздно идеи надо пресекать, иначе результата можно так и не дождаться.

Наконец, в бизнесе интереснее работать с дизайнерами талантливыми, но признания еще не получившими. Мотивация к работе у них изначально выше, так как им хочется добиться успеха с помощью нашего бренда.

Олег Желтов, Генеральный Директор ЗАО «СВР-Медиа», Москва

В творческом коллективе обязательно следует поддерживать дисциплину. Должны действовать регламенты, иначе все сроки будут срываться. Минимум требований предъявляется только к внештатным авторам. Их дисциплинирует желание получить свой гонорар. Коллектив лучше формировать не из творческих людей, а из менеджеров. В этом смысле менеджером является и редактор, который, выполняя свою работу, должен отсекать в тексте все лишнее и выстраивать его в рамках концепции СМИ даже в ущерб красоте изложения и художественному замыслу. А творческие сотрудники пусть работают по свободному графику и наслаждаются свободомыслием.

Дисциплина — не единственная проблема в работе с творческими людьми. Нередко у журналистского коллектива возникают трения с другими подразделениями компании (маркетингом, службой распространения и т. д.). Обычно это спор на уровне личных отношений. Журналисты говорят, что газета плохо продается, потому что менеджеры по распространению не могут наладить сбыт. А дистрибьюторы отвечают: «Какие материалы пишете, так они и продаются». Надо информировать сотрудников о работе друг друга. Пятнадцать лет в издательском бизнесе научили меня, что люди, которые занимаются чисто технологическими вопросами, должны видеть, насколько трудно делать газету, насколько сложен творческий процесс. Иногда полезно приглашать их на планерки, чтобы они поняли, как непросто придумать интересную тему. С другой стороны, я часто приглашаю журналистов посидеть в киоске. Если ты считаешь, что менеджер по распространению недостаточно эффективен, попробуй сам продать продукт, который считаешь шедевром. Ситуация, когда клиент у тебя на глазах выбирает газету конкурента, быстро отрезвляет. Чтобы разрешить такого рода конфликты, полезно заменить перепалки в кабинете работой на чужом участке. Это помогает обрести взаимопонимание, проникнуться уважением друг к другу. Мы стараемся, чтобы редакция и административные сотрудники даже сидели рядом, это принципиально важно для создания атмосферы сотрудничества.

Илон Маск рекомендует:  Урок 11. PHP - Массивы

Мотивация творческой личности

Благодаря достойному компенсационному пакету удается привлекать талантливых сотрудников. Однако для сохранения талантливого специалиста в коллективе таких мер будет недостаточно. Должна быть сформирована эффективная система нематериальной мотивации и управления творческим коллективом. Главным мотивом для творческих личностей становятся возможности самореализации. Данный мотив должен обязательно применяться. Сложность заключается в том, что нужен индивидуальный подход при создании условий самореализации для каждого сотрудника.

Талантливые люди важное значение отводят признанию со стороны окружающих. Руководитель должен поддерживать мотивацию и драйв сотрудников, с энтузиазмом ища новые инициативы и предложения. Однако здесь важно быть честным. Когда идея недостаточно проработана либо не подходит, следует так и говорить, приводя аргументы своего мнения. Достичь мотивации творческих личностей за счет отрицательных стимулов (угроза понижения, увольнения, выговор и пр.) не удастся.

Творческая личность без особого пиетета относится к внутренней иерархии компании. Формальная должность в компании для творческих натур значит меньше, чем прочие факторы – к примеру, размер оплаты. Они предпочитают подчеркивать свой статус другими способами – принадлежность к сообществам профессионалов и пр. Их статус в компании определяется ценностью для организации (размером зарплаты), особым положением в коллективе, уважением коллег и пр. Им необходимо иметь прямой доступ для общения с руководителем. Немногие из творческих личностей смогут стать эффективными менеджерами, далеко не всем им нравится заниматься административными рутинными задачами. Поэтому вряд ли повышение по должностной лестнице будет мотивировать сотрудника на достижение новых целей.

3 больших ошибки в мотивации творческих сотрудников

Ирина Никифорова, Президент торгового дома «Зималетто», Москва

В управлении творческим коллективом следует избегать ошибок, которые могут привести к демотивации работников.

Ошибка 1. Сложная иерархия. Небольшому творческому коллективу больше всего подходит линейная структура (например, у нас все дизайнеры подчиняются мне). Отсутствие главных и неглавных дизайнеров — залог того, что сотрудники не будут демотивированы взаимными оценками. Нельзя, чтобы оценку работы давали сами члены творческого коллектива. Оценивать работу должен менеджер — у нас это происходит коллективно на художественном совете (президент, коммерческий директор, арт-директор, дизайнеры).

Ошибка 2. Большое количество творческих людей. Над высококачественным продуктом, выдержанном в строгом стиле, не должен работать слишком большой коллектив разных дизайнеров. Например, нам для выпуска качественной коллекции (250 артикулов) в нужные сроки достаточно трех дизайнеров, которые подчиняются лично мне. Все должно проходить через одни руки: ткани, палитра, фактура. Если задействовать 12 дизайнеров, создать единую коллекцию будет уже сложно — каждый сделает по пять артикулов, и получится не коллекция, а набор моделей. Если в будущем возникнет необходимость расширять штат, то я буду увеличивать не количество дизайнеров одежды (людей, занимающих должности одного типа), а усиливать сопровождение — может появиться дизайнер по аксессуарам, например, и т. п. При этом структура останется линейной, а оценивать результат также будет художественный совет.

У компаний, где количество артикулов достигает полутора тысяч, а модели выпускаются огромными тиражами, структура, конечно, не может быть линейной. Но нужно учитывать, что работа дизайнеров там не творческая, а ремесленная, творит только главный дизайнер.

Ошибка 3. Нечеткие критерии оценки результатов. Никогда не следует говорить: «Нет, это плохо». Нужно объяснить, почему это так. Тогда сотрудник может исправить ошибку. Он будет уважать руководителя и в следующий раз придет за советом. Если непонятно, почему результат признан неудовлетворительным, возникают обида и нежелание творить.

Руководителю творческого коллектива нужны четкие критерии оценки, в основе которых — удобство потребителя. Дизайнер всегда хочет сделать что-то очень креативное и красивое, а для потребителя важно, чтобы вещь была удобной и простой в эксплуатации. Модные коллекции должны быть одновременно и коммерческими. Поэтому дизайнеру надо, с одной стороны, дать свободу, чтобы ему хотелось работать, а с другой — добиться от него понимания предпочтений потребителя. Творческим людям станет скучно, если их постоянно одергивать, напоминать, что так делать нельзя. Человеку надо дать возможность наиболее полно реализовать себя.

1Дедлайн (от англ. dead line) — предельный срок выполнения какого-либо задания.

Коллективы решающих правил

Давно известны приемы повышения качества принимаемых реше-ний, состоящие в объединении специалистов той или иной области знаний в коллектив, вырабатывающий совместное решение. Идею коллективного решения можно применить и к фор-мальных алгоритмов, что позволит повысить эффективность ре-шения многих задач.

Для рационального использования особенностей различных алгоритмов при решении задач распознавания возможно объединить различные по характеру алгоритмы распозна-вания в коллективы, формирующие классификационное решение на основе правил, принятых в теории коллективных решений. Пусть в некоторой ситуации Х принимается решение S. Тогда S=R(X), где R-алгоритм принятия решения в ситуации X. Предположим, что существует L различных алгоритмов решения задачи, т. е. Sl=Rl(X), l=1, 2, . , L, где Sl-решение, получен-ное алгоритмом Rl. Будем называть множество алгоритмов =1, R2, . Ri.> коллективом алгоритмов решения задачи (кол-лективом решающих правил), если на множестве решений Sl в любой ситуации Х определено решающее правило F, т. е. S=F(S1, S2, . SL, X). Алгоритмы Rl принято называть членами коллектива, Sl — решением l-го члена коллектива, а S — коллек-тивным решением. Функция F определяет способ обобщения ин-дивидуальных решений в решения коллектива S. Поэтому синтез функции F, или способ обобщения, является центральным момен-том в организации коллектива.

Принятие коллективного решения может быть использовано при решении различных задач. Так, в задаче управления под си-туацией понимается ситуация среды и целей управления, а под решением — самоуправление, приводящее объект в целевое состоя-ние. В задачах прогноза Х — исходное, а S — прогнозируемое состояние. В задачах распознавания ситуацией Х является опи-сание объекта X, т. е. его изображение, а решением S — номер образа, к которому принадлежит наблюдаемое изображение. Индивидуальное и коллективное решения в задаче распозна-вания состоят в отнесении некоторого изображения к одному из образов. Наиболее интересными коллективами распознающих ал-горитмов являются такие, в которых существует зависимость веса каждого решающего правила Rl от распознаваемого изображения. Например, вес решающего правила Rl может определяеться соотно-шением

где Bl — область компетентности решающего правила Rl. Веса решающих правил выбираются так, что

для всех возможных значений X. Соотношение (ф. 25) означает, что решение коллектива определяется решением того решающего правила Ri, области компетентности которого принадлежит изоб-ражение объекта X. Такой подход представляет собой двухуров-невую процедуру распознавания. На первом уровне определяется принадлежность изображения той или иной области компетент-ности, а уже на втором — вступает в силу решающее правило, компетентность которого максимальна в найденной области. Решение этого правила отождествляется с решением всего кол-лектива. Основным этапом в такой организации коллективного решения является обучение распознаванию областей компетентности. Прак-тически постановкой этой задачи различаются правила органи-зации решения коллектива. Области компетентности можно ис-кать, используя вероятностные свойства правил коллектива, можно применить гипотезу компактности и считать, что одина-ковым правилам должны соответствовать компактные области, которые можно выделить алгоритмами самообучения. В про-цессе обучения сначала выделяются компактные множества и соответствующие им области, а затем в каждой из этих областей восстанавливается свое решающее правило. Решение такого пра-вила, действующего в определенной области, объявляется дикта-торским, т. е. отождествляется с решением всего коллектива.

В перцептроне каждый A-элемент может интерпретироваться как член коллектива. В процессе обучения все A-элементы при-обретают веса, в соответствии с которыми эти A-элементы участ-вуют в коллективном решении. Особенность каждого A-элемента состоит в том, что он действует в некотором подпространстве ис-ходного пространства, характер которого определяется связями между S- и A-элементами. Решение, получаемое на выходе перцептрона, можно интерпретировать как средневзвешенное реше-ние коллектива, состоящего из всех A-элементов.

Синтез и анализ непараметрических коллективов решающих правил Лапко Василий Александрович

480 руб. | 150 грн. | 7,5 долл. ‘, MOUSEOFF, FGCOLOR, ‘#FFFFCC’,BGCOLOR, ‘#393939’);» onMouseOut=»return nd();»> Диссертация — 480 руб., доставка 10 минут , круглосуточно, без выходных и праздников

Автореферат — бесплатно , доставка 10 минут , круглосуточно, без выходных и праздников

Лапко Василий Александрович. Синтез и анализ непараметрических коллективов решающих правил : Дис. . д-ра техн. наук : 05.13.01 : Красноярск, 2004 357 c. РГБ ОД, 71:05-5/26

Содержание к диссертации

1 Синтез и анализ непараметрических моделей коллективного типа в задачах восстановления стохастических зависимостей

1.1 Классификация статистических моделей коллективного типа 20

1.2 Восстановление многомерных стохастических зависимостей на основе непараметрических коллективов

1.3 Непараметрические коллективы решающих правил в задаче распознавания образов

1.4 Дифференциация признаков анализируемой ситуации по степени их влияния на формирование решения

1.5 Асимптотические свойства непараметрических моделей коллективного типа

1.6 Сравнение аппроксимационных свойств непараметрических моделей «коллективного типа

1.7 Оптимизация непараметрических моделей коллективного типа

1.7.1 Выбор закона распределения опорных точек 55

1.7.2 Методика формирования системы опорных точек 60

1.7.3 Оценивание областей компетентности непараметрических моделей коллективного типа

1.8 Свойства непараметрических моделей коллективного типа в условиях ограниченных выборок

1.8.1 Анализ непараметрических коллективов при • оценивании стохастических зависимостей

1.8.2 Анализ свойств непараметрических алгоритмов распознавания образов коллективного типа

2 Непараметрические модели временных зависимостей, основанные на методе двойного коллективного оценивания

2.1 Традиционные непараметрические модели временных зависимостей коллективного типа и их свойства

2.2 Синтез и анализ непараметрических моделей временных зависимостей, основанных на методе двойного коллективного оценивания

2.3 Асимптотические свойства непараметрических коллективов временных зависимостей

2.4 Сравнение аппроксимационных свойств непараметрических коллективов в задаче восстановления временных зависимостей


2.5 Исследование свойств непараметрических моделей коллективного типа при коротких временных рядах

3 Коллективы гибридных моделей в задаче восстановления стохастических зависимостей

3.1 Направления повышенной эффективности использования априорной информации

3.2 Традиционные гибридные модели 128

3.3 Модификации гибридных моделей 132

3.4 Синтез и анализ коллективов гибридных моделей 135

3.5 Оценка эффективности входящих в коллектив гибридных моделей

3.6 Сравнение аппроксимационных свойств коллектива гибридных моделей

3.7 Непараметрические модели стохастических зависимостей учётом их частичного описания

4 Непараметрические модели последовательных процессов принятия решений

4.1 Непараметрические модели статических систем с линейной структурой

4.2 Непараметрические модели стохастических зависимостей, основанные на методе группового учёта аргументов

5 Непараметрические модели анализа множеств случайных величин

5.1 Регрессионная оценка плотности вероятности 180

5.2 Применение метода декомпозиции обучающей выборки в задаче распознавания образов

5.3 Синтез и анализ непараметрической регрессии на основе метода декомпозиции выборки

5.4 Анализ множеств случайных величин при восстановлении стохастических зависимостей

5.5 Непараметрические алгоритмы классификации множеств случайных величин

5.6 Свойства непараметрических моделей стохастических зависимостей в условиях больших выборок

6 Информационная система прогнозирования динамики состояния преступности региона

6.1 Основные понятия и определение объекта исследования 223

6.2 Системный анализ преступности и ее причины 225

6.3 Задачи исследования состояния преступности региона 241

6.4 Анализ направлений научных исследований в задачах профилактики и борьбы с преступностью

6.5 Структура информационной системы и описания процесса её ункционирования

6.6 Прогнозирование показателей преступности на примере Красноярского края

7 Программное обеспечение непараметрических коллективов решающих правил и его применение

7.1 Программное обеспечение непараметрических коллективов решающих правил

7.1.1 Назначение комплекса программ и его функциональные возможности

7.1.2 Структура комплекса программ 274

7.1.3 Описание вспомогательных блоков 276

7.1.4 Блок программ «Непараметрические методы восстановления стохастических зависимостей»

7.1.5 Блок программ «Непараметрические методы распознавания образов»

7.1.6 Описание работы блока программ «Оценка вклада аргументов»

7.2 Статистические модели оценивания показателей эффективности электротехнических изделий

7.2.1 Непараметрические модели оценивания показателей эффективности электронасосных агрегатов

7.2.2 Статистический анализ влияния конструктивных особенностей рабочих колёс на эффективность электронасосных агрегатов

7.2.3 Разработка и исследование непараметрических моделей малорасходных вентиляторов системы охлаждения

7.3 Информационная система исследования закономерностей влияния параметров энерготехнологических процессов предпосевной высокочастотной обработки семян

7.3.1 Гибридные модели электромагнитного поля процессов ВЧ и СВЧ обработки семян пшеницы

7.3.2 Коллективы решающих правил в задаче исследования процессов ВЧ и СВЧ обработки семян пшеницы

7.3.3 Статистическая модель динамики развития валерианы лекарственной

7.3.4 Статистические модели оценивание показателей эффективности технологии высокочастотной предпосевной обработки клубней картофеля

7.4 Восстановление взаимосвязи между показателями гемодинамики сердечно-сосудистой системы организма человека в экологических условиях Севера. -зол

Список литературы 337

Введение к работе

Актуальность работы. Методы коллективного оценивания находят широкое распространение на современном этапе развития теории обучающихся систем, когда возникла потребность в обобщении разнотипных алгоритмов обработки информации с целью получения интегрированных знаний.

Обязательным условием синтеза традиционных моделей коллективного типа является наличие конечного множества решающих правил, каждое из которых имеет самостоятельное значение. Тогда коллектив моделей, например, с позиций средневзвешенного преобразования либо оценивания областей их компетентности, аккумулирует преимущества составляющих коллектив решающих правил. Другим крайним случаем коллектива являются непараметрические модели, структуру которых образуют элементы обучающей выборки и соответствующие им ядерные (весовые) функции. Каждая ядерная функция оказывает влияние на процесс формирования решения только в пределах конкретной ситуации из обучающей выборки.

В научной литературе настойчиво обсуждается и разрабатывается идея о совместном использовании в коллективе разнотипных моделей — как средства наиболее полного учета априорной информации. Известно яркое высказывание профессора В. Хардле (Прикладная непараметрическая регрессия. — М.: Мир, 1993): «Совмещение параметрических и непараметрических составляющих может даже привести к построению лучшей модели, чем непараметрический или параметрический подход!». Получены первые успешные результаты исследований в данном направлении, к которым можно отнести методы локальной аппроксимации (Катковник В.Я., 1985), гибридные модели (Лапко А.В., 1993), полупараметрические и частично линейные модели (Хардле В., 1993). При этом особое внимание уделяется алгоритмам восстановления стохастических зависимостей, обеспечивающих учет частичных сведений об их виде и данных экспериментальных исследований.

Предлагаемая работа посвящена развитию и теоретическому обоснованию нового научного направления математического моделирования неопределённых систем с позиций методов непараметрической статистики и коллективного оценивания с целью повышения эффективности использования априорной информации на основе управляемого сочетания преимуществ параметрических и локальных аппроксимаций. Под неопределёнными системами понимаются системы, исследование которых осуществляется в условиях неполной информации о закономерностях их функционирования.

Непараметрические модели коллективного типа формируются на основе семейства упрощённых параметрических либо локальных аппроксимаций искомой зависимости, объединение которых в единое решающее правило осуществляется с помощью непараметрической оценки условного математического ожидания относительно параметров элемента коллектива и (или) значений их обобщённых характеристик.

К непараметрическим коллективам относятся их модификации, гибридные и непараметрические модели, основанные на последовательных процедурах формирования решений.

Среди рассматриваемого класса моделей различаются линейные и нелинейные непараметрические коллективы, исследование асимптотических свойств которых требуют разработки соответствующих аналитических технологий.

В рамках данного направления появляется возможность обобщения традиционного непараметрического подхода и обеспечивается преемственность результатов научных исследований, что определяет фундаментальную значимость тематики диссертации.

Полученные при этом научные результаты создают методическую и математическую основу автоматизации проектирования информационных систем, реализующих непараметрические коллективы решающих правил, адаптируемых к объектам различной природы и условиям их исследования.

Основные научные результаты диссертации получены в рамках планов научных исследований Института вычислительного моделирования СО РАН (№01.9.80 007505 «Разработка математического и программного обеспечения многоуровневых интеллектуальных информационных систем принятия решений», №0.200.1 13696 «Разработка математического и программного обеспечения интеллектуальных информационно-аналитических систем») и Сибирском государственном аэрокосмическом университете имени академика М.Ф. Решетнёва. Актуальность темы диссертации признана рядом Российских фондов и организаций, осуществляющих финансирование научных исследований (РФФИ, гранты №00-01-00001, №01-01-06015 (MAC), №02-01-06409 (MAC), №03-01-00081; РГНФ — №03-05-12012в; Министерство образования РФ по фундаментальным исследованиям в области естественных и точных наук — №Е00-69-02; Красноярский краевой фонд науки — №10F0023M; Министерство промышленности, науки и технологий РФ (Совет по грантам Президента РФ) — №МК-143.2003.01; Фонд содействия отечественной науки).

Тема диссертации соответствует перечню «Критические технологии РФ» по направлению — компьютерное моделирование.


Цель работы: Разработать теоретические основы оптимального синтеза и анализа непараметрических коллективов решающих правил, обеспечивающих эффективное использование априорной информации на основе управляемого сочетания преимуществ параметрических и локальных аппроксимаций.

Цель достигается путём решения следующих задач:

1. Развить и обобщить методику синтеза непараметрических моделей коллективного типа в задачах восстановления многомерных стохастических зависимостей и распознавания образов в условиях неполной информации.

2. Разработать методику построения непараметрических моделей временных зависимостей по коротким рядам наблюдений их переменных на основе метода двойного коллективного оценивания, исследовать их свойства и определить условия компетентности.

3. Разработать и исследовать коллективы гибридных моделей стохастических зависимостей, учитывающих априорные сведения об их виде, локальном поведении и обеспечивающих «обход» проблемы выбора моделей в конкретных условиях их применения.

4. Разработать методику синтеза и анализа непараметрических моделей последовательных процессов принятия решений, создающих основу исследования сложных неопределённых систем с линейной структурой.

5. С позиций методов коллективного оценивания разработать и исследовать непараметрические модели анализа множеств случайных величин в задачах восстановления стохастических зависимостей и распознавания образов.

6. Создать информационные средства, реализующие непараметрические коллективы решающих правил, и применить их при исследовании социальных, медико-биологических и технических систем.

Методы исследования. Для решения поставленных задач использовались теория сложных и обучающихся систем, аппарат теории вероятности и математической статистики, методы коллективного оценивания и статистического моделирования.

Научная новизна исследований. Впервые теоретически обоснована и решена проблема оптимального синтеза и анализа непараметрических моделей коллективного типа в задачах восстановления стохастических зависимостей, распознавания образов, включая обработку множеств случайных величин, и моделирования временных процессов, которые обеспечивают эффективное использование априорной информации путём сочетания преимуществ параметрических и локальных аппроксимаций, тем самым сформировано новое научное направление в развитии методологии статистического моделирования систем при неполной информации.

1. Развиты теоретические основы построения непараметрических моделей коллективного типа в задачах восстановления стохастических зависимостей и распознавания образов, обобщающих традиционные локальные аппроксимации и позволяющие эффективно использовать информацию обучающих выборок. Разработаны новые непараметрические коллективы с учётом эффективности упрощённых параметрических аппроксимаций, которые характеризуются более высоким уровнем помехозащищённости и точности. Из анализа асимптотических свойств непараметрических коллективов установлена слабая зависимость аппроксимационных свойств непараметрических моделей коллективного типа от вида упрощённых параметрических аппроксимаций. Впервые разработана методика оценивания вклада аргументов в формирование значений восстанавливаемой зависимости на основе непараметрического коллектива с системой линейных упрощённых аппроксимаций.

2. Предложена и обоснована методика двойного коллективного оценивания при синтезе непараметрических моделей временных зависимостей, включая нестационарные процессы, обеспечивающая максимальное использование информации коротких рядов наблюдений их переменных и повышенную помехозащищённость разрабатываемых моделей.

3. Разработаны и исследованы новые модификации гибридных моделей, отличающихся видом непараметрической оценки функции невязки между параметрической аппроксимацией восстанавливаемой зависимости и её наблюдениями из обучающей выборки, что обеспечивает более полный учёт априорной информации. Для обхода проблем выбора вида функции невязки, предложена методика синтеза и анализа коллектива гибридных моделей.

4. С позиций методов коллективного оценивания разработаны и исследованы непараметрические модели статических систем с линейной структурой. При этом впервые аналитически обоснована возможность частичного сжатия пространства признаков непараметрической регрессии на основе их линейного преобразования.

5. Сформулирована и решена проблема анализа множеств случайных величин в задачах восстановления стохастических зависимостей и распознавания образов. Идея предлагаемого подхода заключается в замене операций над множествами на преобразования законов распределения их элементов с помощью непараметрических коллективов решающих правил.

Практическая ценность диссертации заключается в разработке методики, алгоритмических и программных средств синтеза и анализа структуры непараметрических коллективов решающих правил, ориентированных на исследование статических и динамических объектов различной природы при априорной неопределённости.

Полученные научные результаты рекомендуются для использования при выборе методов аппроксимации, построении и оптимизации непараметрических коллективов решающих правил в задачах восстановления стохастических зависимостей и распознавания образов.

Слабая зависимость условий асимптотической сходимости статистических оценок показателей эффективности непараметрических коллективов решающих правил от вида упрощённых аппроксимаций обосновывает использование линейных упрощённых аппроксимаций, что имеет важное прикладное значение для повышения вычислительной эффективности изучаемого класса моделей и обеспечивает разработку методики оценивания вклада аргументов при формировании значений восстанавливаемой функции.

Применение непараметрических моделей временных зависимостей коллективного типа открывает возможность исследования широкого класса уникальных социальных, экономических и медико-биологических систем, динамика которых характеризуется короткими рядами наблюдений их переменных.

Гибридные модели многомерных стохастических зависимостей гарантируют преемственность результатов научных и прикладных разработок на основе использования ранее разработанных «старых» моделей в качестве дополнительной исходной информации.

Критерии статистического оценивания условий преимущества непараметрических коллективов решающих правил создают методическую и алгоритмическую основу автоматизации их проектирования при построении типовой информационной системы.

Информационные средства, реализующие непараметрические коллективы решающих правил, обладают возможностью адаптации к различным условиям исследования неопределённых систем и требованиям пользователей.

Модификации непараметрических моделей многомерных стохастических зависимостей и алгоритмов распознавания образов коллективного типа, обеспечивающие эффективное использование информации обучающих выборок на основе управляемого сочетания преимуществ параметрических и локальных аппроксимаций. Вычислительные аспекты применения непараметрических коллективов решающих правил и методы синтеза их эффективной структуры.

Непараметрические модели временных зависимостей, основанные на методе двойного коллективного оценивания; зависимость их свойств от особенностей исходной информации, содержащейся в коротких рядах наблюдений переменных изучаемых процессов, и параметров непараметрических коллективов. Свойства предложенных моделей и критерии оценивания условий их компетентности.

Методику оценивания вклада аргументов в формирование значений восстанавливаемой зависимости на основе непараметрических моделей коллективного типа, использующих систему линейных упрощённых аппроксимаций.

Коллективы гибридных моделей многомерных стохастических зависимостей и их модификации; асимптотические свойства моделей и результаты сравнения их показателей эффективности. Непараметрические модели статических систем с линейной структурой, элементы которой аппроксимируются непараметрическими регрессиями и образуют нелинейный коллектив решающих правил; асимптотические свойства показателей эффективности моделей и их зависимость от особенностей исходной информации.

Непараметрические модели анализа множеств случайных величин в задачах восстановления стохастических зависимостей и распознавания образов, синтез которых основывается на методах коллективного оценивания; свойства моделей и алгоритмы их оптимизации. 7. Информационные средства, реализующие непараметрические коллективы решающих правил. Результаты их применения при прогнозировании динамики показателей преступности в регионе и урожайности сельскохозяйственных культур; исследовании закономерностей гемодинамических процессов сердечно-сосудистой системы организма человека в экологических условиях Севера; оценивании показателей эффективности системы терморегулирования спутников связи.

Реализация результатов работы. Непараметрические модели временных зависимостей коллективного типа и методика оценивания вклада аргументов в формирование их значений составили основу математического обеспечения информационной системы прогнозирования динамики показателей состояния преступности региона, которая используется в учебном процессе Сибирского юридического института МВД России и планировании деятельности ГУВД Красноярского края.

Непараметрические модели многомерных стохастических зависимостей коллективного типа и гибридные модели использованы при создании информационных средств оценивания показателей эффективности системы терморегулирования спутников связи в НПО «Прикладная механика» (г. Железногорск), исследовании технологии высокочастотной предпосевной обработки семян, прогнозировании урожайности сельскохозяйственных культур (Красноярский государственный аграрный университет).

Разработанные непараметрические модели коллективного типа и программные средства внедрены в Институте медицинских проблем Севера СО РАМН для исследовании взаимосвязей между параметрами гемодинамики сердечно-сосудистой системы организма человека в экологических условиях Севера.

Материалы диссертации включены в учебное пособие «Непараметрические системы обработки информации», изданное в рамках Федеральной целевой программы «Государственная поддержка интеграции высшего образования и фундаментальной науки 1997-2000 годы» и рекомендованное Министерством образования РФ для обучения студентов по направлению 654600 — «Информатика и вычислительная техника».

Апробация работы. Основные положения диссертации представлялись и обсуждались на Всероссийских, Международных и региональных конференциях, в частности: 3-ей Всероссийской конференции с участием стран СНГ «Распознавание образов и анализ изображений: новые информационные технологии» (Нижний Новгород, 1997), Всероссийской конференции «Здоровье общества и безопасность жизнедеятельности» (Красноярск, 1997), 8-ой Всероссийской конференции «Математические методы распознавания образов» (Москва, 1997г.), 3-ем и 4-ом Сибирском конгрессе по прикладной и индустриальной математике (Новосибирск, 1998г., 2000г.), Международной конференции «Идентификация систем и задачи управления» (Москва, 2000г.), 5-ой Международной конференции «Распознавания образов и анализ изображений: новые информационные технологии» (Самара, 2000г.), Международной научно-практической конференции «Сибирский авиационно-космический салон» (Красноярск — Железногорск, 2001г., 2002г.), Международной конференции «12th International Heat Pipe Conference» (Moscow — Kostroma — Moscow, 2002), Всероссийской научно-практической конференции «Проблемы информатизации региона» (Красноярск, 2003г.), 7-ой Всероссийской научной конференции с участием иностранных учёных «Современные методы математического моделирования природных и антропогенных катастроф» (Красноярск, 2003г.).

Результаты исследований включались в основные научные достижения Института вычислительного моделирования СО РАН; представлены в отчётах грантов РФФИ №00-01-00001 «Разработка непараметрических систем распознавания образов, основанных на методе коллективного оценивания», №01-01-06015 (MAC), 02-01-06409 (MAC), №03-01-00081 «Разработка непараметрических систем классификации множеств случайных величин»; гранта РГНФ №03-05-12012в «Разработка территориально распределённой информационной системы эпидемиологического мониторинга артериальной гипертонии среди населения региона»; гранта Министерства образования РФ по фундаментальным исследованиям в области естественных и точных наук №Е00-69-02 «Разработка и исследование непараметрических моделей коллективного типа в задачах восстановления стохастических зависимостей»; гранта Красноярского краевого фонда науки №10F0023M «Разработка и исследование непараметрических моделей нестационарных зависимостей коллективного типа»; гранта Президента РФ № МК-143.2003.01 «Разработка теоретических основ построения непараметрических моделей коллективного типа в задачах восстановления стохастических зависимостей» и гранта Фонда содействия отечественной науке «Выдающиеся учёные. Кандидаты и доктора наук РАН».

Перспективный характер направления исследований и научная новизна полученных результатов отмечалась в журнале «Вестник РФФИ» (№3, 2001).

Публикации. Результаты теоретических, экспериментальных и прикладных исследований опубликованы в 53 печатных работах, из них 11 статей в журналах рекомендованных ВАК для представления материалов докторских диссертаций, три монографии, учебное пособие и 10 статей в зарубежной печати.

Структура и объём работы. Диссертация состоит из введения, семи глав, заключения, списка использованной литературы (175 наименований), содержит 357 страниц машинописного текста, иллюстрируется 107 рисунками.

Лекция 1-2: Базовые понятия ии

Назва Лекция 1-2: Базовые понятия ии
Сторінка 14/18
Дата 26.06.2012
Розмір 1.56 Mb.
Тип Лекция
1. /LECT_P1.rtf Лекция 1-2: Базовые понятия ии

Метод предельных упрощений (МПУ)

По тому, как организован процесс обучения распознающих систем, четко выделяются два подхода к проблеме ОРО. Первый основан на построении сложных разделяющих поверхностей в случайно выбранных пространствах, а во втором — центр тяжести проблемы переносится на достижение понимания принципов формирования такого описания объектов, в рамках которого сам процесс распознавания чрезвычайно прост. Обучение в этом случае рассматривается как некий процесс конструирования пространств для решения конкретных задач.

В МПУ предполагается, что разделяющая функция задается заранее в виде линейного (самого простого) полинома, а процесс обучения состоит в конструировании такого пространства минимальной размерности, в котором заранее заданная наиболее простая разделяющая функция безошибочно разделяет обучающую последовательность. МПР назван так потому, что в нем строится самое простое решающее правило в пространстве небольшой размерности, т. е. в простом пространстве.

Пусть на некотором множестве объектов V заданы два подмножества V * 1 и V * 2, определяющих собой образы на обучающей последовательности V. Рассмотрим i-е свойство объектов, такое, что некоторые объекты обучающей последовательности этим свойством обладают, а другие — нет. Пусть заданным свойством обладают объекты, образующие подмножество V1i, а объекты подмножества V2i этим свойством не обладают (V1i V2i = V). Тогда i-е свойство называют признаком первого типа относительно образа V * 1, если выполняются соотношения

и признаком второго типа, если выполняются

Если же выполняются соотношения

то i-е свойство считается признаком первого типа относительно образа V * 2, а если выполняются

то это же свойство объявляется признаком второго типа относительно образа V * 2. Если свойство не обладает ни одной из приведенных особенностей, то оно вообще не относится к признакам и не участвует в формировании пространства.

Одинаковые признаки — это два признака xi и xj, порождающие подмножества V1j, V2j, V1i, V2i, такие, что

Доказано утверждение, смысл которого заключается в том, что если пространство конструировать из однотипных, но неодинаковых признаков, то в конце концов будет построено такое пространство, в котором обучающая последовательность будет безошибочно разделена на два образа линейным, т. е. самым простым, решающим правилом.

Метод предельных упрощений состоит в том, что в процессе обучения последовательно проверяются всевозможные свойства объектов и из них выбираются только такие, которые обладают хотя бы одной из особенностей, определяемых соотношениями (ф. ), (ф. ). Такой отбор однотипных, но неодинаковых признаков продолжается до тех пор, пока при некотором значении размерности пространства не наступит безошибочное линейное разделение образов на обучающей последовательности. В зависимости от того, из признаков какого типа строится пространство, в качестве разделяющей плоскости выбирается плоскость, описываемая уравнением

Каждый объект относится к одному из образов в зависимости от того, по какую сторону относительно плоскости находится соответствующий этому объекту вектор в пространстве признаков размерности n.

Коллективы решающих правил

Давно известны приемы повышения качества принимаемых реше­ний, состоящие в объединении специалистов той или иной области знаний в коллектив, вырабатывающий совместное решение. Идею коллективного решения можно применить и к «коллективу» фор­мальных алгоритмов, что позволит повысить эффективность ре­шения многих задач.

Для рационального использования особенностей различных алгоритмов при решении задач распознавания возможно объединить различные по характеру алгоритмы распозна­вания в коллективы, формирующие классификационное решение на основе правил, принятых в теории коллективных решений. Пусть в некоторой ситуации Х принимается решение S. Тогда S=R(X), где R—алгоритм принятия решения в ситуации X. Предположим, что существует L различных алгоритмов решения задачи, т. е. Sl=Rl(X), l=1, 2, . , L, где Sl—решение, получен­ное алгоритмом Rl. Будем называть множество алгоритмов =1, R2, . Ri.> коллективом алгоритмов решения задачи (кол­лективом решающих правил), если на множестве решений Sl в любой ситуации Х определено решающее правило F, т. е. S=F(S1, S2, . SL, X). Алгоритмы Rl принято называть членами коллектива, Sl — решением l-го члена коллектива, а S — коллек­тивным решением. Функция F определяет способ обобщения ин­дивидуальных решений в решения коллектива S. Поэтому синтез функции F, или способ обобщения, является центральным момен­том в организации коллектива.

Принятие коллективного решения может быть использовано при решении различных задач. Так, в задаче управления под си­туацией понимается ситуация среды и целей управления, а под решением — самоуправление, приводящее объект в целевое состоя­ние. В задачах прогноза Х — исходное, а S — прогнозируемое состояние. В задачах распознавания ситуацией Х является опи­сание объекта X, т. е. его изображение, а решением S — номер образа, к которому принадлежит наблюдаемое изображение. Индивидуальное и коллективное решения в задаче распозна­вания состоят в отнесении некоторого изображения к одному из образов. Наиболее интересными коллективами распознающих ал­горитмов являются такие, в которых существует зависимость веса каждого решающего правила Rl от распознаваемого изображения. Например, вес решающего правила Rl может определяеться соотно­шением

где Bl — область компетентности решающего правила Rl. Веса решающих правил выбираются так, что

для всех возможных значений X. Соотношение (ф. ) означает, что решение коллектива определяется решением того решающего правила Ri, области компетентности которого принадлежит изоб­ражение объекта X. Такой подход представляет собой двухуров­невую процедуру распознавания. На первом уровне определяется принадлежность изображения той или иной области компетент­ности, а уже на втором — вступает в силу решающее правило, компетентность которого максимальна в найденной области. Решение этого правила отождествляется с решением всего кол­лектива. Основным этапом в такой организации коллективного решения является обучение распознаванию областей компетентности. Прак­тически постановкой этой задачи различаются правила органи­зации решения коллектива. Области компетентности можно ис­кать, используя вероятностные свойства правил коллектива, можно применить гипотезу компактности и считать, что одина­ковым правилам должны соответствовать компактные области, которые можно выделить алгоритмами самообучения. В про­цессе обучения сначала выделяются компактные множества и соответствующие им области, а затем в каждой из этих областей восстанавливается свое решающее правило. Решение такого пра­вила, действующего в определенной области, объявляется дикта­торским, т. е. отождествляется с решением всего коллектива.

Понравилась статья? Поделиться с друзьями:
Кодинг, CSS и SQL