Опыты практической самоорганизации

Определим самоорганизацию как процесс упорядочения системы, вызванный исключительно ее внутренними причинами. В данной статье приведено описание модели процесса и результаты наблюдений за изменениями состояния лингвистической системы.

Модель
Имеется около 500 реальных текстов разной тематики объемом от 50 до 10000 слов, скопированные из Интернета. Тексты сгруппированы в классификатор из 17 разделов (кластеров), который был подготовлен интуитивно, "по разумению составителя". В процессе испытаний он выступает как эталон организации данного материала. Для исследования запускается программа, которая из исходного неупорядоченного массива текстов формирует собственный каталог. Каталоги, составленные человеком и программой, сравниваются, в качестве критерия успешной работы программы принимается число совпадений в родственных по тематике разделах.

Исследовалось влияние внутренних параметров алгоритма на процесс формирования разделов каталога.

Алгоритм
Модель работает с разделами каталога, каждый из разделов может состоять из любого количества текстов, начиная с одного.

В исходном неупорядоченном состоянии принимается, что каталог содержит столько разделов, сколько имеется в системе текстов (498), т.е. каждый текст интерпретируется как раздел, состоящий из одного текста. Далее запускается программа, в процессе работы которой тексты объединяются в большие и малые разделы, которые затем, в процессе взаимодействия между собой, объединяются, сокращаются, рассыпаются, пока система не придет в какое-то устойчивое состояние.

Программа многократно повторяет один и тот же цикл, который для каждого раздела текущего каталога последовательно выполняет поиск новых разделов для объединения. При обнаружении выполняется анализ получившейся сборки, из нее удаляются тексты, тематика которых не соответствует "направлению" нового раздела, т.е. его совокупной тематике. Каждый исключенный текст образует новый раздел, содержащий только этот один текст.

Цикл начинается с того, что случайным образом выбирается один из разделов каталога и последовательно происходит сравнение его тематики со всеми другими разделами текущего каталога, для чего по специальной формуле вычисляется параметр Si - степень совпадения раздела с другими по содержанию. Решение об объединении принимается, если его значение превышает константу H1 (Si>H1). При анализе получившейся сборки, решение об удалении из нее текста принимается, если параметр соответствия общей тематики ниже константы H2 (Si
После сравнения выбранного раздела каталога со всеми другими, цикл завершается.

Циклы повторяются до тех пор, пока происходят изменения каталога. Если этого не происходит, работа завершается принудительно. После каждого цикла можно наблюдать развитие системы по текущему состоянию каталога. При этом, оператор может только наблюдать, но не имеет возможности влиять на этот процесс, т.е. субъективный фактор на этапе формирования каталога отсутствует. После спонтанных объединений, распадов и перемещений текстов из раздела в раздел, система чаще всего приходит к устойчивому состоянию, в котором значимые изменения уже не происходят. По окончании каждого цикла, состояние системы фиксируется, текущий каталог сравнивается с эталонным, что дает возможность после окончания всего процесса наблюдать историю развития системы от начального неупорядоченного до конечного. Как правило, "прогрессивная" фаза развития, когда расхождение с эталоном уменьшается, достигает максимума, после чего начинается "деградация", показатель соответствия эталону снижается.

Для вычисления параметра соответствия Si была принята формула вычисления относительной информации в текстах, приведенная в [1], с некоторыми изменениями:
i = n
S = 100*Σ(W1i*W2i)/(1+Gi/Z)          (1)
i
где: W1i,W2i - частоты употребления i-го слова в двух сопоставляемых разделах. Частоты определяются по словарю раздела, в который включаются слова всех входящего в него текстов (стоп-слова, естественно, исключены)
n - число совпадающих слов.
Gi - усредненная частота употребления i-го слова в языке, определяемая как отношение количества текстов, в которых встречается i-е слово к общему количеству исследованных текстов.
Z=1/15 - константа.
Множитель 100 введен для лучшего восприятия цифр

Изменения формулы в сравнении с [1] коснулись исключения множителей, содержащих логарифмы. Их наличие повышает точность вычисления относительной информации, но искажает абсолютные значения, которые необходимы для сравнения с константами H1 и H2. Значения H1 изменялись в диапазоне 0.075 - 0.4. Для H2 принимались разные варианты: H2=H1, H2>H1, H2<H1.

Результаты
Основным параметром, по которому оценивается результат работы алгоритма, принята величина Е - число текстов, входящих в одни и те же разделы, каталогов, составленных программой и человеком. В качестве разделов, подлежащих учету при вычисления Е, принимались только разделы, содержащие более 5 текстов (т.е. разделы, содержащие 1-5 текстов не учитывались).

Процесс становления каталога происходит во времени. Время фиксируется в начале цикла, т.е. в момент случайного выбора раздела каталога для его сравнения с другими элементами массива. Принято Т = номер такого события, отсчитываемый от начального момента, когда тексты (= разделы каталога) неупорядоченные. Процесс обрывался, когда изменения прекращались или происходило циклическое повторение состояний, т.е. сложившийся классификатор уже не мог измениться. Однако, для некоторых значений H1 и H2 этого тоже не происходило, процесс уходил в бесконечность и прерывался.

Результаты испытаний сведены в таблицу. В таблице приняты обозначения:
N - номер испытания
Т - номер цикла в испытании
H1,H2 - границы объединения/размежевания разделов
Emаx - максимальное общее число совпадений в разделах "человеческого" и машинного каталогов
Tm - значение T, при котором число совпадающих текстов Е максимальное (E=Emax)
Cm - число разделов каталога для момента Tm
Ce - число разделов каталога на момент прерывания процесса
Te - номер цикла завершения процесса
Символом n обозначены прерванные испытания

Таблица
N H1 H2    E(max)Cm Tm E(end) Ce Te
1 0.0750.075   28028441   1901492
2 0.10.1   27326443   1861523n
3 0.150.15    28625446   1855580
4 0.180.18    28522607   24912920
5 0.20.2    28322470   24912622
6 0.220.22    29021475   28320829
7 0.240.24    29229491   28323642
8 0.270.27    28827569   28425715
9 0.30.3    27027565   26526764
10 0.40.4    24229725   233251004
11 0.50.5    18422351   18422995
12 0.180.3    30322618   261181251n
13 0.220.3    30225484   29623701n
14 0.220.3    31726454   30222975
15 0.220.3    31324532   30423760
16 0.240.3    30126813   30126813
17 0.30.22    28330552   27325827
18 0.20.2    27620491   271181810n
Испытания с 1 по 11 проводились для разных значений границ H1, причем граница H2 устанавливалась равной H1. Равенство H2=H1 означает, что условие объединения (H1) и условие выхода одинаковы.

Испытания с 12 по 16 проводились для варианта H1<H2.

В испытании 17 обратная ситуация H1>H2, т.е. легче войти, чем выйти.

Испытания 13, 14, 15 проводились при всех одинаковых условиях.

В испытаниях с 1 по 17 текст, вошедший в объединенный раздел, полностью теряет свою самостоятельность и существует только как его составная часть, для системы этого текста нет.

В испытании 18 допускается свобода. Она заключается в том, что любой текст, вне зависимости от его принадлежности и статуса в своем разделе может его в любое время покинуть, образовать собственный раздел (из одного текста) и в таком качестве стандартным образом взаимодействовать в системе со всеми другими элементами. - Так происходило, когда генератор случайных чисел называл номер "связанного" текста.

Комментарии к результатам
Изменение параметра соответствия Е на начальном этапе (до Т=500) происходит для всех вариантов примерно одинаково - поступательный рост до максимума, затем - спад. Такую ситуацию можно объяснить тем, что вначале ресурс, из которого берется пополнение, достаточно велик и из него извлекаются отдельные тексты, которые в полной мере соответствуют тематике зарождающихся разделов. По мере исчерпания ресурса все чаще возникает взаимодействие крупных сборок, которые лишь приблизительно соответствуют друг другу. При их объединении остаются тексты, не удовлетворяющие условиям вновь образующегося раздела и отторгаются, пополняя ряды одиноких текстов, которые начинают искать других партнеров для объединения. На этом этапе значения граничных констант H1 и H2 начинают играть большую роль. Из таблицы видно, что конечные состояния сильно различаются.

При H1=H2=0.07, после достижения максимума соответствия система деградирует и в конце концов образуется один единственный раздел, который включает в себя все тексты. Такое состояние фактически ничем не отличается от исходного, однако формальное существование этого все поглощающего раздела препятствует каким-либо изменениям. Состояние стабильно и при существующих константах измениться не может, история завершается.

Наилучший результат (максимальное значение Е) при Н1=Н2 дают значения границ входа/выхода, лежащие в пределах 0.24 - 0.27. При меньших значениях система деградирует, образуя большие сборки разнородных текстов. При больших значениях - напротив, многие тексты остаются за пределами классификатора (для границы 0.4 в таком положении оказывается четверть массива).

Предоставление свободы выхода, предпринятое в испытании 17, принципиально не изменяет результат, однако это направление требует дополнительных исследований.

Некоторая альтернатива свободы присутствует во всех испытаниях, т.к. после объединения двух любых разделов происходит проверка всех составляющих их текстов на соответствие новому образованию. Тексты, для которых параметр связи меньше Н2 исключаются из нового раздела, т.е. получают "принудительную" свободу. В испытаниях с 12 по 14 граница выхода Н2 выше границы объединения Н1. Такое соотношение определенно улучшает конечный результат.

Обобщение
Модель имеет формальный характер - она оперирует только числами и математическими зависимостями, никак не учитывает семантику. Это обстоятельство дает возможность ее применения для анализа поведения (истории) любых других систем. Для этого необходимо выделить общие признаки составляющих систему элементов, математические зависимости и константы, определяющие влияние признаков на взаимодействие элементов системы. Рассмотрим физическую систему, в которой параметр соответствия S будем интерпретировать как силу притяжения.

Описание физической модели (без привязки к лингвистике).
Имеется неупорядоченное конечное множество разнообразных элементов, обладающих свойством взаимного притяжения. Сила притяжения каждого элемента к каждому другому разная. Она зависит от его внутреннего наполнения и вычисляется по конкретной формуле. Запускается процесс взаимодействия случайно выбранного элемента со всеми другими. В результате возникают новые образования, в которые втягиваются другие элементы. Каждое такое образование ведет себя в системе как отдельный большой элемент, обладающий обозначенным свойством. Отдельные элементы, вошедшие в него, теряют свою самостоятельность и, как таковые, в системе не присутствуют. Т.е. их "внешние интересы" представляет исключительно объект, в который они вошли. С другой стороны, каждый внутренний элемент имеет определенную силу связи со всем этим объектом. Сила связи (удержания) зависит от свойств самого элемента и от совокупных свойств всего объекта, которому он принадлежит. В процессе развития изменяется состав объекта и, соответственно, эта сила уменьшается или увеличивается. Если сила связи становится меньше некоторого заданного граничного значения, элемент выходит из объекта и возвращается к самостоятельному (независимому) существованию в системе. Т.о., запускается неуправляемый процесс взаимодействия "элементарных частиц", который приводит к их консолидациям, распаду и образования новых сборок.

Неосуществленное
Ввиду большой трудоемкости исследований на данную тему, многие вопросы остаются без ответа. Перечислим некоторые из них.
1. В работе представлены истории "естественного развития" системы для разных параметров без влияния внешних (в том числе субъективных) факторов. Система состоит из достаточно сложных объектов - текстов, для которых учитывалось от 50 до 10000 признаков (слов). Было бы интересно провести подобное исследование для других (не лингвистических) систем, например, социальных.
2. В формулу (1) входит эмпирическая константа Z=1/15. Есть основания предполагать, что здесь мы имеем дело с известной в лингвистике константой Ципфа, во всяком случае, значение 1/15 соответствует ее значению для русского языка. Если подобная константа будет проявляться в исследованиях нелингвистических систем, это будет означать, что она имеет более фундаментальный смысл.
3. Границы объединения/исключения H1 и H2 заданы как константы, однако их можно было бы определить как функции внутренних или внешних параметров.
4. Недостаточно проверено влияние фактора "свобода выхода" на историю развития системы. Здесь есть много вариантов - от абсолютной (безусловной) свободы до установления самых разнообразных условий - как внутренних, так и внешних. В испытании 18 был проверен вариант с безусловной свободой выхода.
5. Не исследовано влияние на историю консолидации внешних воздействий (например) чередование периодов, допускающих/не допускающих свободу.
6. Состязание/изъятие. Можно предложить (и проверить) ситуацию, когда выбранный раздел может взять отдельный текст из другого раздела при соблюдении определенных условий (или безусловно). (В исследовании взаимодействовали только разделы).
7. Статус признака (слова) в исследовании определялся делителем (1+Gi/Z). Можно, однако, некоторым словам, группам слов или отдельным текстам искусственно присвоить повышенный/пониженный статус, т.е. исследовать влияние субъективного фактора.
8. Целью работы программы в данном исследовании задано максимальное совпадение создаваемого каталога с эталоном, составленным человеком. Сообразно этой цели устанавливаются зависимости и подбираются константы. Однако, можно было бы задать какую-то иную цель (например, образование конкретного числа разделов) и трансформировать алгоритм для ее достижения. Но это уже другая задача и, соответственно, система.

Выводы
1. Множество разнообразных элементов при существовании простых законов взаимодействия способно к самоорганизации (систематизации).
2. Каталог формируется случайным образом, однако процесс его создания и конечный результат закономерен. Кроме алгоритма, в большой мере он определяется заданными значениями границ, т.е. системными параметрами.
3. История развития системы проходит фазу становления, достижения максимума. Далее при определенных параметрах развитие сменяется деградацией и завершается распадом либо циклическим повторением состояний.
4. При исключении внешних воздействий конечный результат развития "предопределен" - он определяется исключительно содержанием внутренних параметров взаимодействия. Здесь историю творит математика.
5. Константы и алгоритм подбирались, исходя из цели - "соответствие каталогу, составленному человеком". Есть в этом "телеологический" признак - законы развития устанавливаются, исходя из цели.

Можно попытаться применить данную модель для исследования поведения самой большой из известных систем - Вселенной, но при одном условии - если принять гипотезу П.Флоренского/С.Булгакова о "всеобщем коммунизме бытия", согласно которой "...единство мироздания делает то, что каждый атом связан со всей вселенной" (Сергей Булгаков "Философия хозяйства").

В каждое испытание в данном исследовании был вовлечен весь массив и на результат в какой-то мере оказывает влияние каждый его элемент. Применение алгоритмов, соответствующих реальным (ограниченным) взаимодействиям не дают "осязаемые" результаты. Впрочем, это тоже одна из целей дальнейших работ.

История развития системы в большой степени определяется почти субъективным параметром - установленной границей удержания элемента в сборке. Этот параметр можно назвать условием социализации, - когда элемент в системе теряет свое самостоятельность. Очень слабая, как и очень сильная социализация не дают хорошего результата, есть ее оптимальное значение, отклонение от которого снижает качество.

Ханов О.А.
01.10.2010.

Литература
1. Ханов О.А. Вычисление информации, содержащейся в текстах. Журнал "Инновации" 08 (118) август, 2008, с.107-108
2. Пиотровский Р.Г. Лингвистическая синергетика. СПб. Филологический факультет СПбГУ, 2006 ISNB 5-8465-0287-3.
В начало