Технология

О подходе

Давайте заглянем вглубь системы и посмотрим, как может TextAnalyst понимать смысл текста? Ведь все попытки обучить машину языку человека до сих пор заканчивались неудачей. Почему же TextAnalyst понимает? Чуть забегая вперед, дадим парадоксальный ответ - в отличие от других систем, так и не научившихся думать, TextAnalyst никогда и не пытался думать!

Многие годы разработчики “искусственного интеллекта” пытались научить компьютер логическому мышлению - мышлению, основанному на манипулировании формализованным знаниями и правилами их преобразования. Такой тип мышления характерен для обработки информации левым полушарием человеческого мозга. Однако, не имея возможности обучаться самостоятельно, подобно человеку, экспертные системы искусственного интеллекта широкого распространения не получили - для реальной работы им не хватало априорно заложенных знаний.

Мы выбрали другой путь, смоделировав более древние механизмы мышления, присущие правому полушарию мозга. В отличие от логики, эти механизмы можно было бы назвать ассоциативной обработкой. Весь путь эволюции, от рептилии до высших млекопитающих, природа прошла, “думая” именно так. И даже для “венца мироздания” логическое мышление играет не самую важную роль. Окружающий мир слишком сложен и слишком изменчив для того, чтобы мы могли обдумывать каждый свой шаг. На проверку логическое мышление оказывается лишь маленьким освещенным сознанием островком на поверхности темного моря человеческой психики. Большинство решений принимается именно там - в глубинах подсознания правого полушария, без всякого “думанья” в привычном смысле этого слова!

Помните тысяченожку из известной сказки Джани Родари? Ей предложили разобраться, как это она справляется с таким количеством ног. Тысяченожка подумала, какой же ногой ходить... И упала! TextAnalyst, несмотря лишь на восемь ног, тоже не размышляет и не пытается, скажем, разобрать сложный грамматический оборот (он вообще не слишком искушен в филологии, хотя кое-что и “знает”). Однако это не мешает ему понять содержание текста в целом. Причем сделать это в точности как и мы, лишь пробегая глазами страницы книги, фиксирую основные слова. Правда, благодаря своим “электронным мозгам”, TextAnalyst делает это более внимательно, скрупулезно и быстро, не пропуская ни единого слова из сотен страниц текста. Как возможно такое? Чтобы это понять, обратимся к примеру – посмотрим, как же работает мозг в знакомой всем ситуации…

Представьте себе, что вам требуется изучить материал по некоторой предметной области, до сих пор совершенно незнакомой. Для этого есть два пути:

Первый – вам следует начать с самых основ, со скрупулезного штудирования учебников: погрузиться в определения базовых понятий, изучить основные факты, соотношения, законы и т.д. вы будете выстраивать цепочки умозаключений, постепенно постигая смысл. Это – привычный путь, дедуктивный метод, задействующий весь арсенал ресурсов “левополушарного” мозга. Вспомним, что все мы его проходили в школе, изучая, к примеру, иностранный язык – правила морфологи, правила грамматики, правила…, правила…

Но есть и другой подход, более быстрый, и пожалуй, не менее эффективный. Он близок так называемому “обучению с погружением”, эффективно применяемому в последнее время в интенсивных курсах обучения иностранному языку. Именно он полностью согласуется с моделью обработки информации правым полушарием. Его и рассмотрим теперь подробнее.

Итак, представьте себя в ситуации, когда послезавтра нужно сдавать экзамен по предмету, о котором вы пока не имеете никакого представления. Изучать по порядку, обдумывать и размышлять - на это уже нет времени. И тем не менее, вы сможете сдать экзамен!

Вы садитесь за книги и погружаетесь в мир совершенно новой информации. Ничего знакомого – полная белиберда! - но вы быстро читаете и читаете, проглатывая страницы одну за другой. Спустя какое-то время вы вдруг заметите, что все чаще и чаще на глаза попадаются знакомые элементы – слова и словосочетания, еще не понятные, но уже знакомые… Вот они – базовые кирпичики – ключевые понятия, на которых строится весь предмет. Правое полушарие вашего мозга уже провело статистический анализ информации, выделив ее повторяющиеся фрагменты, которые образуют фундамент Ваших будущих знаний. Незаметно для себя вы “усвоили” основные понятия предмета.

Вы продолжаете чтение, читаете и читаете, возможно, заново те же тесты… Теперь понятия начинают обрастать некоторым смыслом, еще невнятным, но уже различимым. Каким-то смутным образом при встрече знакомых слов вы начинаете чувствовать некоторый их контекст, улавливается окружение… Так формируется и включается в работу семантическая сеть – комплекс связей между понятиями, увязывающий их в единую картину нового мира… Здесь каждое понятие обретает собственный смысл через связи с другими. Набор смысловых связей собственно и представляет значение понятия, так как при его упоминании в сознании всплывает целый набор ассоциаций, оживляющих дотоле пустой звук. Появление таких связей - это опять статистика, опять подсознательный частотный анализ Вашего “правого мозга”. Он не спал, пока Ваши глаза безразлично пробегали по фразам текста, он скрупулезно запоминал и оценивал, в каких комбинациях понятия встречались вместе и как часто.

После того, как сеть выстроена, вы имеете предварительную модель изучаемого предмета. Правда, модель весьма путанная - настоящий сумбур, в котором уже нет сил разобраться. Перегруженный мозг нуждается в отдыхе, ему надо переосмыслить полученные знания. Второй этап завершен, и вот, (утро вечера мудренее) вы отправляетесь к кровати…

А ваше бессознательное продолжает трудиться пока вы спите. Идет анализ накопленной информации – понятий и связей семантической сети – модель предмета перестраивается и совершенствуется. Локальные фрагменты модели, слабо связанные с другими, не включающиеся в единую картину, отбрасываются и забываются. Другие еще сильнее увязываются между собой. Выявляются новые связи и отбрасываются случайные… К утру модель предмета вчерне сформирована. Правда, экзамен сдавать пока ран – знания слишком общи, в них еще нет структуры, системы.

И с новыми силами за предмет... Семантическая сеть включилась в работу и теперь в основном все понятно – каждый фрагмент текста книги относится к известным понятиям, раскрывает определенные их взаимосвязи. Вот оно – конкретное знание по конкретным темам - в конкретных строчках! По мере дальнейшего чтения вы как бы нанизываете” материал текста на знакомые понятия и связи, наполняете их все более конкретным смыслом. Кроме того, происходит структурирование, иерархическое представление модели предмета, где связи обретают направление от главного к второстепенному. Теперь это уже больше похоже на систему!

И окончательно пробежав знакомый материал перед экзаменом, неплохо выбрать и прямо запомнить наиболее важные тезисы, раскрывающие основные соотношения между основными понятиями. Пускай небольшой реферат будет всегда под рукой! Вот так работает и TextAnalyst, в основу работы которого по аналогии с описанными “правополушарными” механизмами заложены следующие основные принципы.

Первый - принцип ассоциативности, суть которого в том, что информация хранится таким образом, что появление небольшого ее фрагмента сразу отсылает к месту, где она хранится. Отсюда вытекает возможность статистической обработки: если фрагменты информации совпадают, они налагаются друг на друга, что позволяет установить частоту встречаемости различных элементов. В результате такого анализа формируется семантическая сеть - основная структура, характеризующая смысл текста, в которой понятия (слова и словосочетания) объединяются ассоциативными связями в соответствии с их совместной встречаемостью. Семантическая сеть характерна тем, что конкретное понятие как бы определяется всеми другими понятиями, связанными с ним в сети. При этом из семантической сети исключаются слова, являющиеся общеупотребимыми и не несущие самостоятельной смысловой нагрузки. Понятия и связи сети ранжируются по весам, отражающим степень значимости понятий в текста и степень их смысловой связанности. Такие веса первоначально формируются на основе частотных характеристик текста.

Второй принцип учитывает особенность сна человека, когда информация, поступившая на хранение в кору мозга, переупорядочивается в соответствие с ее связями. При этом весовые характеристики, сформированные на первом этапе анализа, преобразуются таким образом, что понятия, встречавшиеся во входной информации не очень часто, но связанные мощными связями с понятиями, имеющих большой вес, в свою очередь, приобретают большой смысловой вес, и т.д. Здесь происходит как бы натягивание семантической сети на поверхность всего текста, которая отражает смысловые связи понятий: хребтам ландшафта соответствуют группы понятий, имеющих большой вес и сильно связанных между собой. Долинам соответствуют группы понятий малого веса и слабосвязанных.

В дальнейшем сформированная семантическая сеть сама включается в работу по структуризации информации, относя фрагменты текста к соответствующим понятиям и связям сети, что реализует третий принцип. Создается так называемое тематическое древо - представление структуры текста в виде многоуровневой иерархии тем и раскрывающих их подтем. В зависимости от смыслового строения текста, тематическое древо может иметь один корень (главную тему), или разваливаться на куст несвязанных друг с другом тем.

Такое представление информации формируется автоматически, и в отличие от традиционных информационно-поисковых и экспертных систем, без привлечения априорной информации.

Семантическая сеть и тематическое древо представляются для исследования пользователю TextAnalyst, который за каждым понятием и связью видит смысл, заложенный в его модели мира. При этом пользователь избавляется от необходимости формирования модели текста - за него это делает TextAnalyst. Остается только познакомиться с этой моделью. При этом к вашим услугам ассоциативное обращение к информации: из любого понятия сети можно обратиться к фразам текста, его содержащим, а из фразы - непосредственно в текст, чтобы увидеть ее контекст. И далее снова - из текста перейти к понятиям семантической сети...

Завершается анализ автоматическим реферированием. При этом из текста отбирается множество фраз, содержащих наиболее весомые понятия и самые сильные связи. Именно они несут максимальную информацию о тексте. Фразы представляются в порядке их появления в исходном тексте. Конечно, полученный реферат требует некоторой шлифовки: фразы надо подгонять друг к другу, но это гораздо комфортнее, нежели самому вылавливать те же фразы в тексте.

Восстановите опять ситуацию со сдачей экзамена, с которой мы начали. Только сдавать вам теперь придется спустя несколько минут! Тут не до правого полушария… И тем не менее, c TextAnalyst вы снова сможете это сделать: внимательно просматриваете состав тематического древа или семантической сети, связи понятий между собой, фразы, соответствующие наиболее значимым понятиям, а при желании можете заглянуть и в текст, чтобы понять контекст. Так лихорадочно листает учебник студент. Но у него в руках немой учебник. Какое слово в нем самое главное?... И нет у него TextAnalyst’а!