Год назад аналитики IDC прогнозировали, что новая доминирующая платформа ИТ-отрасли, построенная на технологиях мобильных устройств, облачных сервисов, социальных сетей и аналитики «больших данных», начнет превращаться в магистральное направление. Сегодня расходы на эти технологии растут примерно на 18% в год, ожидается, что они принесут не менее 80% общего роста ИТ-расходов в период до 2020 г.
Развитие аналитики происходит в направлении анализа данных в реальном времени с целью прогнозирования будущих событий. Происходит переход от анализа простых, структурированных данных, анализируемых отдельными пользователями, — к анализу сложной, часто неструктурированной информации (текст, видео и т. д.), получаемой от множества систем (Gartner).
На протяжении ряда лет компания «Ай-Теко» развивает технологии извлечения знаний и аналитической обработки текстовой информации. Компания является правообладателем системы извлечения знаний из документов «Аналитический Курьер». Ее возможности выходят далеко за рамки распределенного многоязычного поиска.
В версии системы 2012 года реализованы следующие функции:
- поиск, мониторинг и доставка сообщений с сайтов Интернет и социальных медиа. Обработка социальных медиа производится оригинальными программами. В настоящей версии возможно получение сообщений из следующих источников:
- Yandex.Blogs,
- социальные сети ВКонтакте, Facebook, Google+, …
- блоги LiveJournal, Blogspot, LiveInternet, clubs.ya.ru, Blogger.com, …
- микроблоги Twitter, …
- форумы на платформах phpBB, … (подробнее см. страницу http://www.i-teco.ru/goals.html);
- извлечение различных типов сущностей (персоны, компании, даты, бренды, …) и отношений между ними (онтологии);
- многоязычный семантический поиск с использованием современных тезаурусов русского и других языков;
- обработка запросов на естественном языке и в форме логических высказываний;
- кросс-языковой поиск (автоматический перевод запроса на указанные языки);
- персонализированный поиск (ранжирование документов поисковой выдачи с учетом истории запросов пользователя);
- автоматическое создание аннотаций отдельных документов, тематических рефератов коллекций документов, рефератов цепочек обсуждений различных тем в блогах и форумах (наиболее энергетические высказывания авторов сообщений);
- тематическое рубрицирование документов;
- определение тональной окраски документов и отдельных объектов;
- определение субъектов, объектов, тематики и тональности мнений, высказываний;
- автоматическое выделение тематических групп внутри поисковой выдачи документов (кластерный анализ публикаций);
- выявление ключевых тем документа, облака тегов коллекции документов;
- построение взаимосвязей тем коллекции документов в виде семантической сети;
- построение дайджеста (обзора высказываний) по объекту или теме документа;
- многомерный частотный анализ тем, высказываний, сообщений;
- исследование динамики развития проблем, представленных в сообщениях;
- ведение персональных библиотек пользователей и поиск в них;
- оповещение пользователей о доставке новых профильных документов и сообщений;
- выпуск аналитических отчетов по расписанию;
- администрирование процесса выделения знаний и автоматической доставки новой информации.
Архитектура программного комплекса
Система «Аналитический Курьер» реализована на платформе Microsoft .NET, имеет многослойную архитектуру взаимодействующих с «тонким клиентом» сервисов и предоставляет пользователям веб-интерфейс. Такая архитектура предполагает, что система состоит из относительно независимых звеньев: сервера данных, сервера приложений, веб-сервера и самих приложений. Система может функционировать в современных центрах обработки данных, предоставляющих услуги «облачных вычислений»;
Система использует несколько вариантов хранилища документов в зависимости от его объема, планируемого количества активных пользователей и требуемого времени реакции системы. В каждом из вариантов предусмотрено автоматическое горизонтальное и вертикальное масштабирование линейки серверов. Возможно также особо надежное «горячее» резервирование и восстановление документов;
Для особо критичных приложений реализована архитектура системы с компонентами, работающими в разделенных сетях. Например, веб-роботы производят мониторинг Интернет, результаты которого переносятся во внутреннюю сеть и автоматически вводятся в хранилище системы, где доступны все фонды для совместной обработки информации разной степени открытости.
Конкурентные преимущества
«Аналитический Курьер» является инструментом аналитической разведки, который позволяет быстро погружаться в новые предметные области. Уникальной особенностью системы является совместное применение различных методов извлечения знаний в одном сценарии, например, сначала производится кластерный анализ подборки сообщений, затем строится семантическая сеть тем для выбранного кластера, после чего делается частотный анализ временного ряда сообщений по взаимосвязанным проблемам и др.
В системе реализованы уникальные по качеству методы анализа мнений и определения тональности публикаций.
Широкий спектр функциональных возможностей системы обеспечили ее внедрение в организациях, обрабатывающих большие объемы документов и сообщений из различных источников.
К достоинствам системы относятся высокая степень автоматизации и адаптивности методов извлечения знаний, а также минимальная стоимость ее эксплуатации по сравнению с аналогами.
Примеры экранных форм системы
Кластерная карта новостной ленты 14 декабря 2011 года по теме “Выборы”.

Пример семантической карты взаимосвязей наиболее обсуждаемых тем в сообщениях СМИ за декабрь 2011 года по запросу “Выборы”:

Примеры использования
-
Аналитические подразделения и службы безопасности банка:
анализ кредитоспособности клиента, выявление объектов, осуществляющие подозрительные платежи, выявление случаев распространения конфиденциальной информации и т.д.
-
Страховые компании:
обнаружение мошенников, неоднократно причинивших ущерб, недобросовестных объектов-страхователей, их связей, а также закономерностей событий (по месту и времени), происходящих с клиентами страховой компании.
-
Аналитические подразделения производственных компаний:
анализ наиболее частых неполадок; анализ реакции рынка на качество товаров, помощь в принятии решений.
-
Подразделения маркетинга предприятий (анализ рынка лекарств, изделий):
обеспечение лиц, принимающих управленческие решения, информацией для выработки оптимального варианта решения стоящей проблемы.
-
Специальные службы, правоохранительные органы:
мониторинг событий, объектов, проблем и анализ взаимосвязей исследуемых сущностей.
Инструменты
Динамическая онтология поисковой выдачи документов
Для пользователей поисковых систем весьма актуальна задача выделения «своих» документов среди всех документов в поисковой выдаче. Для этой цели в системе извлечения знаний из документов «Аналитический курьер» (http://www.i-teco.ru/solutions.html) уже используются методы кластерного и семантического анализа. В поисковых серверах компании Vivisimo реализована функция построения тематического дерева (онтологии), в каждом из узлов которого расположена группа тематически однородных документов (кластеров). Для повышения достоверности кластерного анализа мы использовали метод иерархического бикластерного анализа (объектно-признаковый, концептуальный кластерный анализ). Преимуществом метода является наличие всех тем кластера в каждом документе.
Пример использования онтологии
Ниже представлен результат обработки системой «Аналитический курьер» поискового запроса “Выборы” по сообщениям СМИ за декабрь 2011 года. В левой части экрана пользователь может просматривать дерево кластеров, выбрать нужный, после чего в правой части система покажет входящие в него документы.

Лингвистический анализ текста
Разработан программный компонент, выполняющий следующие функции:
- лексический анализ (разбиение текста на предложения и лексемы),
- морфологический анализ (определение морфологических характеристик слов, таких, как: часть речи, род, число, падеж и т.д., и синтез словоизменений),
- предсинтаксический анализ (выделение групп лексем - синтагм и др.),
- синтаксический анализ (построение дерева разбора предложения и определение синтаксических ролей слов в предложении: подлежащее, сказуемое, дополнение, обстоятельство и т.д.),
- постсинтаксический анализ (выделение типизированных сущностей, …),
- орфографический корректор ошибок и вариативной лексики в тексте.
Семантический анализ текста
Последующий семантический анализ текста производит типизацию сущностей (физические, юридические лица; одушевленные предметы; даты; регионы и многие другие типы), а также их нормализацию. Для идентификации ссылочно представленных сущностей (местоимения) используются различные эвристические методы:
- Разрешение анафорических ссылок. Пример. Если в тексте присутствуют местоимения («он», «она» и т.д.), то производится идентификация объекта – источника ссылки.
- Разрешение аббревиатур. Пример. Если в тексте встретилась аббревиатура в качестве названия объекта, то производится идентификация полного названия объекта – источника аббревиатуры. Например, если в тексте встретилась — «НЛМК», то просмотрев текст и найдя в нем «Новолипецкий меткомбинат» система сгенерирует синоним для НЛМК.
- Идентификация географических объектов. Пример. Если в тексте встретился географический объект с названием, например, «деревня Иваново», то производится поиск других географических объектов в тексте, например, «Московская область», что позволит связать найденную деревню «Иваново» именно с той в справочнике стран и регионов, которая находится в Московской области.
- Поиск наиболее полного наименования персоны. Пример. Если в тексте встретилась персона «Д. Медведев», а по тексту выше есть персона «президент России Д. Медведев», то система возьмет это последнее наименование, как наиболее полное в данном тексте.
Выделение многих типов сущностей (адреса, телефоны и т.д.) производится с помощью расширяемых (в том числе и пользователем) правил.
Тезаурус русского языка
Завершена разработка нового современного тезауруса русского языка, совместимого со стандартом WordNet 3.0. Он имеет уникальный объем, в его составе более 160 тысяч групп синонимов, 700 тысяч связей между ними, 170 тысяч лексем и 13 типов семантических отношений.
Создан новый WEB-сервис для управления тезаурусом. Он может быть использован как в системах «Аналитический курьер» и “X-Files”, так и в других. Его особенностью является возможность одновременной работы, как с общим, так и с тематическими тезаурусами заказчика. В поставку программного компонента входит инструмент для создания нового или редактирования существующего тезауруса.
Демонстрация работы компонентов системы
Компонент определения тональности
Определение эмоций в текстах, так называемый сантимент-анализ (от англ. sentiment — чувство; мнение, настроение) или анализ тональности, используют, когда нужно оценить что-то, определить эмоциональное отношение к чему-то или кому-то, например, сравнить новые продукты, бренды известных компаний, оценить отношения людей к событиям в политической жизни страны и т.п.
 |
Испытать компонент на вашем примере и подробнее ознакомиться с ним можно здесь. |
Компонент анализа высказываний
Анализ высказываний (мнений) позволяет выделять из текста мнения упомянутых в нем субъектов, выраженные в виде прямой или косвенной речи, а также цитирования. Анализ мнений может использоваться для извлечения из текстов высказываний некоторых субъектов о заданных или произвольных объектах, высказываний всех упомянутых субъектов о некотором объекте и т.п. Если в высказывании упоминаются какие-либо объекты, то относительно них определяется тональность высказывания.
 |
Подробнее ознакомиться с работой компонента
и протестировать его можно здесь. |
Компонент автоматической коррекции орфографических ошибок
Для того чтобы лингвистические сервисы корректно работали с текстом, необходимо не только исправлять орфографические ошибки, но и корректировать вариативность современной интернет-лексики. Компонент выполняет высокоточную автоматическую коррекцию неправильного написания слов русского языка.
 |
Подробнее ознакомиться с работой компонента
и протестировать его можно здесь. |
Динамика развития функций системы «Аналитический курьер»

Заключение
Патентованный продукт компании «Ай-Теко» «Аналитический курьер» является современным инструментом аналитической разведки, обеспечивая пользователям качественно новые конкурентные преимущества и динамичное развитие.
Отправить запрос на получение информации: ak@i-teco.ru
Родственные продукты — X-Files.