компания Ай-Теко
www.i-teco.ru / Система извлечения знаний из текстов «Аналитический курьер»
Главная
Компания
Решения
Продукты и технологии
Проекты
Услуги
Центры компетенции
Новости

Система извлечения знаний из документов «Аналитический курьер»



Год назад аналитики IDC прогнозировали, что новая доминирующая платформа ИТ-отрасли, построенная на технологиях мобильных устройств, облачных сервисов, социальных сетей и аналитики «больших данных», начнет превращаться в магистральное направление. Сегодня расходы на эти технологии растут примерно на 18% в год, ожидается, что они принесут не менее 80% общего роста ИТ-расходов в период до 2020 г.

Развитие аналитики происходит в направлении анализа данных в реальном времени с целью прогнозирования будущих событий. Происходит переход от анализа простых, структурированных данных, анализируемых отдельными пользователями, — к анализу сложной, часто неструктурированной информации (текст, видео и т. д.), получаемой от множества систем (Gartner).

На протяжении ряда лет компания «Ай-Теко» развивает технологии извлечения знаний и аналитической обработки текстовой информации. Компания является правообладателем системы извлечения знаний из документов «Аналитический Курьер». Ее возможности выходят далеко за рамки распределенного многоязычного поиска.


В версии системы 2012 года реализованы следующие функции:

  • поиск, мониторинг и доставка сообщений с  сайтов Интернет и социальных медиа. Обработка социальных медиа производится оригинальными программами. В настоящей версии возможно получение сообщений из следующих источников:
    • Yandex.Blogs,
    • социальные сети ВКонтакте, Facebook, Google+, …
    • блоги LiveJournal, Blogspot, LiveInternet, clubs.ya.ru, Blogger.com, …
    • микроблоги Twitter, …
    • форумы на платформах phpBB, … (подробнее см. страницу http://www.i-teco.ru/goals.html);
  • извлечение различных типов сущностей (персоны, компании, даты, бренды, …) и отношений между ними (онтологии);
  • многоязычный семантический поиск с использованием современных тезаурусов русского и других языков;
  • обработка запросов на естественном языке и в форме логических высказываний;
  • кросс-языковой поиск (автоматический перевод запроса на указанные языки);
  • персонализированный поиск (ранжирование документов поисковой выдачи с учетом истории запросов пользователя);
  • автоматическое создание аннотаций отдельных документов, тематических рефератов коллекций документов, рефератов цепочек обсуждений различных тем в блогах и форумах (наиболее энергетические высказывания авторов сообщений);
  • тематическое рубрицирование документов;
  • определение тональной окраски документов и отдельных объектов;
  • определение субъектов, объектов, тематики и тональности мнений, высказываний;
  • автоматическое выделение тематических групп внутри поисковой выдачи документов (кластерный анализ публикаций);
  • выявление ключевых тем документа, облака тегов коллекции документов;
  • построение взаимосвязей тем коллекции документов в виде семантической сети;
  • построение дайджеста (обзора высказываний) по объекту или теме документа;
  • многомерный частотный анализ тем, высказываний, сообщений;
  • исследование динамики развития проблем, представленных в сообщениях;
  • ведение персональных библиотек пользователей и поиск в них;
  • оповещение пользователей о доставке новых профильных документов и сообщений;
  • выпуск аналитических отчетов по расписанию;
  • администрирование процесса выделения знаний и автоматической доставки новой информации.


Архитектура программного комплекса

Система «Аналитический Курьер» реализована на платформе Microsoft .NET, имеет многослойную архитектуру взаимодействующих с «тонким клиентом» сервисов и предоставляет пользователям веб-интерфейс. Такая архитектура предполагает, что система состоит из относительно независимых звеньев: сервера данных, сервера приложений, веб-сервера и самих приложений. Система может функционировать в современных центрах обработки данных, предоставляющих услуги «облачных вычислений»;

Система использует несколько вариантов хранилища документов в зависимости от его объема, планируемого количества активных пользователей и требуемого времени реакции системы. В каждом из вариантов предусмотрено автоматическое горизонтальное и вертикальное масштабирование линейки серверов. Возможно также особо надежное «горячее» резервирование и восстановление документов;

Для особо критичных приложений реализована архитектура системы с компонентами, работающими в разделенных сетях. Например, веб-роботы производят мониторинг Интернет, результаты которого переносятся во внутреннюю сеть и автоматически вводятся в хранилище системы, где доступны все фонды для совместной обработки информации разной степени открытости.


Конкурентные преимущества

«Аналитический Курьер» является инструментом аналитической разведки, который позволяет быстро погружаться в новые предметные области. Уникальной особенностью системы является совместное применение различных методов извлечения знаний в одном сценарии, например, сначала производится кластерный анализ подборки сообщений, затем строится семантическая сеть тем для выбранного кластера, после чего делается частотный анализ временного ряда сообщений по взаимосвязанным проблемам и др.

В системе реализованы уникальные по качеству методы анализа мнений и определения тональности публикаций.

Широкий спектр функциональных возможностей системы обеспечили ее внедрение в организациях, обрабатывающих большие объемы документов и сообщений из различных источников.

К достоинствам системы относятся высокая степень автоматизации и адаптивности методов извлечения знаний, а также минимальная стоимость ее эксплуатации по сравнению с аналогами.


Примеры экранных форм системы

Кластерная карта новостной ленты 14 декабря 2011 года по теме “Выборы”.

Пример семантической карты взаимосвязей наиболее обсуждаемых тем в сообщениях СМИ за декабрь 2011 года по запросу “Выборы”:

 

Примеры использования

  • Аналитические подразделения и службы безопасности банка:
    анализ кредитоспособности клиента, выявление объектов, осуществляющие подозрительные платежи, выявление случаев распространения конфиденциальной информации и т.д.

  • Страховые компании:
    обнаружение мошенников, неоднократно причинивших ущерб, недобросовестных объектов-страхователей, их связей, а также закономерностей событий (по месту и времени), происходящих с клиентами страховой компании.

  • Аналитические подразделения производственных компаний:
    анализ наиболее частых неполадок; анализ реакции рынка на качество товаров, помощь в принятии решений.

  • Подразделения маркетинга предприятий (анализ рынка лекарств, изделий):
    обеспечение лиц, принимающих управленческие решения, информацией для выработки оптимального варианта решения стоящей проблемы.

  • Специальные службы, правоохранительные органы:
    мониторинг событий, объектов, проблем и анализ взаимосвязей исследуемых сущностей.


Инструменты

Динамическая онтология поисковой выдачи документов

Для пользователей поисковых систем весьма актуальна задача выделения «своих» документов среди всех документов в поисковой выдаче. Для этой цели в системе извлечения знаний из документов «Аналитический курьер» (http://www.i-teco.ru/solutions.html) уже используются методы кластерного и семантического анализа. В поисковых серверах компании Vivisimo реализована функция построения тематического дерева (онтологии), в каждом из узлов которого расположена группа тематически однородных документов (кластеров). Для повышения достоверности кластерного анализа мы использовали метод иерархического бикластерного анализа (объектно-признаковый, концептуальный кластерный анализ). Преимуществом метода является наличие всех тем кластера в каждом документе.

Пример использования онтологии

Ниже представлен результат обработки системой «Аналитический курьер» поискового запроса “Выборы” по сообщениям СМИ за декабрь 2011 года. В левой части экрана пользователь может просматривать дерево кластеров, выбрать нужный, после чего в правой части система покажет входящие в него документы.


Лингвистический анализ текста

Разработан программный компонент, выполняющий следующие функции:

  • лексический анализ (разбиение текста на предложения и лексемы),
  • морфологический анализ (определение морфологических характеристик слов, таких, как: часть речи, род, число, падеж и т.д., и синтез словоизменений),
  • предсинтаксический анализ (выделение групп лексем - синтагм и др.),
  • синтаксический анализ (построение дерева разбора предложения и определение синтаксических ролей слов в предложении: подлежащее, сказуемое, дополнение, обстоятельство и т.д.),
  • постсинтаксический анализ (выделение типизированных сущностей, …),
  • орфографический корректор ошибок и вариативной лексики в тексте.

Семантический анализ текста

Последующий семантический анализ текста производит типизацию сущностей (физические, юридические лица; одушевленные предметы; даты; регионы и многие другие типы), а также их нормализацию. Для идентификации ссылочно представленных сущностей (местоимения) используются различные эвристические методы:

  • Разрешение анафорических ссылок. Пример. Если в тексте присутствуют местоимения («он», «она» и т.д.), то производится идентификация объекта – источника ссылки.
  • Разрешение аббревиатур. Пример. Если в тексте встретилась аббревиатура в качестве названия объекта, то производится идентификация полного названия объекта – источника аббревиатуры. Например, если в тексте встретилась — «НЛМК», то просмотрев текст и найдя в нем «Новолипецкий меткомбинат» система сгенерирует синоним для НЛМК.
  • Идентификация географических объектов. Пример. Если в тексте встретился географический объект с названием, например, «деревня Иваново», то производится поиск других географических объектов в тексте, например, «Московская область», что позволит связать найденную деревню «Иваново» именно с той в справочнике стран и регионов, которая находится в Московской области.
  • Поиск наиболее полного наименования персоны. Пример. Если в тексте встретилась персона «Д. Медведев», а по тексту выше есть персона «президент России Д. Медведев», то система возьмет это последнее наименование, как наиболее полное в данном тексте.

Выделение многих типов сущностей (адреса, телефоны и т.д.) производится с помощью расширяемых (в том числе и пользователем) правил.

Тезаурус русского языка

Завершена разработка нового современного тезауруса русского языка, совместимого со стандартом WordNet 3.0. Он имеет уникальный объем, в его составе более 160 тысяч групп синонимов, 700 тысяч связей между ними, 170 тысяч лексем и 13 типов семантических отношений.

Создан новый WEB-сервис для управления тезаурусом. Он может быть использован как в системах «Аналитический курьер» и “X-Files”, так и в других. Его особенностью является возможность одновременной работы, как с общим, так и с тематическими тезаурусами заказчика. В поставку программного компонента входит инструмент для создания нового или редактирования существующего тезауруса.

 

Демонстрация работы компонентов системы

Компонент определения тональности

Определение эмоций в текстах, так называемый сантимент-анализ (от англ. sentiment — чувство; мнение, настроение) или анализ тональности, используют, когда нужно оценить что-то, определить эмоциональное отношение к чему-то или кому-то, например, сравнить новые продукты, бренды известных компаний, оценить отношения людей к событиям в политической жизни страны и т.п.

Испытать компонент на вашем примере и подробнее ознакомиться с ним можно здесь.

Компонент анализа высказываний

Анализ высказываний (мнений) позволяет выделять из текста мнения упомянутых в нем субъектов, выраженные в виде прямой или косвенной речи, а также цитирования. Анализ мнений может использоваться для извлечения из текстов высказываний некоторых субъектов о заданных или произвольных объектах, высказываний всех упомянутых субъектов о некотором объекте и т.п. Если в высказывании упоминаются какие-либо объекты, то относительно них определяется тональность высказывания.

Подробнее ознакомиться с работой компонента
и протестировать его можно здесь
.

Компонент автоматической коррекции орфографических ошибок

Для того чтобы лингвистические сервисы корректно работали с текстом, необходимо не только исправлять орфографические ошибки, но и корректировать вариативность современной интернет-лексики. Компонент выполняет высокоточную автоматическую коррекцию неправильного написания слов русского языка.

Подробнее ознакомиться с работой компонента
и протестировать его можно здесь
.


Динамика развития функций системы «Аналитический курьер»


Заключение

Патентованный продукт компании «Ай-Теко» «Аналитический курьер» является современным инструментом аналитической разведки, обеспечивая пользователям качественно новые конкурентные преимущества и динамичное развитие.

Отправить запрос на получение информации: ak@i-teco.ru

Родственные продукты — X-Files.

«Ай-Теко» подтвердила наивысший партнерский статус VMware
Компания «Ай-Теко», ведущий российский системный интегратор, в очередной раз стала обладателем наивысшего партнерского статуса VMware Premier Partner по программе поставщиков услуг VMware Solution Provider.
подробнее
«Ай-Теко» - партнер и соорганизатор семинара по организации ИТ-процессов ГМК «Норильский никель»
Компания «Ай-Теко» выступила партнером и соорганизатором семинара «Организация общекорпоративных ИТ-процессов» ГМК «Норильский никель», пост-релиз о котором выпустила пресс-служба компании.
подробнее



Компания
Наша цель
Партнеры
Лицензии и сертификаты
Дипломы и награды
Новости
Контакты, схема проезда
Публикации
Социальные программы
Фирменный стиль
Предложения о сотрудничестве
Предложения, лоты
Вакансии
Услуги
Консалтинг
Системная интеграция
Системы автоматизации и обработки данных
Сервис, техническая поддержка
Центры компетенции
Документооборот в организации
Настройка CЭД
Внедрение электронного документооборота
Электронный документооборот
Электронный архив документов
Выполненные проекты
Архив проектов
 
Продукты и технологии
Аналитический курьер
X-Files
Спектрум
СЭД и электронный архив
«Облачные» решения и услуги

SaaS сервисы

RFID-технологии: Инвентаризация и учет основных средств

Решения
Консалтинг
Системная интеграция
Системы автоматизации и обработки данных
Сервис, техническая поддержка
Сети и телекоммуникации
Программные решения
Финансовые учреждения
Карта сайта E-mail
Все работы ведутся в соответствии с международным стандартом качества QMS ISO 9001:2000