Microsoft научилась извлекать знания из Сети
Microsoft научилась извлекать знания из Сетитекст: Анатолий АлизарТысячи компьютерных исследователей, которые работают на крупнейшие в мире корпорации, мучаются над одной и той же проблемой: каким будет следующий этап в эволюции систем поиска в интернете? Какую форму должен принять искусственный интеллект? Существующие поисковые сайты уже проиндексировали в интернете всё, что могли. Google уже довел до совершенства свою систему ранжирования страниц. Но, по мнению многих экспертов, настоящая революция в области интернет-поиска еще впереди. В этом соревновании победителем станет та система, которая сможет давать прямые ответы на прямые вопросы. Ясно и четко. Эрик Брилл, исследователь из Microsoft, считает, что его фирма будет первой, кто разработает такую систему. Об этом пишет журнал The Economist. Д-р Брилл уже разработал первую версию этой системы, которая в будущем должна совершить революцию на рынке. Программа называется «Ask MSR» и она способна не только проводить поиск в сети, но также извлекать с найденных веб-страниц полезную информацию, текст с фактами, которые используются для ответа на вопрос пользователя. Ответ представляет собой одно слово или одно предложение. Например, если задать системе вопрос «Когда родилась Мерлин Монро», то алгоритмы сначала проанализируют структуру вопроса, определят подлежащее (объект поиска), преобразуют вопрос в поисковый запрос, отправят его на обычный поисковик, получат результаты, а потом поищут эти слова среди найденных страниц и выдадут ответ. Как говорит д-р Брилл, поскольку искомая фраза встречается нечасто, то ошибиться весьма трудно. Научные работы Эрика Брилла выложены на сайте исследовательской группы, которую он возглавляет в подразделении Microsoft Research. Разработанная им система «Ask MSR» описывается в работе «Автоматические ответы на вопросы: по ту сторону от фактоидов» («Automatic Question Answering: Beyond the Factoid»), написанной в соавторстве с Руди Сорикутом (Radu Soricut). Там подробно описываются алгоритмы работы этой системы. Так, оказывается, что в 75% случаев правильный ответ на вопрос пользователя имеется среди первых трех (по релевантности) результатов поиска. Предусмотрен фильтр против неправильных ответов. Если нажать на ответ, то появиться список различных вариантов ответа, которые встречаются на разных страницах, с указанием количества таких страниц. Хотя в данный момент система «Ask MSR» находится в стадии прототипа, но уже есть планы по ее выводу на рынок под названием AnswerBot. Тем временем д-р Брилл задумал еще более сложную систему с зачатками искусственного интеллекта, которая могла бы давать развернутые варианты ответа (до 50 слов) на вопросы типа «Какие есть средства от похмелья?». Тут система действует по схожему сценарию, но алгоритмы уже более сложные, чем при поиске односложных ответов. Подобные модели уже реализованы в системах проверки грамматики, а также в системах распознавания речи. Например, при проверке грамматики производится статистический анализ миллионов неправильно написанных слов и сравнение их с верными словами. На основе собранной статистики делается предположение о замене какого-то конкретного неправильно написанного слова. Так же и система д-ра Брилла анализирует сотни тысяч веб-страниц с часто задаваемыми вопросами (FAQ), после чего уже способна моделировать структуру ответа на любой вопрос. Эта структура используется для генерации поисковых запросов, после чего составляется итоговый вариант ответа, который и выдается пользователю. Существующий прототип программы обеспечивает корректные ответы на 40% вопросов. Не идеально, но и не плохо. http://www.webplanet.ru/news/internet/2004/9/24/knoledge.html