Искать и не сдаваться: Кто и зачем делает новые поисковики

Все блоги / Про интернет 19 марта 2014 488

Смотрите пост в полноценной красивой верстке

Когда в 2008 году Гэбриэл Уайнберг придумал DDG, многие вокруг подумали, что он сошёл с ума — мол, кому нужен ещё один поисковик? Но он сделал ставку на новый подход: разработал алгоритм Instant Answers, который позволял собирать нужную информацию со сторонних ресурсов и показывать её в виде готового ответа на вопрос пользователя. Не прошло и полугода, как в Google появилась аналогичная функция, преимущество было утеряно. Тогда на первое место вышла идея об анонимности и защите личных данных, что не осталось незамеченным. В 2012 году компания получила $12 млн инвестиций от небезызвестного Фреда Уилсона из фонда Union Square Ventures, который заметил, что считает сайт способным составить конкуренцию Google: «Мы инвестировали в него, потому что нам нужен конфиденциальный поисковик. Мы сделали это для людей, сидящих на Reddit и читающих Hacker News, для всех интернет-анархистов». А уже в следующем году оказалось, что безопасность информации интересует не только интернет-анархистов.

Мир обратил внимание на DuckDuckGo в июне 2013 года, на волне произошедшего со Сноуденом. Количество ежедневных поисковых запросов за месяц возросло в три раза и с тех пор продолжало увеличиваться. Дело в том, что DuckDuckGo, в отличие от Google и Yandex, поставил во главу угла конфиденциальность личных данных, отказ от записи, хранения и использования какой-либо информации о пользователях. DDG не хранит IP-адреса, не ведёт лог ваших поисковых запросов, просмотра страниц и кликов по рекламным блокам. Каждый раз, когда вы вбиваете новый запрос в DDG, для поисковика вы — новый человек. Благодаря этому на выдачу никаким образом не влияет эффект «пузыря фильтров». Так, например, Google использует 57 критериев при оценке того, насколько тот или иной контент будет вам интересен, и в соответствии с этим фильтрует результаты выдачи и таргетирует рекламу. Условно говоря, в Google ответ на один и тот же вопрос для каждого пользователя звучит по-разному, а в DDG — максимально объективно.

Wolfram Alpha

WolframAlpha — уникальный по амбициозности проект, над которым его создатель, Стивен Вольфрам, работал в течение 25 лет. По сравнению с его ответами выдача Google кажется удивительно неэффективной, бесформенной горой информации. WA «понимает» естественный язык, а точнее — считывает логику отношений между словами в запросе, а не просто отмечает отдельные слова и их последовательность, как Google. WA использует информацию не из открытых источников, а из собственной обширной базы, которая постоянно пополняется на основе запросов пользователей. Основу этой базы составляют точные науки, математические, физические, астрономические, биологические данные, различного рода статистика.

Эти данные не статичны, WA может с ними работать, сопоставлять и анализировать. Например, можно спросить, где именно сейчас находится конкретная космическая станция, какая была погода в день, когда вы родились, какую долю рынка спортивных товаров занимает Nike в Великобритании, какая из серий «Звёздных войн» стала наиболее успешной. Сам Стивен Вольфрам считает, что «оцифровать» можно весь мир, так что WA в скором времени будет знать ответы на все вопросы. Но эти заявления вызывают сомнения у других учёных. К мнению Вольфрама, вообще, принято относиться с осторожностью. После того как он издал книгу
A new Kind of Science
, за ним закрепилась репутация безумца и эгоманьяка. Есть и те, кто называют его гением, замысел которого не понятен обычным смертным. Основная идея книги заключалась в том, что сложность любой системы — мнимая и на самом деле всё на свете есть лишь производные формы очень простого алгоритма. «Вселенная — это лишь код длиной в 5 строчек», — однажды сказал он.

Samuru

Брэндон Виртц долгое время работал SEO-менеджером и отлично знал то, как можно «обыграть» Google. В какой-то момент он заметил, что выдача поисковика становится всё менее качественной, так как в первую десятку результатов всё чаще попадают ссылки не на полезные ресурсы, а на сайты, профессионально обработанные такими же, как он, SEO-шниками. Виртц решил встать по другую сторону баррикад и создать более эффективный, защищённый от спамеров, поисковик. В отличие от Google, Samuru не придаёт большого значения количеству обратных ссылок. Его технология Liquid Helium преобразует содержание страниц в математические значения и алгоритмы для их последующего анализа и использования. Liquid Helium считывает информацию о структуре текста, использовании различных частей речи, грамматике, стиле, пунктуации и других показателях, на основе которых можно определить, насколько текст релевантен запросу и был ли он специально изменён под требования поиска.

Главная задача разработчиков Samuru — сделать так, чтобы его было невозможно перехитрить. Поисковик оценивает текст по 100 признакам качества. Кроме того, он учитывает и другие факторы, например срочность и тип запроса. Например, если вы ищете информацию на тему спорта и развлечений, поисковик понимает, что вас в первую очередь интересуют недавние или предстоящие события, а не то, что происходило несколько лет назад. Если вбить в Google запрос «Как делать капкейки», он покажет все страницы с этими словами, в том числе главную страницу пекарни, на которой написано «Мы знаем, как делать лучшие капкейки». Samuru же понимает, что запрос «как делать капкейки» — это поиск инструкции, и ищет тексты, которые, во-первых, содержат данные слова и, во-вторых, написаны в форме инструкций. Также Samuru может определить, является ли автор статьи экспертом в данной области, основываясь на том, насколько часто он пишет на смежные темы. Основной риск для Samuru — в том, что Google может легко скопировать эти нововведения.

ThisPlusThat

В августе прошлого года в блоге
Google Open Source Blog
появилось сообщение о новом Open Source инструменте word2vek. При помощи машинного обучения без учителя (
unsupervised machine learning
) на основе нейронных сетей инструмент применяет «распределённые представления» текстовых данных для обнаружения связей между концептами. Лицензия исходного кода (Apache License 2.0) позволяет встраивать его в коммерческие приложения. Так, на его основе астрофизик Кристофер Муди всего за три недели создал новый поисковик — ThisPlusThat. Основная идея заключается в том, чтобы представлять слова не как не связанные друг с другом единицы, а в виде векторов, которые задают значение слова, опираясь на контекст. Грубо говоря, одно направление показывает, что мужчина, женщина, король и королева относятся к категории «люди», другие векторы будут связаны с понятиями «пол», «члены королевской семьи» и т.д.

Муди «натренировал» алгоритм, используя базу знаний IMDB, CrunchBase, а затем и всей Wikipedia, так что сейчас поисковик «понимает» как смысл обычных слов, так и концептов. Пользоваться поисковиком можно, отсекая или добавляя необходимые векторы к основному слову. Например, если задать «Король – Мужчина + Женщина», результатом будет «Королева». Более тонкий запрос «The Matrix – Thoughtful + Dumb» в результате покажет фильм Blade 2. Безусловно, векторный подход не обеспечивает безупречной точности. Так, например, если задать «Майкл Джордан – баскетбол + гольф», ThisPlusThat не выдаст имя Тайгера Вудса в первой строке, а покажет Мэджика Джонсона и Шакила ОНила, видимо отобрав их по принципу «звёзды баскетбола, которые успешно занялись бизнесом после окончания спортивной карьеры». Однако в целом идея о «понимании» смысла слова через определение семантических полей, частью которых оно является, кажется весьма перспективной.

Blippex

Blippex — совсем юный поисковик, качество которого напрямую зависит от количества пользователей. Его создатели — немцы Макс Коссац и Джеральд Баек — отталкивались от того, что, если они попробуют конкурировать с Google, имитируя его технологию поиска и индексирования страниц, они обязательно проиграют. Поэтому решили придумать «Wikipedia для поиска». Пользователи Blippex должны установить специальное расширение для браузера, которое будет анонимно отправлять информацию о посещённых ими страницах, тем самым помогая строить поисковой индекс и влиять на оценку важности той или иной информации. Придуманный Коссацом и Баеком алгоритм DwellRank (названный по аналогии с гугловским PageRank), оценивает сайты по количеству времени, проведённого на них пользователями, а также по общему количеству посетителей, длине контента и популярности в целом.

О том, что количество времени, проведённого на странице, действительно является показателем качества контента, известно
давно
. Хорошо то, что данные, собираемые Blippex, полностью анонимны — никакой персональной информации о пользователях поисковик не собирает. Плохо то, что качество выдачи напрямую зависит от того, сколько людей установили расширение для браузера, так что пока некоторые результаты выглядят странными. Так как русских пользователей у Blippexa почти нет, то и русскоязычные сайты поисковиком практически никак не индексированы. Однако основатели не унывают, считая, что это естественная стадия любого краудсорсингового проекта, — в Wikipedia вот тоже когда-то почти не было информации.

Читать на эту тему:

	Google заработал на рекламе больше, чем вся американская пресса
	«Яндекс» вошёл в четвёрку популярнейших поисковиков мира
	Трудно быть богом: Самые абсурдные иски к Google

]]>

Источник:HOPES AND FEAR

Оцените публикацию

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/blogssmartz

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями

предыдущая статья

следующая статья

Искать и не сдаваться: Кто и зачем делает новые поисковики

Читать на эту тему:

Google заработал на рекламе больше, чем вся американская пресса

«Яндекс» вошёл в четвёрку популярнейших поисковиков мира

Трудно быть богом: Самые абсурдные иски к Google

💬 Комментарии

💡 Хотите обсудить материал?

Похожие публикации

Меню сайта

ТОП-10

Архив публикаций

Авторизация

Искать и не сдаваться: Кто и зачем делает новые поисковики

Читать на эту тему:

Google заработал на рекламе больше, чем вся американская пресса

«Яндекс» вошёл в четвёрку популярнейших поисковиков мира

Трудно быть богом: Самые абсурдные иски к Google

💬 Комментарии

💡 Хотите обсудить материал?

Похожие публикации

Поиск Google в Китае потерял и второе место?

Онлайн-шопинг стал еще проще. На доске объявлений Localmart.ru появилась функция автодополнения в поиске

О стартапах и людях

TimePad привлек $1 млн инвестиций

Сайт Reddit обогнал Facebook по популярности в США по данным рейтинга Alexa

Google разрабатывает новый поисковый алгоритм

Меню сайта

ТОП-10

Архив публикаций

Авторизация