Это был период, когда на всех seo-форумах бурно обсуждались вопросы об идеальной процентной плотности ключевых слов, количестве прямых вхождений заданной фразы в текст материала, количестве выделений жирным шрифтом и т. п.
Этап 3. Принципиальный шаг к решению этой проблемы совершила компания Google, введя понятие ссылочной цитируе-мости. Допустим, имеется две схожих страницы, одинаково полно отвечающих на заданный вопрос. Анализ текста не позволяет выявить, какая из этих страниц лучше – обе идеально соответствуют заданной теме.
В основу нового алгоритма легла идея, что лучшей является та страница, на которую больше ссылаются другие сайты. Это и понятно – если на некоторую информацию есть ссылки с других ресурсов, пользователи и вебмастера рекомендуют ее другим людям-значит эта информация полезна. И напротив, если текст вроде бы хороший, но никто его не рекомендует для прочтения – значит реальной пользы от этого материала нет.
Учитывалось не только количество ссылок, но и важность самих ссылающихся страниц («голос» с сайта CNN явно более весом, чем голос с домашней страницы «Васи Пупкина»).
Подобный подход совершил революцию в качестве поиска, и до сих пор остается тем фундаментом, на котором строятся современные алгоритмы ранжирования. Очевидно, что ссылками, размещенными на других сайтах, манипулировать на порядок труднее, чем просто разместить псевдо-полезные статьи на своем ресурсе.
Пару лет новые алгоритмы работали хорошо. Но в дальнейшем начала развиваться индустрия продажи ссылок. Если раньше оптимизатор размещал 10 псевдо-статей у себя на сайте, то теперь под каждую статью создавалось еще по 10–50 псевдо-новостей, псевдо-статей, псевдо-постов на форумах-все для того, чтобы получить нужное количество ссылок и подняться в результатах выдачи. Этот процесс идет и до сих пор, создаются целые сайты, не несущие ничего полезного, а применяемые исключительно под продажу ссылок.
Этап 4. Поисковые системы стали отслеживать поведение пользователей на ресурсе. Сколько времени человек провел на сайте, сколько страниц посмотрел, вернулся ли обратно в поиск или же остался удовлетворен полученной информацией.
К сожалению, это стало лишь полумерой, т. к. поведенческие факторы легко поддаются накрутке. Накручивать можно автоматически, с помощью специальных программ, эмулирующих деятельность человека. А можно привлечь армию «школьников», готовых за копейки совершать нужные действия – искать заданные фразы, переходить на заданные сайты, кликать по заданным ссылкам – и такие сервисы действительно есть. Получается не подкопаться – реальные люди действительно просматривают реальные страницы, вот только выводы о полезности этих страниц оказываются ошибочными.
Этап 5. Очередным принципиальным шагом стало использование в алгоритмах элементов искусственного интеллекта, который позволяет «машине» видеть «глазами человека».
На современном этапе вычислительных мощностей даже самых быстрых супер-компьютеров недостаточно для создания полноценного искусственного интеллекта. И тем не менее, это направление очень бурно развивается и, несомненно будет играть все большую роль в работе поисковых машин.
Яндекс запустил новый алгоритм в 2009 году и назвал его MatrixNet. Нам нет нужды вдаваться в технические подробности, но понимание самой сути этого подхода настолько важно, что я посвятил этому вопросу отдельный параграф книги. Продвигая сайт, мы должны понимать КАК будет смотреть на него поисковая система.
1.2 Жизнь в Матрице или алгоритм MatrixNet от компании Яндекс
В ноябре 2009 года вышел новый алгоритм Яндекса под названием Матрикснет, или в англ, написании Matrixnet. Это принципиально новый подход к оценке сайтов и построению поисковой выдачи, в основе которого лежит самообучающийся алгоритм с элементами искусственного интеллекта.
Знать базовые принципы матрикснета очень важно – создавая сайт, вы должны понимать, каким его увидит поисковая система, и как она его будет оценивать.
Моя дипломная работа в институте была связана с темой нейронных сетей, таким образом, я смог краешком прикоснуться к тем фантастическим возможностям, которые дают разработки в области Искусственного Интеллекта (в дальнейшем ИИ).
Прежде всего, нужно сказать, что в функционировании компьютеров существует два принципиально различных подхода. Это алгоритмы и нейронные сети (тот самый ИИ).
Алгоритмический, подход. Здесь все понятно. Грубо говоря, мы даем машине инструкцию вида: если)набор заданных условий} → то ^выполнить набор заданных действий}.
По такому принципу и работали поисковые системы до введения Матрикснета. Оценивали набор факторов (релевантность текста, количество ссылок и прочее) и выдавали свой ответ – какую позицию должен получить тот или иной сайт.
Алгоритмический подход отлично подходит для решения огромного круга задач. Это и поиск, и различные вычисления, да и все «бытовые» компьютерные программы, которыми мы пользуем, построены на основе алгоритмов. И, безусловно, компьютер работает в миллионы раз быстрее человека.
В то же время существует ряд трудноформализуемых задач, с которыми человек справляется просто и естественно, а машине они не под силу. Мы легко можем узнать знакомого нам человека, встретившись на улице – даже если вокруг него толпа других людей, даже если он стоит далеко. Да что там – мы можем узнать его даже со спины, по походке, по интонациям в голосе.
Никакими алгоритмами эта задача не решаема – а задача между тем очень важная. Вариантов применения множество. Загрузил в компьютер фотографии людей, находящихся в розыске, дал доступ к уличным камерам – и вот компьютер находится в режиме постоянного поиска. Стоит искомому попасть в поле зрения камеры на вокзале – а компьютер уже шлет сигнал – найден! Ан нет, не так то это просто – не справляется компьютер с подобной задачей.
И вот тут мы приходим к тому самому искусственному интеллекту, элементы которого используются в Matrixnet.
Нейронные сети. Наш мозг состоит из огромного числа нейронов, каждый из которых в отдельности разумом не обладает и способен лишь на самые элементарные действия. Но объединенные вместе они представляют удивительную силу.
Нейронные сети построены по тому же принципу. Множество простых «вычислительных элементов», объединенных в единую структуру.
Характерно, что базовая теория нейронных сетей была разработана еще в 1920-х годах, по сути, до появления компьютеров. И потом, на долгие 60 лет, эта наука оставалась мертвой теорией – ИИ требует очень больших вычислительных мощностей. В 80-х, с появлением быстрых компьютеров, нейронные сети пережили второе рождение и бурно развиваются в настоящее время.
Принципы работы Matrixnet. Перейдем от теории к практике. Матрикснет решает не какие-то отвлеченные задачи, а оценивает сайты. Посмотрим, как он может это делать.
Суть любого ИИ заключается в том, что сначала машину нужно «научить». В Яндексе существует большая команда специальных людей, называемых асессорами. Их работа – смотреть и оценивать сайты.
Задание асессору ставится в виде связки «поисковый запрос + сайт». И человек должен выставить свою оценку – отвечает ли сайт на поставленный вопрос. Варианты оценок, которые ставит асессор:
– сайт является официальным источником информации по данному запросу. Например, поиск по названию фирмы – первым в выдаче должен стоять официальный сайт этой фирмы. Само собой, такого рода сайты есть не для всех поисковых запросов.