Первая структурная часть поисковика – специальные программы, применяемые для автоматического поиска и последующего индексирования веб-страниц. Такие программы обычно называют пауками, или ботами. Они просматривают код веб-страниц, находят расположенные на них ссылки и тем самым обнаруживают новые веб-страницы. Есть и альтернативный способ включения сайта в индекс. Многие поисковики предлагают владельцам ресурсов возможность самостоятельно добавить сайт в свою базу. Как бы то ни было, затем веб-страницы скачиваются, анализируются и индексируются. В них выделяются структурные элементы, находятся ключевые слова, определяются их связи с остальными сайтами и веб-страницами. Производятся и другие операции, результатом выполнения которых становится формирование индексной базы поисковика. Эта база – второй главный элемент любого поисковика. Сейчас не существует какой-либо одной абсолютно полной индексной базы, которая содержала бы сведения обо всем контенте интернета. Поскольку разные поисковики используют разные программы поиска веб-страниц и строят свой индекс с помощью разных алгоритмов, индексные базы поисковиков могут существенно различаться. Некоторые сайты оказываются проиндексированными несколькими поисковиками, однако всегда остается определенный процент ресурсов, включенных в базу только какого-либо одного поисковика. Наличие у каждого поисковика такой оригинальной и непересекающейся части индекса позволяет сделать важное практическое заключение: если вы пользуетесь только одним поисковиком, пусть даже самым крупным, вы обязательно потеряете некоторый процент полезных ссылок.
Заметим, что формирование индексных баз – весьма ресурсоемкая задача. Многие поисковые проекты не утруждают себя сбором собственных баз, предпочитая использовать базы одного или нескольких сторонних поисковиков. Это позволяет сосредоточиться на разработке оригинальных пользовательских интерфейсов и дополнительных инструментов, иногда превосходящих по возможностям соответствующие средства владельцев баз. Следующая часть интернет-поисковика – собственно программы поиска и сортировки результатов. Эти программы решают две основные задачи: сначала находят в базе страницы и файлы, соответствующие поступившему запросу, а затем сортируют полученный массив данных в соответствии с различными критериями. От эффективности их работы во многом зависит успех в достижении целей поиска.
Последний элемент интернет-поисковика – пользовательский интерфейс. Кроме обычных для любых сайтов требований к эстетике и удобству, к интерфейсам поисковиков предъявляется еще одно важное требование: они должны предлагать различные инструменты составления и уточнения запросов, а также сортировки и фильтрации результатов. Преимущества поисковых машин – великолепный охват источников, сравнительно быстрое обновление содержимого базы и хороший выбор дополнительных функций. Главный инструмент работы с поисковиками – это запрос. Для успешного поиска неплохо изучить основные правила составления запросов, а также языки поисковых запросов конкретных поисковиков.
С точки зрения пользователя основной недостаток поисковиков – это неизбежное наличие информационного шума в результатах. Основные направления совершенствования современных поисковых машин как раз связаны с повышением точности их ответов и фильтрацией ненужных данных.
Для интернет-поиска используются также специальные приложения, устанавливаемые на локальном компьютере. Это могут быть как простые программы, так и довольно сложные комплексы поиска и анализа данных. Наиболее распространены поисковые плагины для браузеров, панели для браузеров, предназначенные для работы с каким-либо конкретным поисковым сервисом, и метапоисковые пакеты с возможностями анализа результатов.
Веб-каталоги – это ресурсы, в которых сайты распределяются по тематическим категориям. Если с поисковиками пользователь работает только посредством запросов, то в каталоге есть возможность просматривать тематические разделы целиком.
Второе принципиальное отличие каталогов от автоматических поисковиков – это то, что в их наполнении, как правило, непосредственно участвуют люди, которые просматривают ресурсы и относят сайт к той либо иной категории.
Веб-каталоги принято делить на универсальные и тематические. Универсальные стараются охватить максимум тем. В них можно найти все, что угодно: от сайтов о поэзии до компьютерных ресурсов. Другими словами, широта поиска у них максимальная. Тематические же каталоги специализируются на определенной тематике, обеспечивая за счет сокращения широты охвата ресурсов максимальную глубину поиска.
Второе дыхание веб-каталоги получили в эпоху Web 2.0. Над их пополнением на многочисленных социальных проектах трудятся сами посетители, а не специальная команда каталогизаторов. За счет привлечения труда многочисленных пользователей удается значительно расширить базы проектов. Такие ресурсы являются ценным источником информации и предлагают массу интересных дополнительных инструментов поиска.
Преимущества каталогов – сравнительно высокое качество ресурсов, поскольку каждый сайт в нем просматривается и отбирается человеком. Тематическая группировка сайтов позволяет удобно располагать сайты близкой тематики. Такой режим работы хорош для обнаружения новых для вас сайтов по интересующей теме – он точнее применения поисковой машины. Веб-каталоги рекомендуется использовать для первого знакомства с какой-либо предметной областью, а также поиска по нечетким запросам – у вас будет возможность "побродить" по разделам каталога и точнее определиться с тем, что именно вам требуется.
Недостатки веб-каталогов известны. В первую очередь, это медленное пополнение базы, поскольку включение сайта в каталог предполагает участие человека. В отношении оперативности веб-каталог – не соперник поисковикам. Кроме того, веб-каталоги существенно уступают поисковикам по размерам баз. Соперничать с автоматическими системами в количестве охваченных ресурсов – задача для них безнадежная. Еще один недостаток современных каталогов – отсутствие единой классификации ресурсов и четких критериев отнесения их к той или иной категории. Иногда создается впечатление, что разработчики веб-каталогов намеренно игнорируют уже существующие классификационные языки поиска.
Для поиска ответов на конкретные вопросы эффективней всего использовать справочные ресурсы. К ним относятся многочисленные онлайновые энциклопедии и справочники, сервисы перевода и другие ресурсы, на которых можно получить краткие и конкретные ответы на свои вопросы. Обратившись к справочнику, пользователь избавляет себя от необходимости обработки текстов с разнообразных сайтов. Кроме того, справочники дают определенную уверенность в точности полученных фактических сведений.
Говоря о интернет-поиске, нельзя обойти вниманием ряд терминов, которые тесно связаны с этой сферой и часто используются для описания и оценки поисковиков.
Релевантность – это соответствие ответа поисковика поступившему от пользователя поисковому запросу. Другими словами, релевантным считается ответ, максимально соответствующий пользовательскому запросу. Это важнейший в работе интернет-поисковиков показатель. Не случайно сортировка списка выдачи по релевантности является основной функцией на подавляющем большинстве поисковых ресурсов. Однако если мы вспомним расхожее выражение "Каков вопрос – таков и ответ", то подойдем к важному нюансу в определении соотношения релевантности и качества результатов поиска. Дело в том, что строгое соответствие условиям запроса не гарантирует качественный результат поиска. Релевантный ответ вполне может оказаться ненужным, несмотря на то что прекрасно соответствует запросу. Дело в том, что пользователь может сформулировать неудачный или слишком обобщенный запрос. Поэтому для определения качества поиска часто применяют понятие пертинентности, которое обозначает степень соответствия ответа поисковика реальной информационной потребности пользователя. Другими словами, пертинентный ответ – это ответ, который предлагает пользователю нужную информацию, даже в том случае, если запрос сформулирован пользователем не самым удачным образом. Именно на улучшения пертинентности направлен ряд новых технологий интернет-поиска C релевантностью связано также понятие информационного шума. Так принято называть попавшие по тем или иным причинам в список выдачи результаты, не соответствующие запросу.
Следующие два важных понятия – широта и глубина интернет-поиска. Широким называют поиск, который захватывает как можно большее количество источников информации. При этом достаточным считается хотя бы упоминание о том или ином подходящем запросу сайте. Глубина поиска относится к подробности индексирования и последующего поиска каждого конкретного ресурса. Например, многие поисковики по-разному подходят к индексированию разных сайтов. Крупные и популярные сайты индексируются в максимальном объеме, роботы стараются не упустить ни одной страницы такого ресурса. В то же время на других сайтах может быть проиндексирована только заглавная страница и пара страниц содержания. Эти обстоятельства, естественно, сказываются и на последующем поиске. Глубокий поиск работает по принципу "лучше включить в результаты лишнюю информацию, чем упустить какие-либо относящиеся к теме поиска данные".
Достаточно часто можно встретить такие понятия, как глобальный и локальный интернет-поиск. При локальном интернет-поиске учитывается географическое местоположение пользователя и предпочтение отдается результатам, так или иначе связанным с конкретной страной или местностью. При глобальном поиске эта информация не учитывается, и поиск ведется во всех доступных ресурсах.