Устройство и принципы работы поисковых систем. Как работает поисковая система

В Интернет специальный веб сайт, на котором пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу. Поисковая система состоит из трех компонент: 1 поискового робота; 2 индекса системы; и 3 программы,… … Финансовый словарь

Сущ., кол во синонимов: 3 искалка (9) ищейка (16) поисковик (13) Словарь синонимов AS … Словарь синонимов

поисковая система - поисковик Сайт, при помощи которого ищутся другие сайты. Поиск осуществляется путём ввода ключевых слов в окошко поиска. В отличии от каталогов, даже, если сайт не был предварительно зарегистрирован, его можно найти при помощи поисковика.… … Справочник технического переводчика

поисковая система - ieškos sistema statusas T sritis automatika atitikmenys: angl. searching system vok. Suchsystem, n rus. поисковая система, f pranc. système de recherche, m … Automatikos terminų žodynas

Поисковая система - – (англ. search engine, синонимы: искалка, поисковый сервер, поисковая машина) – Инструмент для поиска информации в Интернете. Как правило, работа поисковой машины состоит из двух этапов. Специальная программа (поисковый робот, автомат, агент,… … Энциклопедический словарь СМИ

Управления, система автоматического управления (См. Автоматическое управление), в которой управляющие воздействия методом поиска автоматически изменяются т. о., чтобы осуществлялось наилучшее (в каком то смысле) управление объектом; при… … Большая советская энциклопедия

Управлення система автоматического управления, в к рой управляющие воздействия методом поиска автоматического изменяются т. о., чтобы осуществлять наилучшее управление объектом; при этом изменения хар к объекта или воздействий внеш. среды заранее … Большой энциклопедический политехнический словарь

СМП 1 редназначена для поиска спасателей, попавших в критические условия, связанные с угрозой для жизни, а также поиска десантированных грузов и различных объектов в условиях плохой видимости. В ее состав входят: радиоблок поиска активных… … Словарь черезвычайных ситуаций

автоматизированная информационно-поисковая система - 3.2.5 автоматизированная информационно поисковая система: ИПС, реализованная на базе электронно вычислительной техники Источник … Словарь-справочник терминов нормативно-технической документации

У этого термина существуют и другие значения, см. Апорт. Апорт … Википедия

Книги

  • Экстремальные задачи теории графов и Интернет. Учебное пособие , Райгородский Андрей Михайлович. Настоящая брошюра посвящена изучению различных экстремальных задач теории графов, (хотя бы частичное) решение которых может быть полезно при анализе данных. Она возникла на основе…
  • Экстремальные задачи теории графов и интернет , Райгородский Ф.М.. Настоящая брошюра посвящена изучению различных экстремальных задач теории графов, (хотя бы частичное) решение которых может быть полезно при анализе данных. Она возникла на основе…

21.11.2017

Какой бы вопрос не волновал современного человека, ответы он не ищет в книгах. Он ищет их в интернете. Причем не нужно знать адрес сайта, на котором лежит нужная тебе информация. Таких сайтов миллионы, а помогает найти нужный поисковая система.

На просторах нашего отечественного интернета самые популярные две поисковые системы – Google и Яндекс.

Вы хотя бы раз задумывались, как работает поисковая система? Как она понимает, какой сайт показать, на каком из миллионов ресурсов точно есть ответ на ваш запрос?

Что представляет собой поисковая система?

Поисковая система – это огромная база веб-документов, которая постоянно пополняется и расширяется. У каждой поисковой системы есть поисковые пауки, роботы – это специальные боты, которые обходят сайты, индексируют размещенный на них контент, а затем ранжируют по степени его качества и релевантности поисковым запросам пользователей.

Поисковые системы работают для того, чтобы любой человек мог найти любую информацию. Потому они стараются показывать в первую очередь те веб-документы, в которых есть максимально подробный ответ на вопрос человека.

По своей сути поисковая система – это каталог сайтов, справочник, основная функция которого – поиск информации по этому самому каталогу.

Как я уже написал выше, у нас популярные две системы – Google (мировая) и Яндекс (русскоязычный сегмент). Но есть еще такие системы, как Rambler, Yahoo, Bing, Mail.Ru и другие. Принцип работы похож у них у всех, отличаются только алгоритмы ранжирования (и то не сильно существенно).

Как работает поисковая система в Интернете

Принцип работы поисковых систем очень сложный, но я попробую объяснить простыми словами.

Поисковый робот (паук) обходит страницы сайта, скачивает их содержимое и извлекает ссылки. Далее начинает свою работу индексатор – это программа, которая анализирует все скачанные пауками материалы, опираясь на собственные алгоритмы работы.

Таким образом, создается база данных поисковой системы, в которой хранятся все обработанные алгоритмом документы.

Работа с поисковым запросом проводится следующим образом:

  • анализируется введенный пользователем запрос;
  • результаты анализы передаются специальному модулю ранжирования;
  • обрабатываются данные всех документов, выбираются самые релевантные введенному запросу;
  • генерируется сниппет – заголовок, дескрипшн, слова из запроса подсвечиваются полужирным;
  • результаты поиска представляются пользователю в виде SERP (страницы выдачи).

Принципы работы поисковых машин

Главная задача любой поисковой системы – предоставить пользователю наиболее полезную и точную информацию по его запросу. Потому поисковый робот обходит сайты постоянно. Сразу после вашего запуска, согласно определенному распорядку, паук заходит к вам в гости, обходит ряд страниц, после чего проходит их индексация.

Принцип работы поисковых машин базируется на двух основных этапах:

  • обход страниц, с помощью которого собираются данные;
  • присвоение индекса, благодаря которому система сможет быстро проводить поиск по содержимому данной страницы.

Как только страница сайта проиндексирована, она уже появится в результатах поиска по определенному поисковому запросу. Проверить, попала ли новая страница в индекс поисковой системы, можно с помощью инструментов для вебмастеров. Например, в Яндекс.Вебмастере сразу видно, какие страницы проиндексированы и когда, и какие выпали из индекса и по какой причине.

Но вот на какой странице она окажется – зависит от степени индексации и качества ее содержания. Если на вашей странице дается самый точный ответ на запрос – она будет выше всех остальных.

Принципы ранжирования сайтов в поисковых системах

По какому принципу работают поисковые роботы, мы разобрались. Но вот каким образом проходит ранжирование сайтов?

Ранжирование базируется на двух основных «китах» — текстовое содержание страницы и нетекстовые факторы.

Текстовое содержание – это контект страницы. Чем он полнее, чем точнее, чем релевантнее запросу – тем выше будет страница в результатах выдачи. Кроме самого текста, поисковая система обращает внимание на заполнение тегов title (заголовок страницы), description (описание страницы), H1 (заголовок текста).

Нетекстовые факторы – это внутренняя перелинковка и внешние ссылки. Суть в чем: если сайт интересен, полезен, значит, на него ссылаются другие тематические ресурсы. И чем больше таких ссылок – тем авторитетнее ресурс.

Но это – самые основные принципы, очень кратко. Вникнем чуть глубже.

Основные факторы ранжирования сайта

Есть целый ряд факторов, влияющих на ранжирование сайта. Основные из них – это:

1. В нутренние факторы ранжирования сайта

Это текст на сайте и его оформление – подзаголовки, выделение важных моментов в тексте. Использование внутренней перелинковки тоже сюда относится. Также важны визуальные элементы: использование картинок, фотографий, видео, графиков. Немаловажно также качество самого текста, его содержание.

2. Внешние факторы ранжирования сайта , которые определяют его популярность. Это те самые внешние ссылки, которые ведут на ваш сайт с других ресурсов. Определяется не только количество этих сайтов, но их качество (желательно, чтобы сайты были схожей тематики с вашим), а также общее качество ссылочного профиля (насколько быстро появились эти ссылки, естественным путем или с помощью закупки на бирже).

Исходя из всего вышесказанного, можно сделать один вывод: поисковые системы стараются работать так, чтобы показывать пользователю те сайты, которые дают максимально полный ответ на его запрос и уже заслужили определенный авторитет. При этом учитываются самые разные факторы: и содержание сайта, и его настройка, и отношение пользователей к нему. Хороший во всех отношениях сайт непременно займет высокое место на выдаче.

Здравствуйте, дорогие читатели! С вами Екатерина Калмыкова. Сегодняшняя статья будет посвящена такому понятию, как поисковая система, что это такое, для чего она нужна. Также мы подробно рассмотрим разновидности поисковых систем в интернете.

Если у вас возник вопрос: «Зачем мне знать про эти поисковые системы?», то я отвечу так. Когда вы едите вкусный суп в ресторане, хотелось бы вам знать, из каких ингредиентов он приготовлен, чтобы повторить его самостоятельно дома? Ведь если вас устраивает конечный результат, то есть вкус супа, то наверняка вам интересно было бы узнать, что привело к такому результату?

Также можно сказать и про работу с поисковой системой (ПС). Если вы в будущем создадите свой блог, то зная работу ПС вам не придется обращаться за помощью к специалистам. Вы сможете самостоятельно вести таким образом свой проект, чтобы поисковая система его видела и показывала другим пользователям. Ведь именно от этого будет зависеть посещаемость вашего ресурса и соответственно заработок.

Итак, приступим.

Что такое поисковая система?

Поисковая система — это специальный ресурс в Интернете, который выдает информацию пользователю в соответствии с его запросом. То есть этот ресурс собирает все данные в глобальной сети, все веб-проекты и при поступлении от пользователя определенного запроса выдает необходимую искомую информацию путем направления его, например, на тематический блог или сайт.

Таким образом, после создания своего проекта ваша задача будет попасть в выдачу, то есть в «список» или базу поисковой системы. Поскольку продвижение сайта в интернете просто не возможно без использования какой-либо поисковой системы, поэтому вам необходимо будет позаботиться о качестве своего ресурса, о внутренней и внешней его оптимизации. Как это сделать мы поговорим в следующих статьях. Так что , чтобы не пропустить.

А пока, если вы решили создать свой блог, то рекомендую прочитать вот эти статьи:

Поскольку новые веб-ресурсы появляются практически каждый день, то соответственно и база поисковых систем должна постоянно обновляться. Каждый вновь созданный сайт должен проиндексироваться роботом. Говоря простыми словами, помощники ПС – роботы должны познакомиться с новым ресурсом и передать эти данные самой поисковой системе.

Ну, тут вы, наверное, догадались, что при посещения вашего блога роботом ему все должно понравиться. От этого гостя и будет зависеть ваша дальнейшая судьба.

Как сделать, чтобы робот от вашего проекта остался в полном восторге я расскажу в одной из следующих статей. Не пропустите, будет интересная и весьма любопытная информация, которой я с вами поделюсь.

Работа поисковых систем

Вся работа, связанная с ПС, начинается с ввода искомого запроса в поисковой строке. Что могут искать пользователи? Да что угодно, начиная от рецепта пирожков с капустой и заканчивая извечным вопросом «как заработать денег побольше ничего не делая».

Чтобы именно ваш ресурс выходил в качестве ответа на вопрос, необходимо опережать своих конкурентов. Для этого и нужно обратить особое внимание на продвижение своего проекта, куда входят такие мероприятия как написание качественного оптимизированного контента, то есть отвечающего на запросы статьи, улучшение поведенческого фактора, то есть чтобы вашему читателю было интересно находится на ресурсе, это улучшение юзабилити, то есть удобство посетителя и многие другие факторы. Это мы все научимся с вами делать.

Компоненты поисковых систем

А что же помогает поисковикам, например, тому же Гугл индексировать ваш ресурс?

  1. Агенты — это работники, выполняющий основную часть работу — индексируют и анализируют сайты.
  2. Пауки (spider) – программа, которая может скачивать страницы веб-ресурса и собирать общую информацию о нем.
  3. Кроулеры (crawler) – программа, отыскивающая все ссылки на страницах, переходя по которым разыскивает новые данные не знакомые поисковикам.
  4. Индексатор (indexer) – анализирует текст, заголовки, стиль и др.
  5. Роботы - индексируют страницы вашего контента, а также изучают разнообразные ссылки.

Для того чтобы индексация происходила так, как нужно вам вы и создаете специальный документ «robots.txt». Он позволяет системе проверять только те страницы, которые вам нужно, и убирать то, что видеть не следует.

Виды поисковых систем

Существуют несколько вариантов информационно — поисковых систем:

  • Каталоги. Простое сравнение поиска – это книжная полка в библиотеке. Там все хранится в подкатегориях и категориях определенной тематики. Если вы попали в такой поисковик, то поверьте, информация, которую вы там найдете, будет более чем полезна и понятна для вашего восприятия. Догадались о каком распространенном сайте идет речь? Конечно же о википедии, которая собрала в себе целый справочник полезной информации.
  • Поисковые указатели. Поиск в данных осуществляется за счет ключевых фраз. Это и удобно и неудобно одновременно. Думаю, меня поймут те люди, которые ищут, например, «Девушка показывает класс», чтобы найти как девушка показывает большой палец вверх, а в поиске вылезает что-то не очень приличное. 🙂 Такой вид поиска характеризирует большую часть поисковых систем.
  • Рейтинговые системы. Определяют вашу популярность за счет количества посещений. Конечно, не самый лучший критерий, так как не всегда учитывается полезность и качественность самого ресурса. Пример такой системы – это интернет ресурс alexa.com.

Поисковые сервера подразделяются также на общие и специализированные . Общие поисковики сортируют информационные данные без всякого отбора по всем известным им веб-ресурсам. К ним относятся Яндекс, Рамблер, Гугл. Специализированные — осуществляют сортировку по используемому языку.

Также поисковые системы могут делиться на региональное и мировое распространение .

На сегодняшний день все поисковики постоянно совершенствуют свои алгоритмы по отбору качественных, релевантных ресурсов.

Немного истории

В Рунете ПС появились в 1996 года – это Апорт и Рамблер. Годом позже в 1997 году образовался Яндекс, а еще годом позже в 1998 году появился еще один конкурент – Google. В настоящий момент наиболее популярные – это Яндекс и Google.

Какие же поисковики сейчас наиболее популярны?

Приведем статистику:

Как вы видите, сейчас в России наибольшей популярностью пользуется Яндекс, наряду с Гугл и Мэйл.

Таким образом, вы можете увидеть топ поисков, на которые вам следует ориентироваться при создании и продвижении своего проекта.

Поисковая система Яндекс (Yandex)

Принцип работы следующий: в поисковую строку вводите искомый запрос, нажимаете «Найти» и смотрите выдачу. Яндекс подобрал вам 13 млн. ответов на ваш запрос. Искать можно также в картинках, видео, маркете (смотрим левую колонку).

Дополнительно вы можете настроить регион для поиска. Для этого необходимо в строке поиска нажать на значок рядом с крестиком и в окне фильтра выбрать нужный регион.

Поисковая система Гугл (Google)

Гугл работает по аналогии с Яндекс. Искать информацию можно в разных разделах: картинки, видео, новости, карты и т.д.

Если вы нажмете на «Инструменты поиска», то откроется панель с настройками, где вы можете выбрать регион, язык и за какое время осуществить поиск информации.

Теперь вы знаете, какие системы поиска существуют в интернете, также вы увидели самые популярные из них, и теперь, вооруженные информацией вы можете налаживать свои связи и взаимодействие с поисковиками.

На сегодня все. Как Вам статья?

Всем пока.

Советую на обновление блога, чтобы не пропустить выход свежих новостей.

Екатерина Калмыкова

Из пяти отдельных программных компонент состоят поисковые системы, а именно:

  • Паук (spider ): его задача - скачивать WEB страницы; программа, которая подобна WEB браузеру.
  • Crawler : паук, которого называют «путешествующим»; он автоматически переходит по всем ссылкам, которые были найдены на странице.
  • Индексатор (indexer ): программа, которую называют «слепой»; ее задача анализировать WEB страницы, которые были скачены пауками.
  • База данных (database ): она является хранилищем страниц, которые были сначала скачены, а потом подвергнуты обработке.
  • Система выдачи результатов (search engine results engine ): данная система помогает извлекать результаты поиска из базы данных.

Подробнее о каждом из компоненте поисковых систем

Паук : Spider - его задача проста - скачивать WEB страницы. Принцип его работы ничуть не отличается от вашего браузера, в том случае, если вы просто соединяетесь с сайтом и начинаете загружать страницу. Визуализация у Паука отсутствует. Похожую ситуацию (скачивание) можно увидеть, когда вы начинаете просматривать какую-то страницу и выбираете в вашем WEB браузере «просмотреть HTML код».

Crawler : Подобно Пауку он тоже скачивает страницы, также в его функциях есть «раздевание» страницы и нахождение всех ссылок. Это и является его задачей - определить, куда же Паук должен двигаться дальше, он основывается только на ссылках или при помощи заранее заданного списка адресов.

Индексатор : Indexer помогает разобрать страницу на разные ее части и проанализировать их. Вычленяются и анализируются заголовки, элементы любых заголовков страниц, текст, ссылки, элементы BOLD, ITALIC, структурные элементы, а также другие стилевые части страницы.

База данных : Database является хранилищем любых данных, которые поисковая система собирается скачать и проанализировать. В большинстве случаев для этого требуются огромные ресурсы.

Система выдачи результатов : Search Engine Results Engine является сердцем поисковой системы. Именно данная система будет решать, какие же страницы будут удовлетворять каждому запросу обычного пользователя. При помощи данной части поисковой системы и осуществляется поиск.

В случае если пользователь ввел ключевое слово и начал поиск, поисковая система начинает отбирать результаты, опираясь на постоянно меняющиеся критерии. Метод, по которому поисковая система принимает любые свои решения, называется алгоритмом. «Algos» - данный термин иногда используют профессиональные - это и есть то, о чем мы разговариваем.

Критерии поиска при формировании выдачи поисковыми системами

Даже из-за того, что поисковые системы очень изменились, большинство из них в наше время отбирает результаты поиска, опираясь на данные критерии:

  • Заголовок (Title): Есть ли в заголовке ключевое слово?
  • Домен/адрес (Domain/URL): Есть ли в адресе страницы или в имени домена ключевое слово?
  • Стиль (Style): Заголовки HEAD, Курсивный (I или EM), Жирный (B или STRONG): есть ли на странице место, где ключевое слово используют в курсивных, жирных, или Hx (H1, H2, …) текстовых заголовках?
  • Плотность (Density): Насколько часто ключевое слово употребляется на странице? Плотность ключевого слова - количество ключевых слов относительно текста страницы.
  • Мета данные (MetaInformation): Хоть и многие отрицают, но некоторые поисковые системы в наши дни все еще читают мета описания (meta description) и мета ключевые слова (meta keywords).
  • Ссылки наружу (Outbound Links): Куда ведут ссылки на странице, и имеется ли в тексте ссылки ключевое слово?
  • Внешние ссылки (Inbound Links): У кого еще в Интернете имеется ссылка на этот сайт? Что в тексте ссылки? Автор страницы не в каждом случае может контролировать этот критерий, поэтому он называется «внестраничным».
  • Ссылки внутри страницы (Insite Links): Содержит ли страница ссылки на еще какие-нибудь страницы этого сайта?

В результате видим, что, поисковая система должна уметь и делать многие уточняющие запросы, используя при этом скаченную страницу целиком.

Данная статья является лишь сокращенным описанием функционирования поисковых систем.

На первом этапе становления сети Интернет число ее пользователей было крайне мало, а объем размещенной в ней информации минимальным. В то время Сеть использовалась в качестве специализированного инструмента и в основном в научных целях, поэтому доступ к ней имели лишь сотрудники различных лабораторий, университетов, военных учреждений. Поиску информации тогда уделялось намного меньше внимания, чем в наше время.

Однако с увеличением объемов информации, возникла проблема быстрого поиска и удобного доступа к интересующему пользователя информационному ресурсу. Первым решением этой проблемы стало появление каталогов сайтов. Такие каталоги представляли собой группы ссылок на ресурсы, которые составлялись согласно тематике ресурсов. Родоначальником таких проектов стал Yahoo - сайт, появившийся в апреле 1994 года. С увеличением в каталоге числа сайтов в Yahoo реализовали возможность поиска по каталогу. Однако сайт не был полноценной поисковой системой, так как позволял искать только те ресурсы, которые были внесены в каталог.

Каталоги ссылок были хорошей задумкой, но целесообразность их использования уменьшалась прямо пропорционально росту числа сайтов в сети Интернет. Даже самый современный каталог, в котором содержится несколько миллионов ресурсов, предоставляет доступ лишь к малой части информации, хранящейся в сети Интернет. Например, в самом большом каталоге сети Open Directory Project содержится информация о 5 миллионах ресурсов, в то же время, в базу поисковой системы Google занесено свыше 8 млрд. документов и их число растет с каждой минутой.

Хронология появления поисковых систем

  • В 1994 году появилась первая полноценная поисковая система - проект WebCrawler
  • В 1995 году свет увидели сразу две поисковые системы - AltaVista и Lycos. Первая из них на протяжении нескольких лет оставалась основным поисковиком информации в сети Интернет
  • В 1997 году силами двух талантливых программистов Сергеем Брин и Лари Пейдж в рамках исследовательского проекта университета Стэндфорд был создан проект Google, который на сегодняшний день является самой популярной поисковой системой в мире
  • В 1997 году 23 сентября официально представили проект под названием Yandex, который сегодня является самой популярной поисковой системой в русскоязычном сегменте сети Интернет (Рунет)

На сегодняшний день можно выделить 3 основные международные поисковые системы: Google, Yahoo и MSN Search, которые работают по собственным алгоритмам поиска и имеют свои базы данных. Остальные поисковики пользуются в той или иной мере их технологиями и возможностями. Например, базу Google используют такие поисковики, как Mail.ru и AOL (search.aol.com), а базу Yahoo - поисковики AllTheWeb, Lycos и AltaVista. В России и странах СНГ главной поисковой системой является Яндекс, затем идут Rambler и Google, также широко используются поисковики Mail.ru, Aport и KM.ru.

Базовые компоненты поисковых систем

Все поисковые системы работают по одним и тем же принципам, используя схожие подходы к поиску информации. В общем случае поисковик состоит из следующих компонентов:

  • Web server - веб сервер, отвечающий за взаимодействие пользователя с компонентами поисковой системы
  • Spider (англ. паук) - браузерная программа, «отыскивающая» Интернет-ресурсы и скачивающая все веб-страницы
  • Crawler (англ. паук путешественник) - специализированный вариант spider, программа автоматически переходит по всем ссылкам, найденным на страницах ресурса
  • Indexer (англ. индексатор) - программа, анализирующая информацию, предоставленную пауками
  • Database - база данных поисковой системы, в которой хранятся скачанные и проанализированные страницы
  • Search engine results engine (англ. система выдачи результатов) - выдает из базы данных результат поиска

Конкретная реализация вышеперечисленных компонентов может быть в каждой поисковой системе различной (например, spider и crawler представляют собой одну программу), но эти общие черты присущи всем поисковым системам.

Принципы работы компонентов поисковой системы

Spider. Программа-паук скачивает веб-страницы точно также, как обычный пользовательский браузер. Отличие между ними состоит лишь в том, что браузер отображает на экране всю информацию (графическую, текстовую, аудио и т.д.), в то время как spider работает непосредственно с html-кодом страницы.

Crawler .Паук, отвечающий за поиск новых документов,которых еще нет в базе поисковой системы. Задачей краулера также является определение пути, по которому должен двигаться spider. Для этого он выделяет все ссылки, находящиеся на странице и переходит по ним.

Indexer . Работа индексатора заключается в анализе найденных новых страниц. Он разбивает их на отдельные части и изучает их. Например, индексатор выделяет такие элементы страницы, как заголовки, текст, служебные html-теги, стилевые и структурные особенности и т.д.

Database. В базу данных поисковой системы заносятся все данные, найденные, скачанные и проанализированные поисковой системой из сети Интернет.

Search Engine results engine. Основным элементом поисковой системы, представляющим главный интерес для владельцев сайтов и пользователей, является система выдачи результатов поиска. Она отвечает за ранжирование страниц (сайтов), то есть решает, какая страница окажется на первом месте, а какая на последнем. Сортировка страниц происходит по определенному алгоритму ранжирования, который у каждой поисковой системы свой, и является самой главной тайной. Именно система выдачи результатов является объектом изучения сео-оптимизаторов, так как с ней ему приходится работать, чтобы улучшить позиции сайта в выдаче результатов поиска.

Web server. Обычно веб сервер представляет собой html-страницу с формой для ввода поискового запроса. Веб сервер также выдает пользователю результаты поиска в виде html-страницы. Для каждой поисковой системы эти страницы оформлены в конкретном фирменном стиле.