Исследование методов поисковой оптимизации. Какие задачи решает оптимизация для поисковых машин Наращивание ссылочной массы

Со временем приходит понимание необходимости изучения основ SEO, потому как, насколько бы не были интересны и полезны публикуемые вами материалы и статьи, для поисковых систем они всего лишь текст и для того, чтобы придать ему важность и значимость необходима SEO оптимизация.

Понятие SEO очень обширно, это отнюдь не несколько хитрых приемов, которые позволяют сайтам попадать на первые места топ 10 результатов поиска, SEO - это целая наука, которая постоянно развивается, и поскольку она напрямую зависит от алгоритмов поисковых систем, вместе с изменением алгоритмов изменяются и методы используемые ей.

В данной статье я постараюсь простым и доступным для начинающих блоггеров и веб мастеров языком изложить основы поисковой оптимизации и продвижения именуемого SEO, и указать основные направления этого довольно сложного для понимания комплекса мер, необходимых для достижения хороших позиций для страниц вашего сайта.

SEO начинающим: основы оптимизации и продвижения для начинающих

Что такое SEO (search engine optimization)

SEO (англ. Search Engine Optimization ) или просто поисковая оптимизация - это комплекс способов и методов, предназначенных для задействования и усиления всех положительных (как внутренних так и внешних) факторов которые берутся в расчет алгоритмами поисковых систем для определения позиций каждой страницы в результатах поиска по нужным словам (поисковым запросам).

Возможно у вас возникнет весьма резонный вопрос: почему поисковые системы не могут определить значимость и качественность контента (внутреннего содержания) без использования всяких SEO штучек и уловок?
Ответ на этот вопрос весьма прост: поисковые системы всего лишь машины и какими бы сложными и мудреными алгоритмами их не напичкали, они так и останутся ими, с шаблонным восприятием всего индексируемого содержимого наших сайтов. Именно поэтому нам приходится играть по их правилам и подстраиваться под эти шаблоны используя рекомендации как самих поисковых систем так и практиков SEO специалистов, которые путем многочисленных экспериментов узнают те факторы о которых поисковые системы умалчивают.

Белое и черное SEO

Не все приемы поисковой оптимизации считаются дозволенными и одобряются поисковиками, те из них которые являются запрещенными включает в себя черное SEO.
К этим приемам относятся такие как:

Невидимый для посетителей, предназначенный поисковым системам текст и ссылки. Например: белый текст на белом фоне.
Клоакинг и яваскрипт редиректы: поисковые боты видят одно содержимое страниц, а пользователи совершенно другое или перенаправляются на другую страницу
Дорвеи: страницы напичканные ключевыми словами

Использование черных методов оптимизации крайне нежелательно и рано или поздно становится причиной (понижения позиций страниц в результатах поиска), попадания под и даже бана всего домена.

Что включает в себя понятие SEO

Говоря о SEO как о способе достижения наилучших позиций в результатах поиска, обычно подразумевают две его составляющих:

Внутреннюю оптимизацию (on-page SEO) сайта или конкретной страницы
и внешнее продвижение (off-page SEO).

Обычно самых лучших результатов добиваются при одновременном использовании оптимизации с подпиткой продвигаемых страниц внешними входящими ссылками, хотя в некоторых частных случаях бывает достаточно лишь и .

Внутренняя оптимизация сайта

Внешнее продвижение сайта

Внешнее поисковое продвижение - самый последний этап поисковой оптимизации. Под внешним продвижением обычно подразумевают получение входящих ссылок с других сайтов () на продвигаемые страницы. Как правило, чем больше страниц различных сайтов ссылаются на вашу тем значимей она становится в глазах поисковиков, Самыми важными аспектами внешнего SEO являются:

Подбор текста для размещения ссылок
Выбор правильных доноров (ссылающихся сайтов). Их подбирают обычно из тематически близких (тех которым поисковые системы доверяют) ресурсов.

Внешние ссылки на продвигаемые страницы можно получить несколькими, как платными так и бесплатными способами. Нужно отметить очень негативное отношение поисковиков к платным - , но к сожалению без них порой бывает не обойтись. Самыми оптимальными средствами для их получения являются .
Бесплатные методы получения обратных ссылок более трудоемки и отнимают намного больше времени чем их покупка. К этим методам относится:

Размещение статей в (очень мало действительно достойных русскоязычных каталогов)
Взаимный обмен ссылками (постовыми) с сайтами схожей тематики (тут главное знать меру и ни в коем случае не участвовать в системах по обмену).
Размещение - самый эффективный способ получения прямых тематических ссылок, которые не только повысят позиции, но и будут приводить на ваш сайт посетителей. Количество оных будет прямо пропорционально и полезности вашей статьи.

Какие задачи решает оптимизация для поисковых машин

Поисковые машины сегодня являются важнейшим инструментом навигации в Интернете. С их помощью в Сети ищут информацию, сравнивают, анализируют, спрашивают совета, ищут единомышленников, знакомых и даже смысл жизни. Если ранее более популярным инструментом навигации в Интернете были каталоги, то сегодня их объемы и разветвленность, растущие вслед за нарастанием объемов информации, настолько разрослись, что они либо стали чрезмерно сложными для пользователя, либо содержат очень мало информации. При этом за последние несколько лет существенно улучшилось качество поисковых машин. Поэтому неудивительно, что пользователи массово переключились именно на поисковые машины.

Став наиболее популярными сайтами в Интернете, поисковые системы получили дополнительный эффект размера. Теперь это не только самые посещаемые сайты, но и самые известные. В итоге, когда пользователь в первый раз выходит в Интернет, сначала он идет на тот сайт, который ему уже известен от друзей, из прессы или из рекламы в офлайне, то есть на поисковую машину.

Такое положение вещей сохранится еще в течение долгого времени, так как существенная доля пользователей не очень хорошо знакома с компьютером вообще, и число таких пользователей в нашей стране, видимо, растет. Не слишком подкованные интернетчики используют поисковую строчку машины в качестве навигационной строки браузера. Многие пользователи вообще не различают понятия «Интернет» и «поисковая машина». Это хорошо видно по количеству поисковых запросов, содержащих адрес сайта.

Поэтому для многих компаний так важна такая оптимизация сайта, как процесс достижения первых мест в результатах поиска в поисковых машинах по целевым для компании запросам. Почему важно занять одно из первых мест? Потому что пользователи в среднем просматривают одну страницу результатов поиска и редко переходят на сайты, ссылки на которых есть только на второй странице и дальше.

Да что там вторая страница! Исследование переходов пользователей из результатов поиска системы Яндекс, проведенное несколько лет назад компаниями SpyLOG и «Ашманов и партнеры», показало, что доля переходов, которую можно ожидать на седьмой строке, стремится к нулю, то есть сайты, оказавшиеся ниже шестого места в результатах поиска, – тоже «за бортом». Над результатами поиска стоят рекламные строчки, которых становится все больше со временем. Они тоже уменьшают количество переходов, которое достается сайтам в результатах поиска, потому что для пользователей это тоже результаты поиска.

К слову сказать, для североамериканских сайтов доля переходов с поисковых машин от всех переходов в среднем составляет 60 %, а для корпоративных сайтов – и того выше. То есть более половины всех посетителей получают средний сайт с поисковой машины. В русскоязычном Интернете доля поискового трафика ниже, однако все равно очень велика и постоянно растет.

Именно поэтому оптимизация сегодня – большой, разветвленный рынок услуг, игроков на котором существенно больше, чем на рынке интернет-рекламы. А объем этого рынка услуг в Росиии за 2008 г. оценивается в 200 млн долл., что всего лишь втрое меньше рынка рекламы. А как же иначе, если эффективность этого маркетингового метода никак не ниже других инструментов рекламы в Интернете!

Оптимизация – это набор технических приемов и методов, которые позволяют достичь верхних строчек в результатах поиска. Все приемы оптимизации открыты и описаны на многочисленных форумах, специализированных сайтах оптимизаторов и в бесчисленных статьях. Очень важно, что никаких «тайных» способов оптимизации нет. Здесь все прозрачно и давно известно. Наибольшее значение в скорости получения результатов оптимизации имеет опыт оптимизатора, то есть умение быстро оценить ситуацию и выбрать правильные методы работы, однако даже новичок, вооруженный терпением и усидчивостью, может достичь превосходных результатов.

НАЧИНАЯ ПРОЦЕСС ОПТИМИЗАЦИИ, ЧЕТКО ОСОЗНАЙТЕ СЛЕДУЮЩИЕ МОМЕНТЫ.

1. Это путь проб и ошибок. Несмотря на то что есть довольно точные «рецепты успеха», в каждом конкретном случае они могут «не сработать», причем вероятность их срабатывания тем ниже, чем больше коллег-оптимизаторов трудятся над теми же поисковыми словами и в том же секторе рынка. Необходимо пробовать все способы оптимизации для достижения результата.

2. Оптимизация – это долгий процесс. Даже если быстро внести изменения в сайт, поисковый робот обновит информацию о сайте в базе не сразу, а в лучшем случае через несколько дней, скорее даже через неделю. Именно поэтому процесс оптимизации обычно затягивается на многие месяцы и все результаты приходят очень постепенно.

3. Оптимизация – очень кропотливый процесс, где надо учитывать множество факторов: особенности каждой поисковой машины, особенности рынка, на котором работает компания, активность конкурентов и действия, которые они предпринимают, и проч. Более того, все эти факторы необходимо учитывать постоянно, а не один раз при запуске.

4. Оптимизация – это нестабильный процесс. Алгоритмы поисковых машин постоянно меняются, кроме этого, меняется и ландшафт рынка за счет конкурентов и тех действий по оптимизации, которые они предпринимают. Поэтому те успехи, которых компания добилась несколько дней (недель) назад, сегодня могут превратиться в ничто. Следовательно, оптимизацией необходимо заниматься постоянно.

5. Поисковые машины сопротивляются усилиям оптимизаторов, поскольку они ухудшают качество поиска. Жестко и в одностороннем порядке поисковые машины регламентируют допустимое поведение оптимизаторов и бесцеремонно удаляют из результатов поиска (поисковой выдачи) сайты, которые, по их мнению, эти правила не соблюдают. Более того, эти правила не публикуются и постоянно меняются, так что любое действие по оптимизации завтра может оказаться «вне закона».

Почему поисковые машины борются с оптимизаторами?

В результате действий оптимизаторов результаты поиска изменяются. Из поиска исчезают или уходят вниз случайные результаты – ссылки на форумы, ссылки на давно исчезнувшие страницы. От этого поиск, несомненно, становится лучше: повышается его точность. Однако одновременно в результатах резко уменьшается полнота, то есть охват поисковой машиной различных тематик, связанных с поисковым запросом. Например, запрос «автомобиль» включает в себя целый спектр различных интересов: покупка нового или подержанного авто, прокат, ремонт, устройство, запчасти, история, реферат, виды и т. д. и т. п. В то же время поисковые машины все как один выдают либо продажу (новых, подержанных), либо прокат автомобилей. В редких случаях попадается еще и продажа запчастей. Таким образом, более половины возможных интересов пользователей выпало из результатов поиска (на первых нескольких страницах), то есть многие пользователи не получают нужной им информации и будут вынуждены их неоднократно уточнять. Сравните результаты поиска по одному и тому же слову на поисковой машине Яндекс (рис. 5.9) или Google с результатами поиска Nigma (рис 5.8) – машины, которая кластеризует результаты поиска по разным тематикам, – вы увидите, насколько мало разных тем попадает на первые страницы поиска «больших» поисковых машин.

Интернет предоставляет пользователю более быстрый способ поиска информации в сравнении с традиционными. Поиск информации в 1Щегпе1 может быть произведен по нескольким методам, значительно различающимся как по эффективности и качеству поиска, так и по типу извлекаемой информации. В зависимости от целей и задач ищущего методы поиска информации в 1Щегпе1 используются по отдельности или в комбинации друг с другом.

1. Непосредственное обращение по 1ЖЬ. Простейший метод поиска, который подразумевает наличие адреса и сводится к обращению клиента к серверу определенного типа, т. е. отправки запроса с использованием определенного протокола.

Обычно этот процесс начинается после ввода адреса в соответствующей строке программы браузера или выборе описания адреса в окне просмотра.

При непосредственном обращении по адресу можно использовать сокращенную запись стандарта 1ЖЬ - опускать элементы по умолчанию. Например, опускать название протокола (выбирается протокол по домену нижнего уровня или берется сервис по умолчанию); опускать имя файла по умолчанию (зависит от конфигурации сервера) и последнего символа «/»; опускать имя сервера и использовать относительную адресацию имен каталогов.

Заметим, что этот метод является основой работы более сложных технологий, так как в результате сложных процессов все сводится к непосредственному обращению по адресу 1ЖЬ.

2. Использование набора ссылок. Большинство серверов, представляющие гипертекстовые материалы общего вида, предлагают ссылки и на другие серверы (содержат 1ЖБ-адреса других ресурсов). Такой способ поиска информации называется поиском с помощью наборов ссылок. Поскольку все сайты в пространстве VWV фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью браузера.

Следует заметить, что администраторы сети не ставят себе целью поместить полный набор ссылок по основной тематике своего сервера и постоянно следить за их правильностью, поэтому такой метод поиска не дает полноты и не гарантирует достоверности получения информации. Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в сети, содержащей более 60 млн узлов, «ручной» просмотр УеЬ-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое «копание» уступает место более глубокому анализу. Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.

3. Использование специализированных поисковых механизмов: поисковых машин, каталогов ресурсов, метапоиск, поиск людей, адресов телеконференции, поиск в файловых архивах и др.

Основная идея поисковых машин (серверов) - создание базы данных из слов, встречающихся в документах МегпеГ в которой при каждом слове будет храниться список документов, содержащих это слово. Поиск осуществляется в содержание документов. Документы, попадающие в ШетеГ регистрируются в поисковых машинах с помощью специальных программ и не требуют участия человека. Исходя из этого, мы получаем полную, но отнюдь не достоверную информацию.

Несмотря на обилие слов и словоформ в естественных языках, большинство из них употребляется нечасто, что было замечено ученым-лингвистом Ципфом еще в конце 40-х гг. XX в. К тому же наиболее употребительные слова - это союзы, предлоги и артикли, т. е слова, совершенно бесполезные при поиске информации. В результате словарь самой крупной поисковой машины 11й:епе1 АЙаУ^а имеет объем всего лишь несколько Гбайт. Поскольку все морфологические единицы в словаре упорядочены, поиск нужного слова может выполняться без последовательного просмотра. Наличие списков документов, в которых встречается искомое слово, позволяет поисковой машине выполнять операции с этими списками: их слияние, пересечение или вычитание.

Запрос поисковой машине может быть двух видов: простой и сложный.

При простом запросе указывается слово или набор слов не отделенных никакими знаками. При сложном запросе слова могут быть отделены друг от друга логическими операторами и их комбинациями. Эти операторы имеют приоритет.

От того, как сформулирован запрос, простой он или сложный, зависит правильность и количество выданных поисковой машиной документов.

Многие поисковые машины используют для поиска тематические каталоги или существуют совместно с ними. Поэтому бывает довольно сложно классифицировать поисковые системы. Большинство из них можно отнести в равной степени как к поисковым машинам, так и к классификационным каталогам.

К числу самых известных поисковых серверов можно отнести следущие: американские (AltaVista, Hot Bot, Lycos, Open Text, Mckinley, Excite, Cuiwww); русские (Yandex, Search, Aport, Tela, Rambler).

В каталогах ресурсов используется иерархическая (древовидная) и/или сетевая модель базы данных, так как любой ресурс, имеющий URL-адрес, описание и другую информацию, подчинен некой классификации - она называется классификатором. Разделы классификатора называются рубриками. Библиотечный аналог каталога - систематический каталог.

Классификатор разрабатывается и совершенствуется коллективом авторов. Затем его использует другой коллектив специалистов, называемых систематизаторами. Систематизаторы, зная классификатор, читают документы и приписывают им классификационные индексы, указывающие, каким разделам классификатора эти документы соответствуют.

Существуют приемы, облегчающие поиск информации с помощью каталогов. Эти приемы носят название отсылка и ссылка и оба они применяются создателями каталогов в Internet. Вышеназванные приемы используются в ситуации, когда документ может быть отнесен к одному из нескольких разделов классификатора, а лицо, осуществляющее поиск, может не знать, к какому именно разделу.

Отсылка используется тогда, когда создатели классификатора и систематизаторы в состоянии принять четкое решение об отнесении документа к одному из разделов классификатора, а пользователь в поисках этого документа может обратиться к другому разделу. Тогда в этом другом разделе помещается отсылка (См.) в тот раздел классификатора, в котором действительно размещена информация о документах данного типа.

Например, информация о картах стран может быть размещена в разделах «Наука-География-Страна», «Экономика-География-Страна», «Справочники-Карта-Страна». Принимается решение, что карты стран помещаются во второй раздел «Экономика-География-Страна», а в остальные два раздела помещаются отсылки в него. Этот прием активно используется в Yahoo!.

Ссылка (См. также) используется в менее однозначной ситуации, когда даже создатели классификатора и систематизаторы не в состоянии принять четкого решения об отнесении документов к определенному разделу классификатора. Особенно она применяется в каталогах, использующих сетевую модель базы данных.

Распространены следующие классификационные каталоги: европейские (Yellow Web, Euroseek); американские (Yahoo!, Magellan, Infoseek и др.); русские (WWW, Stars, Weblist, Rocit, Au).

Преимущество метапоиска перед поисковыми серверами и каталогами в том, что он представляет единый интерфейс или точку доступа к индексам Internet.

Выделяют два вида инструментов множественного доступа:

1) службы множественного доступа из своих «начальных страниц» предоставляют меню с выбором поисковых средств. Популярность этих служб объясняется тем, что так много поисковых механизмов представлены в виде меню. Они допускают легкий переход от одного поискового средства к другому, не нужно ни запоминать URL-адреса, ни вводить их с клавиатуры в программу просмотра. Самые популярные службы множественного доступа All-in-One (http://www.allonesearch.com); С/Net (http://www.search, com); Internet Sleuth (http://isleuth.com);
2) мета-индексы, часто называемые мульти- или интегрированными поисковыми службами, обеспечивают единую поисковую форму, в которой пользователь вводит поисковый запрос, посы-лаемыи в несколько поисковых механизмов одновременно, и отдельные результаты представляются единым списком. Этот тип службы представляет ценность, в случае если нужна максимальная выборка документов по какому-либо определенному предмету и когда документ уникален.

Еще одним достоинством мета-индекса является то, что результаты поиска каждого поискового механизма достаточно уникальны, т. е мета-индекс не выдает дважды повторяющиеся ссылки.

Главный недостаток этого поискового механизма в том, что он не позволяет использовать индивидуальные свойства различных механизмов поиска.

Самые популярные мета-индексы Beaucoup (http://www.bea coup.com); Следопыт (http://www.medialingua.ru/www/wwwsearc.htm).

Следует заметить, что разделение между этими двумя службами весьма расплывчато. Некоторые более крупные разделы предлагают доступ к отдельным поисковым механизмам, а также ме-та-индексный поиск.

До сих пор был рассмотрен поиск в основном гипертекстовых материалов. Однако с тем же успехом можно искать и другие ресурсы Internet. Для этого существуют как специализированные поисковые механизмы (осуществляющие поиск только однотипных ресурсов), так и «обыкновенные» поисковые механизмы, предлагающие дополнительные возможности поиска не гипертекстовых документов.

Поиск людей. Нет единого списка или каталога адресов электронной почты, так же как нет единого печатного телефонного справочника для всего мира. Существует несколько коммерческих и некоммерческих справочных служб, но большинство их включают в себя какой-либо отдельный регион или дисциплину. Они составляются различными методами и могут быть собраны специальными компьютерными программами из сообщения групп новостей Internet или запущены отдельными лицами, которые необязательно являются владельцами адресов. Эти каталоги часто называются «белыми страницами» и включают в себя каталоги адресов электронной почты и почтовых адресов, а также телефонные номера. Один из самых надежных способов нахождения информации о персональных контактах, если вы знаете организацию, к которой относится человек, - это обратиться к начальной странице организации. Другой способ - использование персональных каталогов.

В результате использования поисковый механизм должен выдать URL-адрес электронной почты (e-mail) нужного человека.

Основные персональные каталоги: Кто Где (http://www. whowhere.com); Народ Яху (http://yahoo.com/search/people); Four 11 (http://www.four 1 l.com).

Специализированных поисковых механизмов, осуществляющих поиск URL-адресов конференций, не так уж и много, в частности, это DejaNews (http://www.dejanews.com -самая изощренная система поиска в телеконференциях (Usenet). Она характеризуется обилием возможностей расширенного поиска, имеет полезные фильтры для «очистки» результата, формально-логический синтаксис запросов и возможность поиска файлов.

Многие поисковые механизмы предоставляют возможность поиска конференций как дополнительную услугу (Yahoo!, Alta Vista, Anzwers, Galaxy, Info Seek и др.). В режим поиска конференций можно войти с помощью кнопки Usenet.

Поиск в файловых архивах. Internet содержит огромное количество ресурсов. Немалую их часть составляют файловые архивы на FTP-серверах. Для их поиска применяются специализированные поисковые механизмы. Регистрация файлов происходит с помощью специальных программ, причем индексируются имена файлов.

Некоторые неспециализированные поисковые механизмы также предоставляют возможность поиска в файловых архивах. Например, введя в AltaVista запрос search.ftp, мы получим ссылки на сервера, специализирующиеся на поиске файлов на FTP-архи-вах. В результате использования поисковый механизм должен выдать U RL-адрес файла.

Основные поисковые механизмы в файловых архивах: Archie (http://archie.de); Filez (http://www.filez.com); FFP-Search (http:// ftpsearch.city.ru).

Лекция 5. Оптимизация информационного поиска: рекомендации

Процесс поиска информации обычно носит эмпирический характер. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется:

информационной потребностью,
разнообразием стратегий, технологий и средств, предоставляемых системой.

Чтобы оценить адекватность выражения запроса и полноту получаемого результата, пользователь может:

отыскать дополнительные сведения,
организовать процесс поиска так, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части.

Операционными объектами, непосредственно участвующими во взаимодействии пользователей с поисковой системой являются поисковый образ документа и поисковой образ запроса .

Поисковый образ документа - описание документа, выраженное средствами информационно-поискового языка и характеризующее основное смысловое содержание или какие-либо другие признаки этого документа, необходимые для его поиска по запросу.

Технологии поиска информации - п оисковые средства и технологии, используемые для реализации информационных потребностей. Определяются типом решаемой библиотекарем задачи: соотношением его знания и незнания об исследуемом объекте. Кроме того, процесс взаимодействия библиотекаря с системой определяется уровнем его знания функциональных возможностей системы как инструмента и знания содержания ресурса (полноты представления информации, достоверности источника и т.д.).

Процедуру поиска необходимой информации необходимо разделить на четыре основных этапа:

1. Организация поиска

определение области знаний;
выбор типа и источников данных;

2. Осуществление поискового процесса

организация поиска по начальным фрагментам слова,
формулировка «поискового образа»,
итоговый уточняющий поиск

Общепринята организация поиска по начальным фрагментам слова (поиск с усечением справа). Например, вместо слова «библиотечный» можно ввести его фрагмент « библиоте*». При этом будут найдены документы, в которых содержится не только слово « библиотечный», но и « библиотека», « библиотекарь», « библиотековедение» и др. В каждом отдельном случае библиотекарь должен четко представлять, что нужно найти («формулировка поискового образа» ), так как в предложенном ему варианте будет найдено гораздо большее количество документов, чем при задании слова полностью (без усечения). В полученном массиве информации можно провести уточняющий поиск и в результате получить более релевантные и пертинентные данные.

3. Оценка результатов поиска

Результат поиска должен удовлетворять требованиям:

единственности,
полноты,
непротиворечивости

Различные виды поиска определяют различные требования к функциональным возможностям поисковой системы в части оценивания результата. Однако, для случая предметного поиска доказательство полноты является априорным: сам результат поиска подтверждает факт существования (или отсутствия) объекта, обладающего искомыми свойствами. При этом результат тематического поиска множественен и требует последующей систематизации - ещё одного процедурного шага для упорядочения полученного множества объектов по значениям не определенного явно основания. В свою очередь, проблемный поиск предполагает уже двухуровневую систематизацию.

Усложнение, конкретизация и детализация запроса, в случае неудовлетворительного ответа, осуществляются путем модификации поискового образа, то есть реформулирования запроса и проведения повторного поиска в том же массиве данных, что был получен в результате осуществления первоначального поиска. Один и тот же запрос желательно перепроверять в разных посковых системах (например, сочетание Google и Яндекса).

4. Обработка результатов поиска

отбор наиболее полезной информации;
выбор метода обработки информации
поиск закономерностей, формальных правил и структурных связей в собранной информации;
творческая интерпретация полученных результатов;
интеграция извлеченных «знаний».

Развитие процесса поиска осуществляется путем модификации выражения ПОЗ, путем реформулирования запроса и проведения повторного поиска в том же массиве данных или в подмассиве, полученном в результате осуществления первоначального поиска.

Методы обработки результатов поиска

По характеру преобразований (в контексте дальнейшего использования результатов обработки) методы обработки результатов поиска можно условно разделить на две группы:

Структурно-форматные преобразования;
Информационно-аналитические (логико-семантические, структурно-семантические преобразования).

Непосредственно для поиска используются поисковые машины, число которых в мире исчисляется несколькими сотнями. Они ориентируются на определенные типы запросов или их сочетание (библиографический, адресный, фактографический, тематический и др.). Кроме того, бывают полнотекстовые, смешанные и другие поисковые машины.

Список литературы

Растущий спрос на услуги провайдеров, предлагающих широкий спектр услуг в области облачных вычислений для большого числа пользователей по всему миру, приводит к увеличению количества приложений, целью которых является обработка больших массивов данных. Таким образом, внедрение облачных технологий определило появление новых подходов к оптимизации запросов в облачных базах данных. В статье проводится анализ эффективных методов по решению задачи оптимизации запросов. Выделены основные направления, позволяющие оптимизировать работу облачных баз данных - в облачных центрах обработки данных в формате SQL и новой парадигме построения запросов NoSQL. В статье рассмотрены архитектурно-зависимые решения, особенностью которых является использование динамического подхода. Приведены результаты экспериментального внедрения, рассмотрены достоинства и недостатки методов и подходов к оптимизации запросов.

оптимизация запросов

методы оптимизации поиска

облачные базы данных

облачные вычисления

1. Никульчев Е.В. Динамическое управление трафиком программно-конфигурируемых сетей в облачной инфраструктуре / Е.В. Никульчев, С.В. Паяин, Е.В. Плужник // Вестник Рязанского радиотехнического университета. – 2003. - № 3. - C.54-57.

2. Никульчев Е.В. Использование групп симметрий для идентификации сложных систем / Е.В. Никульчев // Вычислительные технологии.- 2004.- Т. 9. - № 3.- С. 72-80.

3. Никульчев Е.В. Построение модели загрузки каналов связи в сетях передачи данных на основе геометрического подхода / Е.В. Никульчев, С.В. Паяин // Известия высших учебных заведений. Проблемы полиграфии и издательского дела.- 2008. - № 6.- С. 91–95.

4. Плужник Е.В. Слабоструктурированные базы данных в гибридной облачной инфраструктуре / Е.В. Плужник, Е.В. Никульчев // Современные проблемы науки и образования. 2013.- № 4. URL: www.. Дата обращения: 15.10.2013.

5. Плужник Е.В. Функционирование образовательных систем в гибридной облачной инфраструктуре / Е.В. Плужник, Е.В. Никульчев // Известия вузов. Проблемы полиграфии и издательского дела. 2013. - № 3. - С. 96-105.

6. Fegaras L. An Optimization Framework for Map-Reduce Queries / L. Fegaras, C. Li, U. Gupta // Proc. of the 15th International Conference on Extending Database Technology. – ACM, 2012. – P. 26-37.

7. Jahani E. Automatic optimization for MapReduce programs / E. Jahani, M. J. Cafarella, C. Ré // Proceedings of the VLDB Endowment. – 2011. – V. 4. - N. 6. – P. 385-396.

8. Jurczyk P. Dynamic query processing for p2p data services in the cloud / P. Jurczyk, L. Xiong //Database and Expert Systems Applications. – Springer Berlin Heidelberg, 2009. – P. 396-411.

9. Lemmon M. D. Towards a passivity framework for power control and response time management in cloud computing // In Proc. of 7th Intl. Workshop on Feedback Computing, San Jose, CA.. 2012.

10. Wang X. A Decentralized Virtual Machine Migration Approach of Data Centers for Cloud Computing / X. Wang, X. Liu, L. Fan, X. Jia // Mathematical Problems in Engineering [Электронный журнал]. – 2013. – V. 2013. - Режим доступа: http://www.hindawi.com/journals/mpe/2013/878542/ , свободный. - Дата обращения 15.10.2013.

11. Zhang G. Massive Data Query Optimization on Large Clusters / G. Zhang, Chao LI, Yong Zhang, Chunxiao Xing. // Journal of Computational Information Systems. - 2012. – V. 8. – С. 3191–3198.

Введение

Существует множество определений термина «оптимизация запросов», наиболее часто встречающееся в литературе звучит следующим образом: под оптимизацией запросов понимается функция СУБД, осуществляющая поиск оптимального плана выполнения запросов из всех возможных для заданного запроса, либо процесс изменения запроса и/или структуры баз данных (БД) с целью уменьшения использования вычислительных ресурсов при выполнении запроса.

В настоящее время происходит развитие и распространение технологии «облачных вычислений» . Растущий спрос на услуги провайдеров, предлагающих широкий спектр услуг в области облачных вычислений для большого числа пользователей по всему миру, приводит к увеличению количества приложений, целью которых является обработка больших массивов данных. Функционирование баз данных в облачной среде приводит к необходимости поиска новых инструментов .

Целью данной работы является классификация и краткий анализ существующих разработок, которые могут применяться для оптимизации поиска в облачных БД.

Отметим, что топология сети также должна быть учтена при решении задачи оптимизации запросов в облачных системах хранения данных .

1. Оптимизация запросов в облачных БД SQL типа

Обработка запроса сводится к преобразованию высокоуровневого запроса в эквивалентную низкоуровневую форму, и основной трудностью при этом является обеспечение эффективности преобразования с учетом специфики облачных хранилищ.

Стандартные SQL запросы используют соединения (join), выборку (select), проекции (projections), группировки (group-by).

В приводится описание архитектуры, предназначенной для обработки и хранения больших объемов данных на основе семантических алгоритмов поиска плана исполнения текущего запроса в глобальной схеме исполнения запросов (рис. 1).

Рис. 1. Архитектура системы, основанной на SQL запросах

Ключевые принципы указанной архитектуры состоят в следующем:

1. Все файлы хранятся в локальной файловой системе (например, файловая система Windows, Linux и т.д.).

2. Облачная БД предназначена для хранения и управления огромными массивами файлов индекса и метаданных. При этом следует отметить, что облачная база данных со всем содержимым развернута поверх распределенной файловой системы.

3. Ввод запросов и получение результатов выполняется посредством пользовательского веб-интерфейса.

4. После получения пользовательского запроса выполняется семантический поиск плана исполнения текущего запроса в глобальной схеме (как подмножество).

Результаты экспериментального внедрения архитектуры, приведенные авторами в , показали четырехкратный прирост производительности, что говорит об эффективности используемых алгоритмов.

2. Оптимизация запросов в облачных базах данных NoSQL типа

Модель программирования map-reduce (MR) — популярная платформа для облачных вычислений, которая позволяет выполнять анализ больших объемов данных в облаке. MR облегчает параллельное выполнение специальных, длительных задач анализа больших объемов данных в кластере с shared-nothing архитектурой. Основная идея модели MR проста. Каждая задача MR представляется в виде map и reduce задания. Задание map указывает, каким образом будет обрабатываться пары ключ/значение для создания набора промежуточных пар, в то время как задание reduce определяет, как объединить все промежуточные значения, связанные одним промежуточным. Ядро MR для хранения и репликации данных использует распределенную файловую систему (DFS).

В основе подхода, предложенного в , лежит использование алгебры запросов и применение некоторых операторов высшего порядка, которые реализованы в существующих map-reduce системах (например, Hadoop). Отметим, что предлагаемый подход в первую очередь ориентирован на использование с языком MRQL. В отличие от других существующих map-reduce языков, таких как HiveQL и PigLatin, которые позволяют создавать скрипты с использованием недекларативных языков, MRQL достаточно выразителен и позволяет писать собственные скрипты для значительного круга задач в декларативной форме и в то же время поддается оптимизации.

Как и в случае с реляционными базами данных, целью оптимизации MRQL запросов является нахождение оптимального плана исполнения. Алгоритм оценки плана исполнения MRQL запроса состоит из следующих шагов:

1) Упрощение запроса.

2) Построение графа запроса.

3) Представление графа запроса в алгебраической форме.

4) Формирование карты алгебраической формы для оценки и улучшения плана с использованием методом алгебраической оптимизации.

5) Создание функции MR сочетания на основе MR функции reduce.

Достоинством данного подхода является то, что разработанные алгоритмы реализованы в виде фреймворка, исходный код которого находится в свободном доступе. При этом проект на данный момент активно развивается.

Система Manimal - еще одна разработка, нацеленная на оптимизацию map-reduce программ . В основе системы лежит механизм статического анализа кода для обнаружения блоков, которые могут быть оптимизированы. По заявлению авторов, как и большинство оптимизаторов языков программирования, Manimal является максимально-эффективной системой, но, тем не менее, это не гарантирует, что будут обнаружены все существующие блоки, которые могут быть оптимизированы, поскольку всегда есть возможность вести разработку таким образом, что результат в дальнейшем невозможно будет оптимизировать автоматически.

Manimal состоит из трех основных компонентов, которые позволяют полностью автоматизировать процесс оптимизации map-reduce программ. Анализатор рассматривает представленные пользователем map-reduce программы и отправляет оптимизатору полученный в результате дескриптор оптимизации. Оптимизатор использует дескриптор оптимизации с предварительно вычисляемыми параметрами, хранящимися в определенном каталоге, для того, чтобы выбрать оптимальный план исполнения, результатом является дескриптор исполнения. Этот дескриптор вместе с копией оригинальной программы отправляется фабрике исполнения. Отметим, что фабрика исполнения сохраняет стандартную map-shuffle-reduce последовательность.

Согласно Manimal для оптимизации использует три различных подхода:

1) Оптимизация выборки (selection). Выборки в коде являются результатом выполнения функции map(), которая отрабатывает только при определенных условиях, налагаемых на связанные параметры. Как и в случае с реляционной выборкой, не имеет смысла обрабатывать данные, не удовлетворяющие налагаемым условиям, любой вызов функции map() для таких данных будет бессмысленным. Как в случае реляционной выборки, оптимизация может быть выполнена с помощью B-деревьев. Существенным достижением Manimal является то, что система может автоматически определять выборки, удовлетворяющие условиям, описанным выше.

2) Оптимизация проекции (projection). Оптимизация проекций изменяет файлы данных на диске таким образом, чтобы хранились только байты, которые действительно необходимы для выполнения пользовательского кода. Сжатие исходного файла путем удаления неиспользуемых в работе полей сократит объем файла и позволит его обработать.

3) Оптимизация сжатия данных. Сжатие данных отличается от поддерживаемого в Hadoop сжатия. Hadoop хранит на диске сжатые версии входных данных и их промежуточные образы. Распаковка выполняется непосредственно перед функциями map() и reduce(). При этом Hadoop использует единую методику сжатия данных для всех файлов, в то время как Manimal позволяет использовать две семантически связанные формы сжатия: дельта-сжатие и работу непосредственно со сжатыми данными.

Результаты экспериментального внедрения Manimal на кластере из пяти узлов в двух случаях из четырех показали производительность, соизмеримую с производительностью реляционных СУБД . При этом большинство обнаруженных возможностей для оптимизации не дали существенного выигрыша в производительности. На основании экспериментов можно сделать вывод о том, что система Manimal обладает потенциалом, однако требует дальнейшего развития.

3. Архитектурно-зависимые решения

Децентрализованное управление миграцией виртуальных машин в крупномасштабных центрах облачной обработки предложено в . Основной интерес указанного подхода заключается в том, что его целью является балансировка нагрузки на оборудование посредством миграции виртуальных машин в облачном окружении, что опосредованно приводит к повышению качества поиска (очевидно, что скорость, с которой «облако» отвечает на запросы пользователя, является одним из критериев качества поиска).

Зачастую для управления ресурсами внутри крупномасштабных центров обработки данных разрабатываются и внедряются централизованные решения, однако в этом случае возникновение сбоя на управляющем узле приводит к неработоспособности всей системы в целом. В приводится описание децентрализованного механизма, позволяющего избежать указанной проблемы.

Как показано на рис. 2, каждый активный узел в процессе функционирования выборочно с заданным интервалом отправляет собственный индекс загруженности некоторым узлам системы, в то же время получая индексы загруженности случайно выбранных активных узлов. При этом целевые узлы меняются на каждой итерации. Информация о загруженности других узлов добавляется в вектор загруженности текущего. Таким образом, средняя длина вектора загруженности узла равна количеству итераций отправки индекса. Информация о загруженности будет храниться децентрализовано, что позволит избежать неприятностей в случае выхода из строя части узлов, еще одним положительным моментом является то, что сетевой трафик будет распределен по всем активным узлам (в отличие от схемы с централизованным управлением, где все пакеты должны проходить через общий узел).

Рис. 2. Децентрализованный обмен индексом загруженности.

Индекс загруженности узла представляет собой кортеж следующего вида:

LI = ,

где src - идентификатор узла, откуда был получен индекс, dest - содержит идентификатор узла, который получит индекс, util - использование процессора узлом-источником (src).

Поскольку виртуальные машины служат хостом для развертывания разнообразных приложений с различающимися рабочими нагрузками на ЦПУ, то со временем загруженность физических ЦПУ может сильно меняться. При этом решение о миграции виртуальной машины может быть принято в двух случаях:

1. Когда использование ЦПУ превышает определенный уровень (верхний порог). Целью установления верхнего порога является сохранение дополнительных вычислительных мощностей на случай возникновения ситуаций с резким (незапланированным) повышением нагрузки.

2. Когда использование ЦПУ ниже определенного уровня (нижний порог) - узел используется недостаточно. Цель установления нижнего порога состоит в том, чтобы по возможности большее число физических узлов было переведено в «спящий» режим, что позволит снизить энергопотребление.

После того, как принято решение о миграции виртуальной машины, стартует поиск узла назначения . Для этого выполняется обход вектора загруженности текущего узла с целью обнаружения узла с наименьшим потреблением ЦПУ при условии попадания в заданные интервалы. Если такой узел обнаружить не удается, выполняется поиск такого узла, индекс загруженности которого при переносе на него выбранной ВМ не превышает нижней границы загруженности. Если же и в этом случае поиск не дает результатов, один из узлов, находящихся в «спящем» режиме, переводится в активное состояние и выполняется миграция.

Следует отметить, что недостатками рассматриваемого подхода является:

1. Описываемые в алгоритмы (псевдокоды) не гарантируют обязательности выбора ВМ для миграции даже при условии необходимости в этом и наличии свободных физических узлов.

2. Не рассматривается оптимальность выбора ВМ для миграции.

3. Поиск целевого узла осуществляется не на всем наборе узлов (согласно описанию подхода).

4. Не говорится о том, как часто выполняется проверка необходимости миграции.

Алгоритмы (по крайней мере, в том виде, в котором они приведены в ) не учитывают продолжительности нахождения узла в состоянии повышенной загруженности: очевидно, что при непродолжительной загруженности длительность миграции может снизить ее эффективность.

В настоящее время ведутся направления по разработке динамических подходов, основанных на работах . Данные работы используют динамические модели в форме системы конечно-разностных моделей на основе идентифицированных моделей .

В работе рассматривается схема исполнения и оптимизации динамических распределенных запросов в облачных пиринговых сетях (рис. 3), авторами также разработан фреймворк (DObjects) для работы с p2p-сетями.

Ключевым элементом обработки запросов в предлагаемом подходе является наличие ядра, способного динамически адаптироваться к условиям сети и источникам. При этом подходе вывод результатов и физические расчеты по плану выполняются динамически и итеративно.

Такой подход гарантирует лучшую реакцию на изменение нагрузки и позволяет снизить задержки в системе. Следует отметить, что оптимизация исполнения запросов на локальных БД в текущем подходе ложится на адаптеры и источники данных.

Рис. 3. Архитектура облачной пиринговой (p2p) сети.

Исполнение и оптимизация запроса состоит из нескольких основных этапов:

1. В момент получение узлом запроса от пользователя генерируется высокоуровневый план исполнения.

2. На следующем шаге узел, исполняющий запрос, выбирает активные элементы плана сверху вниз в порядке следования. Однако исполнение активного элемента может быть делегировано любому узлу системы в целях достижения масштабирования нагрузки. Для выбора целевого узла исполнения в сети разворачивается модуль, способный адаптироваться к специфике сети и загруженности ресурсов. Если активный элемент передается на исполнение удаленному узлу, то управление его дочерними элементами так же возлагается на этот узел. Удаленный узел в свою очередь может принять решение о перемещении дочерних узлов элемента плана на исполнение другим узлам, либо выполнить локально.

Достоинством данного подхода является то, что он может быть внедрен в кратчайшие сроки, поскольку алгоритмы были реализованы в виде фреймворка (набора библиотек). Однако облачные центры обработки данных, основанные на пиринговых сетях, на данный момент мало применяются на практике.

Заключение

Каждый из представленных методов обладает как достоинствами, так и недостатками. Общим для всех недостатком является синтетичность результатов, то есть то, что статистика по внедрению получена на искусственных системах, созданных только для тестирования подхода.

Однако относительно большое количество исследований для довольно молодой области говорит о том, что проблема оптимизации актуальна и такие разработки в ближайшем времени будут востребованы.

Рецензенты:

Винокур А.И., д.т.н., профессор, директор института принтмедиа и информационных технология ФГБОУ ПВО Московский государственный университет печати имени Ивана Федорова, г. Москва.

Никульчев Е.В., д.т.н., профессор, проректор по научной работе НОУ ВПО Московский технологический институт «ВТУ», г. Москва.

Библиографическая ссылка

Леонов Д.В. МЕТОДЫ ОПТИМИЗАЦИИ ПОИСКА В ОБЛАЧНЫХ БАЗАХ ДАННЫХ // Современные проблемы науки и образования. – 2013. – № 5.;
URL: http://science-education.ru/ru/article/view?id=10654 (дата обращения: 20.08.2019). Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»

Категории

Популярное