Как мы составляем семантическое ядро

A-SEO.PRO

В своей работе мы используем исключительно комплексный подход, что позволяет находить оптимальное решение для любой поставленной задачи.

Подходя "с душой" к каждому новому проекту, мы гарантируем его своевременное, качественное, полное выполнение.

Пошаговое описание процедуры сбора, анализа, чистки, группировки семантики и составления тз копирайтерам на примере сайта, предлагающего услуги аренды строительной и спец. техники в Москве и МО.

В конце статьи доступен для загрузки пример готовой семантики.

Этап 1 – структура сайта

Первым делом с заказчиком была обсуждена и согласована будущая структура сайта. Для этого заказчик предоставил список предлагаемой его фирмой услуг. Был проведен базовый анализ ключей и составлена схема структуры сайта (услуг совсем немного, так что схема довольно проста):

В виду того, что уже в базовом анализе были выявлены ключи с различными вариантами (типами) техники, страницы 3го уровня пока не разделяли. Это будет делаться на этапе группировки статей и соответственно решаться: ключи нужно будет включать в одну статью (страницу) или разные.

Отдельно стоит отметить страничку «информации о компании». Кроме основных данных о самой компании, возможно сюда будет логичным добавить контент содержащий ключи «договор аренды спец.техники», «аренда техники по договору» и т.п. (но это разумеется можно будет сказать после выполнения основных этапов составления ядра).

После составления и группировки семантики, наверняка выявятся ключи, которые нельзя будет отнести ни в одну из групп, но которые будут подходить по тематике сайта и в теории могут привести лиды. Нет никакого смысла терять этот процент трафика, потому был создан раздел «тематические статьи». Дополнительно он будет выполнять функцию рекламного раздела – если какая-то другая фирма, предлагающая услуги в смежной области решить разместить рекламную статью – размещена оная будет именно тут.

Этап 2 – подготовка софта, базовый парсинг запросов

Теперь, имея вводные данные мы начинаем подготовку софта для работы: покупаются новые аккаунты яндекса, gmail, берутся и настраиваются/подвязываются прокси сервера/xml лимиты, пополняется баланс антикапчи. В программах проводятся настройки под задание (региональность, гео, глубина парсинга и пр.).

Также на этом этапе проводится выгрузка базовых слов из букварикса (база ключевых слов, распространяемая бесплатно – содержит на сегодня более 2 млрд (!!) фраз). При этом очень много отличных низкочастотных запросов. Так, по вводному запросу «аренда спецтехники» получили 12743 фразы:

Для вводной фразы «аренда строительный техники» - 3379. Само собой, в каждом из этих массивов огромное кол-во мусора (нетематических фраз, фраз с слишком низкой частотностью, фраз попадающих в группу «стоп» и пр.), которые будет отсеиваться.

Этап 3 - парсинг и чистка в Key Collector

Теперь приступаем к работе в основном инструменте – программе «Кей Коллектор» (КК). Для начала проводим парсинг по вводным ключевым словам из левой колонки yandex.wordstat + пакетный сбор из Google Adwords. Для наших исходных фраз напарсилось 1124 варианта:

Добавляем в нашу общую группу слова, которые были получены из Букварикса. Теперь суммарно у нас уже 16700 фраз. Следующим этапу проводим пакетный сбор поисковых подсказок из Яндекса и Google. В виду того, что тематика довольно узкая подсказки расширили наше ядро всего на 230 фраз, но в целом это тоже неплохо. Теперь наша общая группа состоит из 16930 фраз.

Теперь проведем такие же процедуры для вводных ключевых фраз страниц второго уровня (яндекс-гугл-подсказки):

Теперь наш общий массив фраз составляет 23044 штук. Можно переходить к первичной чистке: вначале определяем частоту по точному вхождению (с восклицательным знаком). Нас будут интересовать запросы с частотой по точному вхождению от 10. Все, что ниже – удаляем, это все т.н. «пустышки».

Процесс довольно небыстрый. При этом некоторые фразы анализатор Директа обработать не может, т.к. встречаются слишком длинные фразы, спец. символы и пр. Для таких ключей используем анализатор вордстата:

Он сверх медленно собирает значения, потому его смысл использовать есть только на небольших группах (в нашем случае – на остатке фраз, которые не были проанализированы). Дожидаемся завершения, выделяем все фразы, которые имеют точную частотность от 9 (включительно) и ниже – удаляем. И вот объем слов сразу резко уменьшается – остается 2845 фраз. Двигаемся дальше.

Этап 3 – чистка фильтрами, вторая итерация парсинга

Теперь оставшиеся ключи пропустим через каскад фильтров и отсеем лишнее. Первым делом делом пропустим ключи через стоп-слова (мы используем 2 фильтра: «адалт» и «нетемат» - включающий в себя фразы с приставками – фото, - видео, - картинки и т.п.)

Затем делаем фильтр по названиям населенных пунктов, областей и т.п. В виду того, что услуги, предлагаемые сайтом проводятся только в Москве и МО – остальные смело удаляем. Пропускаем через список городов Беларуси, Украины, России (тут соотв. исключаем Москву, МО и города МО).

Далее проводим выборку слов состоящих из 1 слова, таких набралось 26 шт.:

Теперь переходим в анализ групп, где проводим сортировку и чистку по словам, составу фраз, поисковой выдаче:

Все лишнее естественно удаляем. Все непонятные слова проверяем через поисковики/википедию. Для примера: смутила фраза «воровайки» (по запросу выдавало музыкальные группы), но добавив уточняющую фразу «машина» - получили народное название погрузчика-манипулятора.

После этого проводим анализ и чистку по т.н. «неявным дублям»:

И вот после этих манипуляций у нас осталось 1583 запроса. По идее уже можно было бы переходить к группировке, но нет. После этого мы делаем еще один круг парсинга запросов, при этом в качестве вводных слов используем все эти 1583 запроса! Это позволяет еще расширить ядро и «подхватить» фразы и их «хвосты», которые могли быть пропущены в первых двух парсингах. Ведь если уже делать ядро – делать по максимуму!

Эти 1583 запроса мы прогоняем как вводные для вордстата яндекса, гугл адвордса и подсказок. Разумеется, такой огромный объем данных даже на пачке отдельных прокси и аккаунтов парсится совсем не быстро. Ждем.

Небольшой секрет: если в первом круге чистки не удалять фразы, а переносить их в отдельную папку (группу), то при втором круге парсинга эти ключи естественно повторно добавляться не будут. Но при этом увеличивается нагрузка на комп (на слабых машинах могут начаться жуткие "тормоза").

Пока можно парсится можно поглядеть на видео про нейронные сети. Как думаете – смогут ли такие алгоритмы применять в составлении ядра? Если да - то как?

И вот парсинг завершен. Смотрите, как увеличился общий объем ключей. Из-за того, что было большое кол-во вводных слов, общий объем стал 82596!

Теперь наша задача - пропустить через фильтры и провести чистку этого массива фраз. Не откладывая дело в долгий ящик, приступаем. Такой объем разумеется требует уже поболее времени. Но все рано или поздно выполняется, и после прохождения всех этапов имеем на выходе 9460 фраз (но это еще не финал чистки - в общем массиве остались запросы, которые явно "не по теме", но по одному их удалять - нерационально, они будут убраны при группировке, т.к. не попадут ни в одну тематическую группу).

Также стоить отметить, что во время выполнения второго круга было выявлено три особенности. Первая: довольно большое кол-во ключей, косвенно связанных с бизнесом клиента. А именно фразы по типу "экскаватор погрузчик джисиби", "бульдозер комацу 155" и пр. - без уточняющих слов ("аренда", "заказать" и т.п.). В целом из таких ключей можно получить какой-то процент конверсионного трафика.

Вторая особенность, с которой мы столкнулись - в массиве фраз встречается довольно большое кол-во запросов про конкретные виды техники (машины, забивающие сваи, мотобуры и пр.), под которые в виду их узкой специализации не было отдельных разделов на сайте. Кроме того, после анализа выяснилось, что группы "аренда погрузчика" и "аренда манипулятора" есть смысл объединить в одну.

Третья особенность - наличие ключей, описывающих услуги, в которых может быть использована предлагаемая сайтом заказчика техника. Например: "доставка кирпичей манипулятором".

Связавшись с заказчиком мы уточнили все эти моменты и приняли следующие решения: общие фразы, описывающие технику используем в разделе "статьи", но статьи выписываем под них в последнюю очередь. Вначале разумеется пишем под целевые коммерческие ключи. Под узконаправленную технику создаем еще один раздел на сайте, который так и назовем - "Прочая техника". Ключи, описывающие услуги (как вышеназванная "доставка кирпичей", "..песка, щебня" и пр.) - убираем совсем.

Этап 4 - группировка

Ну что же, базовый набор фраз есть, можно их группировать и составлять задания на написание статей. Кластеризация семантического ядра - это процесс "раскидывания" ключей по смысловым группам. Причем проводится это абы как, а по определенному алгоритму: вначале, для каждого запроса из ядра сохраняются адреса страниц из топов выдачи поисковиков. Затем проводится их сравнение (сравниваются адреса и фразы). В итоге, подбираются оптимальные группы фраз, каждая из этих групп будет соответствовать одной странице.

Для этой цели мы используем программу KeyAssort, которая замечательно взаимодействует с данными, выгружаемыми из KeyCollector

Перед импортом данных есть смысл удалить в ексель-файле, выгруженном из КК лишние столбцы, для группировки нам достаточно столбцов "фраза" и "Частота "!" [YW]".

После этого можно начинать собирать данные. Кстати, данная программа для работы требует не распознавание капчи, а наличие XML лимитов. Потому стоит позаботиться заранее о наличии оных (можно использовать свои из панели Я.Вебмастер, можно купить чужие, выставленные на продажу в специальных биржах). Вначале жмем "Сбор данных" (софтина начнет собирать данные страниц, как уже писали выше). По завершении процесса жмем "Кластеризовать". Силы 3 будет вполне достаточно.

В результате все наши ключи сформировали более чем 1000 групп. Сразу видны не тематические группы, которые можно смело удалять. На скрине показано общее кол-во групп и пример хорошей группы:

Идем далее. Теперь в правой части рабочей области KeyAssort создаем папки будущих рубрик сайта, которые мы создавали/утверждали в самом начале работы. По итогу это выглядит примерно вот так:

Теперь потихоньку из левой колонки перетаскиваем группы в соответствующие категории правой. Не тематические - удаляем. Кстати, используя инструмент фильтров можно очень удобно выбирать вначале самые "нужные" ключи:

Для данного ядра полностью разгруппированный вариант мы отправим заказчику, тут же в варианте-примере мы закинем буквально по паре групп в каждую категорию. Уверены, что суть вполне понятна. Имеем примерно следующее:

Можно переходить к следующему этапу.

Этап 5 - составление тз на статьи

Теперь пришло время на основании всех собранных данных составить техническое задание на написание статей для копирайтеров. Разумеется этот этап тоже проводится не "от фонаря". Для того, чтобы составить правильное тз нужно провести анализ каждой статьи-конкурента в выдаче, посмотреть объем, плотность вхождения ключей, кол-во "воды" и прочие и прочие параметры. Мы ориентируемся на статьи, находящиеся в ТОПах выдачи. Ведь если поисковые системы дали им эти высокие позиции и считают их контент качественным, значит нужно сделать также и чуточку лучше.

По поводу источника для написания статей: в идеале конечно пригласить группу специалистов, которые расскажут что да как в этой теме и на основании их авторитетного мнения будут написаны статьи. Но будем реалистами - в большинстве случаев пригласить таких людей не представляется возможным. Поэтому за основу берем статьи на сайтах-конкурентах.

Обратите внимание: поисковики уже давным-давно научились отличать рерайт. И если источником является только 1 статья конкурента, о топовых позициях можно и не думать. Чтобы создать действительно качественный контент, нужно взять 2-3 разных конкурентных статьи, выбрать из них самое лучшее и интересное, отрерайтить, возможно добавить еще полезностей. И вот тогда можно рассчитывать на благосклонность поисковых алгоритмов.

Для составления ТЗ мы используем специализированный сервис (ссылку не даем, тк. он закрытый для регистраций). В итоге, для каждой группы ключей мы получаем примерно следующее ТЗ:

Как видите, задание довольно объемное, но если делать - то лучше же делать качественно! Завершаем анализ и составление тз для каждой группы, добавляем информацию в ексель файл с ключами. Для примера мы составили ТЗ еще для нескольких статей. В отчете заказчику само собой ТЗ присутствует у каждой группы ключей.

Ну и собственно пример ядра (если быть более точным - его части) можно скачать по этой ссылке.

Заключение и выводы

Как видите, нет ничего космического в услуге составления семантического ядра. Каждый, имея необходимый софт и попрактиковавшись какое-то время, может научится работать с семантикой. Логично, что если вам нужно ядро для одного-двух проектов, покупка софта и время на обучение вряд ли окупят себя. Потому абсолютно разумным будет заказать разработку семантики у специалистов, которые имеют все необходимое техническое обеспечение и достаточный практический опыт. Например, у нас! =)

>> Наша услуга составления семантического ядра <<