Вручную группировать запросы не всегда эффективно:
Поэтому придумал свой метод, который ускоряет кластеризацию и даёт осознанный результат. Облегчает жизнь
Далее расскажу про свой метод кластеризации в теории, а затем — как реализую его в Excel. Дам ссылку
Кластеризация — распределение запросов по кластерам. Кластер — это группа запросов, схожих по смыслу и набору слов. Чтобы выделить такие запросы и объединить их в кластер, нужен признак.
Используем для этого нормализованную форму запроса — уберём окончания и выстроим слова в порядке важности:
Пример готовых кластеров
Удаление окончаний позволит охватить все возможные словоформы для конкретного слова, а сортировка «по важности» — игнорировать порядок слов
Слово без окончания — это признак, который объединяет разные словоформы:
Объединение словоформ
Чтобы убирать окончания я использую mystem. Это лемматизатор от Яндекса. Он обрабатывает список слов и возвращает нормализованные значения — леммы.
Если система не уверена, какая лемма правильная,
Сортировка «по важности» позволит игнорировать порядок слов. При сортировке нормализованных значений фраз по алфавиту мы получим готовые кластеры — группы запросов, схожих по смыслу и набору слов.
Важность слова — вычисляемый параметр для конкретного списка ключевых слов. Он не определяет важность слова в общей картине мира.
Важность слова рассчитывается из частотности и количества упоминаний слов в списке. Рассмотрим на примере.
Берём список запросов с частотностью
В списке запросов встречаются слова: купить, бумеранг, классический, москва, цена, в, на. Вес слова равен сумме долей частотностей помноженных на количество упоминаний слова.
Считаем доли частотностей
Считаем вес слов
Сортируем по важности
Располагаем запросы по важности
Упорядочиваем и чистим
В итоге получили первые группы объявлений, с которыми можно работать дальше: укрупнять, объединять,
Выполняем последовательность действий в таблице с формулами. Кластеризация 1000 запросов займет 30 минут.
Собираем СЯ → собираем частотность → разбиваем запросы по словам и вычисляем доли весов →
Лист «Кластеризация», таблица «Main»
1. Вычисляем доли весов:
Доли весов = Частотность /
Чтобы избежать правки формул называйте все листы и таблицы
2. Разбиваем слова по фразам функцией «Text to columns»:
Лист «Слова — Леммы», таблица «Word»
3. Удаляем пустые ячейки
Лист «Слова — Леммы», таблица «Word»
Справочник слов
Лист «Леммы», таблица «Lemmas»
Справочник лемм
Лист «Кластеризация», таблица «Main»
Для каждого слова в столбцах
«Статусы» слов
Итак, что мы сделали. Разбили запросы по словам. Для каждого слова выделили лемму — можем объединить запросы по общим словам. Для каждой леммы посчитали вес. Остаётся выстроить слова в запросе в порядке важности. Тогда при сортировке по алфавиту запросы сами объединятся в группы объявлений.
Выстраиваем слова в порядке важности функцией SMALL. В диапазоне статусов L1 – L7 ищем самый маленький статус — это самое важное слово во фразе. Затем, ищем второй самый маленький статус — это второе по важности слово во фразе. И так еще пять раз — проверяем оставшиеся столбцы L3 – L7.
Получаем последовательность статусов. Например, 37 → 100 → 200 → 700. Для каждого статуса
Сортируем по алфавиту:
Результаты работы Кластеризатора
Полная рабочая
Игнорируя окончания и порядок слов, мы объединили запросы с одинаковым набором слов. Количество групп стремится к количеству слов — это 100 % точность инструмента. Можно использовать, если вы предпочитаете работать с запросами в точном соответствии.
Чтобы укрупнить группы, нужно уменьшить точность — снизить количество лемм, которые составляют «нормализованную форму».
Что можно удалить:
Важно: лемму не удаляем, только её «Статус» — этого достаточно, чтобы лемма не попала в «нормализованную форму»:
Процесс укрупнения групп объявлений
В основной таблице ничего править не надо — результат обновится самостоятельно.
До какой степени укрупнять: я стремлюсь к среднему
Дашборд для укрупнения в справочнике Лемм
Полученный список групп
Ещё раз алгоритм: собираем СЯ → собираем частотность → разбиваем запросы по словам и вычисляем доли весов →
«Я помогал Роме с созданием инструмента на ранних этапах. Всем рекомендую попробовать кластеризатор для ядра от 2000 ключевых слов → сэкономит время.
Инструмент можно улучшить и превратить в автоматический сервис. Также можно дорабатывать формулы определения веса лемм. Но и в текущем виде он поможет специалистам по контексту, которые работают с большой семантикой»
«Методику пробовал, но не использую в работе, потому что нечасто собираю контекст в больших объемах.
Хорошо подойдет для работы с большой семантикой, особенно в свете последних нововведений яндекса по низкочастотным запросам. Группировки помогут сэкономить много времени при подготовке ключевых фраз.
Методика на первый взгляд кажется сложной и громоздкой, но если разобраться, то процесс становится понятным и удобным»
«Кластеризация от Ромы просто находка! Методом пользуюсь каждый раз когда работаю с семантикой — собираю или корректирую кампании.
Больше всего мне нравятся три вещи:
Из минусов: все формулы я копирую из готового шаблона и переключаться между окнами одной программы неудобно. Я бы хотела иметь формулы под рукой, а может сделать
В целом, способ мне нравится тем, что механика простая и понятная, её легко внедрить и потом управлять кампаниями»
«С помощью кластеризатора сильно удобнее и быстрее сгруппировать фразы и потом писать объявления для них. Из недостатков — первый раз кажется, что это сложновато. Но когда попробуешь, то всё довольно понятно. Но эту штуку лучше автоматизировать»
Если у вас
Если хотите готовое решение — попросите программистов написать скрипт.
Я постоянно дорабатываю кластеризатор. В следующих итерациях хочу
Будут вопросы — пишите: igoshinrmn@
Записал и отредактировал Виталий Семыкин
14 июля 2023
Устройство агентства
Оценка 360: взгляд на сотрудника глазами коллегУстройство агентства
Презентация подходаУстройство агентства
Правила выживания для стажёров и сотрудниковИнструменты
Инструменты
Кластеризатор ключевых слов на Power QueryПродолжая пользоваться сайтом, вы принимаете соглашение о передаче данных.