Рубрики
Uncategorized

(1) . обнаружение частоты повторения текста в сообществе против мусора

Автор оригинала: David Wong.

Предисловие:

С ростом объема пользователей и переходом к контенту всегда будут какие-то плохие люди, оставляющие какой-то мусор в ваших продуктах или приложениях. Мусор-это не мусор в традиционном смысле, а относится к мусорному тексту, спаму, мусорным картинкам, мусорной информации в Интернете. Эти вещи подобны мусору, плавающему в воде, шаг за шагом разрушающему качество воды, поэтому создается система защиты от мусора (система фильтрации конфиденциальной и мусорной информации). В основном это: перехват спама, фильтрация рекламы в микроблогах, экран-пуля, прямая трансляция и другие сцены). В этом блоге шаг за шагом будет реализован простой прототип системы защиты от спама

1. Процесс борьбы с отходами Чтобы провести борьбу с мусором, сначала нам нужно понять основной процесс борьбы с мусором

2. Обнаружение содержимого для защиты от мусора

Когда мы получаем контент, отправленный пользователями с сервера, нам нужно определить, является ли он нежелательным контентом, а затем решить, следует ли его публиковать

Сценарий а: пользователи часто заполняют область комментариев на форуме BBS. Содержание сценария выглядит следующим образом:

A: Write enough 15 words today, ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha
B: Handsome guy plus me handsome guy plus me handsome guy plus me handsome guy plus me handsome guy plus me handsome guy plus me handsome guy plus me handsome guy plus me

Анализ защиты: в настоящее время этот текст содержит много повторяющейся информации о содержании, до 50% всего текста. Мы можем использовать Частоту повторения символов , чтобы определить, является ли это низкокачественным или мусорным содержимым

3. Техническая реализация

1. Разберите текст на строки 2. Доля символов анализа

Следующее реализует номер повторения текста с помощью получения кода PHP

function getStrRepeatRate($str)
{
    $strArr    = mb_str_split($str);
    return array_count_values($strArr);
}

Тест-Text A: write enough 15 words today, имеет имеет имеет имеет имеет имеет имеет имеет имеет имеет имеет имеет имеет имеет имеет имеет имеет имеет имеет имеет

Эффект заключается в следующем:

Среди вышеперечисленных 21 символа” ха” появилось 13 раз, что составляет 61% всего текста. Мы также можем вычислить три слова с наибольшим повторением составных символов, на которые приходится определенная доля всего текста, что может быть идентифицировано как некачественный контент или мусорная система

Хвост: Хотя будут некоторые травмы, идентификация контента часто представляет собой набор комбо-бокса. Только когда он объединен, он может проявить свою величайшую силу. В этой статье описано так много. Счастливого кодирования!