Нахождение коррелированных данных
Коррелированные данные (Correlated Data) - это взаимосвязанные данные (колонки). Рассмотрим пример:
drewpwtm@yahoo.com,Andrew,Smallhouse
qwerty@yahoo.com,Alan,Green
В этом примере первая колонка содержит email-адрес, вторая - имя, третья - фамилию. Будем считать, что две колонки коррелированны между собой, если в них есть общая подстрока, длиной не менее 3-х символов. В нашем примере в первой строке есть две такие колонки: email (drewpwtm@yahoo.com
) и имя (Andrew
) содержат одинаковую подстроку drew
. Вторая строка не содержит коррелированных колонок.
Инструмент для нахождения коррелированных данных позволяет фильтровать, т.е. удалять (Remove the rows with correlated fields) или оставлять (Keep the rows with correlated fields) только строки, которые имеют коррелированные между собой колонки.
Нужно выбрать номер входной колонки (Input Field), например, 1
, и задать (через запятую) номера колонок, которые будут проверяться на корреляцию с входной (Correlated to one of these fields), например: 2,3
.
Далее необходимо указать размер общей подстроки (Number of correlating characters), например 3
.