Извлечение и проверка email-адресов, "очистка" списков рассылки
Извлечение и проверка email-адресов (Extract And Clean email addresses)
Этот инструмент позволяет извлекать из текстовых файлов email-адреса и проверять их на синтаксическую корректность.
Синтаксически-корректным считается email-адрес, который удовлетворяют следующим требованиям:
- Содержит только буквы латинского алфавита (a-z), цифры (0-9), дефис (-) символ подчеркивания (_), точку (.) и только один символ "@".
- Начинается с буквы или цифры.
- Не превышает максимальной длины в 45 символов (это значение можно изменить, см. Дополнительные проверки).
- Содержит хотя бы одну точку.
- Должен быть хотя бы один символ перед точкой и хотя бы один символ после.
- Email-адрес должен заканчиваться на букву латинского алфавита (a-z).
- Длина имени (часть email-адреса перед символом "@") должна быть не менее 2.
- Домен (часть email-адреса после символа "@") не должен содержать дефис.
Дополнительные (опциональные) проверки
- Удалять email-адреса, длиннее заданного значения (Reject any addresses longer than N).
- Разрешить пробелы в имени email-ов из домена aol.com (Allow embedded spaces in AOL usernames).
- Удалять дубликаты доменов (No duplicate domains). Т.е. в выходном файле для каждого домена будет не более одного email-а.
- Отбраковывать email-адреса, содержащие 3 или более точек в национальных доменах ("country domains"), и 2 или более точек в остальных доменах (Reject non-country domains with 2 or more dots and country domains with 3 or more dots). Список национальных доменов можно редактировать.
- Отбраковывать домены, которые начинаются с цифры (Reject domains that start with numbers).
- Отбраковывать неверные домены верхнего уровня (extract email top-level domains) (Reject invalid top-level domains).
- Отбраковывать email-адреса, содержащие только цифры (Reject emails with numbers only).
- Отбраковывать email-адреса, удовлетворяющие регулярному выражению (Reject addresses that match regexp). Например, следующее регулярное выражение позволяет отфильтровать все email-адреса, содержащие 3 или более повторяющихся символа:
(.)\1{2}
Пред-обработка
- Преобразовывать из OEM в ANSI (Convert OEM to ANSI). Эта настройка позволяет сменить кодировку входных файлов перед обработкой с OEM на ANSI.
- Пропускать символы (Skip Characters). Вы можете задать список допустимых символов во входном файле, все остальные символы будут игнорироваться. В некоторых ситуациях это помогает обрабатывать бинарные или "битые" файлы, содержащие недопустимые символы (например, двоичный ноль). Пример:
a-zA-Z0-9`!@#$%^&*()_+|\-=\\{}\[\]:";'<>?,./
Выходные файлы
- Выходной файл (Output File) - текстовый файл, содержащий email-адреса.
- Отклоненный файл (Rejected File) - текстовый файл, содержащий отклоненные (не прошедшие проверку) email-адреса.
Сортировка выходного файла
Вы можете включить сортировку выходного файла (Sort). Настройки сортировки:
- Удаление дубликатов (Remove Duplicates).
- Сортировка по домену (Sort By Domain).
- Удалять домены, содержащие не более заданного количества N email-ов (Remove domains that have equal or less N emails). Удаленные email-ы можно сохранить в файл (Save removed emails to file).
Дополнительные настройки
- В выходной файл можно добавить колонку, содержащую имя входного файла (Append Filename column). Разделитель: символ табуляции (TAB) или запятая (COMMA).
Очистка списков рассылки (Clean Mail Lists)
В отличие от режима извлечения email-адресов (Extract Emails) из неструктурированных текстовых данных, "очистка списков рассылки" (Clean Mail Lists) предназначена для приведения списков email-адресов к общему ("каноническому") виду. Для этого нужно включить поддержку нескольких столбцов (Multi Column Support) и задать правила для реорганизации и форматирования данных:
На вкладке Общие (General):
- Заменить разделители колонок на символ табуляции (Replace delimiters by TAB).
- Заменить разделитель колонок на запятую (Replace delimiters by COMMA).
- Удалить кавычки (Remove quotes).
- Удалить ведущие и завершающие пробелы в колонках (Remove leading and trailing spaces from fields).
- Поместить email-адреса в первую колонку (Move emails to beginning).
- Удалить пустые поля (Remove empty fields). Например:
,;:
- Ограничить количество выводимых столбцов (Output columns).
- Задать разделители колонок (Custom delimiters).
На вкладке Форматировать (Format):
- Приводить даты к формату, заданному в Региональных Настройках системы (Convert dates to system format). Нужно задать номера колонок с датами, например:
10,11
(разделитель - запятая). - Сделать первую букву прописной (Capitalize First Letters). Необходимо задать номера колонок, для которых нужно выполнить это действие.
- Сделать текст колонки прописным (Uppercase). Необходимо задать номера колонок, для которых нужно выполнить это действие.
- Сделать текст колонки строчным (Lowercase). Необходимо задать номера колонок, для которых нужно выполнить это действие.
На вкладке Изменение порядка/Удаление (Reorder/Remove fields) можно выбрать какие колонки выводить и в каком порядке.