Skip to content

Извлечение и проверка email-адресов, "очистка" списков рассылки

Извлечение и проверка email-адресов (Extract And Clean email addresses)

Этот инструмент позволяет извлекать из текстовых файлов email-адреса и проверять их на синтаксическую корректность.

Синтаксически-корректным считается email-адрес, который удовлетворяют следующим требованиям:

  • Содержит только буквы латинского алфавита (a-z), цифры (0-9), дефис (-) символ подчеркивания (_), точку (.) и только один символ "@".
  • Начинается с буквы или цифры.
  • Не превышает максимальной длины в 45 символов (это значение можно изменить, см. Дополнительные проверки).
  • Содержит хотя бы одну точку.
  • Должен быть хотя бы один символ перед точкой и хотя бы один символ после.
  • Email-адрес должен заканчиваться на букву латинского алфавита (a-z).
  • Длина имени (часть email-адреса перед символом "@") должна быть не менее 2.
  • Домен (часть email-адреса после символа "@") не должен содержать дефис.

Дополнительные (опциональные) проверки

  • Удалять email-адреса, длиннее заданного значения (Reject any addresses longer than N).
  • Разрешить пробелы в имени email-ов из домена aol.com (Allow embedded spaces in AOL usernames).
  • Удалять дубликаты доменов (No duplicate domains). Т.е. в выходном файле для каждого домена будет не более одного email-а.
  • Отбраковывать email-адреса, содержащие 3 или более точек в национальных доменах ("country domains"), и 2 или более точек в остальных доменах (Reject non-country domains with 2 or more dots and country domains with 3 or more dots). Список национальных доменов можно редактировать.
  • Отбраковывать домены, которые начинаются с цифры (Reject domains that start with numbers).
  • Отбраковывать неверные домены верхнего уровня (extract email top-level domains) (Reject invalid top-level domains).
  • Отбраковывать email-адреса, содержащие только цифры (Reject emails with numbers only).
  • Отбраковывать email-адреса, удовлетворяющие регулярному выражению (Reject addresses that match regexp). Например, следующее регулярное выражение позволяет отфильтровать все email-адреса, содержащие 3 или более повторяющихся символа:
(.)\1{2}

Пред-обработка

  • Преобразовывать из OEM в ANSI (Convert OEM to ANSI). Эта настройка позволяет сменить кодировку входных файлов перед обработкой с OEM на ANSI.
  • Пропускать символы (Skip Characters). Вы можете задать список допустимых символов во входном файле, все остальные символы будут игнорироваться. В некоторых ситуациях это помогает обрабатывать бинарные или "битые" файлы, содержащие недопустимые символы (например, двоичный ноль). Пример:
a-zA-Z0-9`!@#$%^&*()_+|\-=\\{}\[\]:";'<>?,./

Выходные файлы

  • Выходной файл (Output File) - текстовый файл, содержащий email-адреса.
  • Отклоненный файл (Rejected File) - текстовый файл, содержащий отклоненные (не прошедшие проверку) email-адреса.

Сортировка выходного файла

Вы можете включить сортировку выходного файла (Sort). Настройки сортировки:

  • Удаление дубликатов (Remove Duplicates).
  • Сортировка по домену (Sort By Domain).
  • Удалять домены, содержащие не более заданного количества N email-ов (Remove domains that have equal or less N emails). Удаленные email-ы можно сохранить в файл (Save removed emails to file).

Дополнительные настройки

  • В выходной файл можно добавить колонку, содержащую имя входного файла (Append Filename column). Разделитель: символ табуляции (TAB) или запятая (COMMA).

Очистка списков рассылки (Clean Mail Lists)

В отличие от режима извлечения email-адресов (Extract Emails) из неструктурированных текстовых данных, "очистка списков рассылки" (Clean Mail Lists) предназначена для приведения списков email-адресов к общему ("каноническому") виду. Для этого нужно включить поддержку нескольких столбцов (Multi Column Support) и задать правила для реорганизации и форматирования данных:

На вкладке Общие (General):

  • Заменить разделители колонок на символ табуляции (Replace delimiters by TAB).
  • Заменить разделитель колонок на запятую (Replace delimiters by COMMA).
  • Удалить кавычки (Remove quotes).
  • Удалить ведущие и завершающие пробелы в колонках (Remove leading and trailing spaces from fields).
  • Поместить email-адреса в первую колонку (Move emails to beginning).
  • Удалить пустые поля (Remove empty fields). Например: ,;:
  • Ограничить количество выводимых столбцов (Output columns).
  • Задать разделители колонок (Custom delimiters).

На вкладке Форматировать (Format):

  • Приводить даты к формату, заданному в Региональных Настройках системы (Convert dates to system format). Нужно задать номера колонок с датами, например: 10,11 (разделитель - запятая).
  • Сделать первую букву прописной (Capitalize First Letters). Необходимо задать номера колонок, для которых нужно выполнить это действие.
  • Сделать текст колонки прописным (Uppercase). Необходимо задать номера колонок, для которых нужно выполнить это действие.
  • Сделать текст колонки строчным (Lowercase). Необходимо задать номера колонок, для которых нужно выполнить это действие.

На вкладке Изменение порядка/Удаление (Reorder/Remove fields) можно выбрать какие колонки выводить и в каком порядке.