Skip to content

Разные утилиты

"Разные утилиты" (Misc. Utilities) содержит несколько утилит для работы с текстовыми файлами.

Извлечь имена

Extract Usernames - извлечь имена пользователей из email-адресов (часть email до символа "@").

Извлечь домены

Extract Domains - извлечь домены из email-адресов (часть email после символа "@").

Извлечь колонки

Extract Fields - извлечь колонки. Нужно ввести номера колонок через запятую, например 1,2,3. Разделители колонок: запятая или символ табуляции.

Выбрать строки с N или более колонок

Extract Lines with N or more fields - нужно выбрать количество колонок N (от 1 до 40).

Заменить CR и LF на CRLF, CR и СRLF на LF, LF и CRLF на CR

CR и LF - это управляющие символы, которые используются для обозначения конца строк в текстовых файлах. CR - возврат каретки (Carriage Return). LF - перевод строки (Line Feed). В Windows принят двух-символьный признак конца строки (CRLF = CR+LF). В Unix-системах (Linux, Mac OS X, etc.) используется один символ: LF. Иногда встречаются текстовые файлы с признаком конца строки CR.

Утилита "Заменить CR и LF на CRLF" (Replace CR and LF by CRLF) приводит текстовый файл к формату, принятому в Windows, с признаком конца строки CRLF.

Аналогично "Заменить CR и CRLF на LF" (Replace CR and CRLF by LF) устанавливает признаком конца строки LF, а "Заменить LF и CRLF на CR" (Replace LF and CRLF by CR) - CR.

Добавить строку в начало

Утилита "Добавить строку в начало" (Add specified prefix to the beginning) вставляет указанную строку ("префикс") в начало каждой строки входного файла. Если включена опция "модифицировать колонки" (Modify Fields), то префикс будет вставлен в начало каждой указанной колонки (номера указываются через запятую).

Добавить строку в конец

Утилита "Добавить строку в конец" (Add specified extension to the end) аналогична предыдущей, но добавляет указанную строку в конец каждой строки или колонки файла.

Заменить

Утилита позволяет заменять (replace) текст (text), пустые колонки (blanks) или последовательности символов, задаваемые регулярным выражением (regex), на указанную строку. Аналогично предыдущим двум утилитам, изменяются либо строки целиком, либо указанные колонки (Modify Fields). В строке, на которую делается замена, можно использовать специальные последовательности символов и макросы:

  • ^t - символ табуляции.
  • ^r - символ "возврат каретки" (CR).
  • ^n - символ "перевод строки" (LF).
  • ^p - CR+LF.
  • ^^ - символ ^.
  • {%RND(<range>)%} - целое случайное число. <range> задает диапазон значений случайного числа: от 0 до range-1. Пример: {%RND(10)%}

Вычислить хеш-значение

Утилита "вычислить хеш-значение" (Calculate Hash) позволяет получить следующие типы хешей: MD5, SHA1, SHA256, SHA512. Если включена опция "поддержка много-колоночных листов" (Multi Column Support), то считается хеш колонки с email-адресом, иначе - хеш всей строки.

Настройка Соль (Salt) позволяет вычислить хеш значение "с солью", т.е. по следующему алгоритму:

значение = HASH(соль + email)

Результат (хеш) выводится в шестнадцатеричном (HEX) формате. К выводимому результату можно приписать слева префикс 0x, например: 0x6e068a501239876c1cdc403b2f698187.

Также можно выбрать выводимый формат (Output Format):

  • hash - выводить только хеш значение.
  • email,hash - выводить email и хеш (разделитель - запятая).
  • source_line,hash - выводить исходную строку и хеш (разделитель - запятая).

Сортировка выходного файла

Можно включить сортировку выходного файла (Sort). Настройки сортировки:

  • Удаление дубликатов (Remove Duplicates).
  • Сортировка по домену (Sort By Domain).

Вывод во входной файл

Настройка "Вывод во входной файл" (Output File: Same As Input) позволяет перезаписать исходные файлы.