Всем привет, сейчас расскажу как качественно почистить базу от мусора практически вручную.
Никакие нормализаторы не смогут так почистить, как почистим мы.
Софты для работы:
1. AIOC - все нормальные пацаны используют кряк.
2. Exel - любой год это роли не играет.
3. Мусорная база данных.
Что мы конкретно почистим:
1. Уберём временные почты
2. Уберём левые почтовые домены
3. Удалим строки с одинаковыми паролями
Предыстория:
Я запускал проект, и у меня начали регистрироваться пользователи, суммарно было около 1.000.000 строк. Но когда я выкачал БД, я понял что база вообще мусор, и работать с ней невозможно от слова совсем.
1. Начинаем очистку нашей базы, запускаем AIOC в меню нажимаем на Утилиты.
2. Прогоняем сначала нашу базу стандартными функциями: удаление дубликатов, и нормализатор базы.
3. После этих этапов берём получившийся файл, и прогоняем разбивкой по доменам - это нам позволит собрать почтовые ящики по доменам, и удалить различную шелуху которая нам мешает.
Пример плохого домена - смотрим и на пароли тоже, генерку видно сразу:
У меня было 15 000 доменов, понятное дело что все их мы не будем заходить и проверять. Поэтому удаляем все файлы которые весят от 1 до 3-5 кб (вообще смело). После чего у меня осталось около 200 файлов, половину я прочекал удалил плохие. И осталось их всего около 100 шт.
4. Теперь нам нужно склеить все отобранные домены в один, в этом нам снова поможет AIOC в утилитах выбираем объединение файлов.
Получившийся файл уже более менее чистый, но у меня из-за моей лени и того что я не прочекал нормально домены осталось ещё много строк с одинаковым паролем, очевидно что их регистрировал один человек.
5. Копируем содержимое нашей базы, и вставляем в exel (ctrl c + ctrl v).
Получается такая картина, что все наши почты в одном слобце. А нам это не подходит, нужно их разделить.
6. Для разделения столбцов нажимаем на столбец "A" переходим во вкладку "Данные" > Текст по столбцам > Другой разделитель [ : ]
И нажимаем Далee
7. Получили разделённые данные
8. Удаляем дубликаты паролей > Выделяем стобец с паролями, в моём случае это столбец B, переходим в данные и нажимаем удалить дубликаты
Выбираем наш столбец с паролями, остальные не трогаем. И нажимаем старт.
После чего все дубликаты паролей удаляться вместе с почтовыми ящиками.
Потом экспортируете вашу базу, и впринципе всё, у вас на выходе практически идеально чистая база.
Единственное что можно ещё прочистить, так это u.s.e.r@gmail.com - фичу с точками, но как это чистить я хз.
В итоге, из 1 000 000 строк, получил я всего 140к.
Никакие нормализаторы не смогут так почистить, как почистим мы.
Софты для работы:
1. AIOC - все нормальные пацаны используют кряк.
2. Exel - любой год это роли не играет.
3. Мусорная база данных.
Что мы конкретно почистим:
1. Уберём временные почты
2. Уберём левые почтовые домены
3. Удалим строки с одинаковыми паролями
Предыстория:
Я запускал проект, и у меня начали регистрироваться пользователи, суммарно было около 1.000.000 строк. Но когда я выкачал БД, я понял что база вообще мусор, и работать с ней невозможно от слова совсем.
1. Начинаем очистку нашей базы, запускаем AIOC в меню нажимаем на Утилиты.
2. Прогоняем сначала нашу базу стандартными функциями: удаление дубликатов, и нормализатор базы.
3. После этих этапов берём получившийся файл, и прогоняем разбивкой по доменам - это нам позволит собрать почтовые ящики по доменам, и удалить различную шелуху которая нам мешает.
Пример плохого домена - смотрим и на пароли тоже, генерку видно сразу:
У меня было 15 000 доменов, понятное дело что все их мы не будем заходить и проверять. Поэтому удаляем все файлы которые весят от 1 до 3-5 кб (вообще смело). После чего у меня осталось около 200 файлов, половину я прочекал удалил плохие. И осталось их всего около 100 шт.
4. Теперь нам нужно склеить все отобранные домены в один, в этом нам снова поможет AIOC в утилитах выбираем объединение файлов.
Получившийся файл уже более менее чистый, но у меня из-за моей лени и того что я не прочекал нормально домены осталось ещё много строк с одинаковым паролем, очевидно что их регистрировал один человек.
5. Копируем содержимое нашей базы, и вставляем в exel (ctrl c + ctrl v).
Получается такая картина, что все наши почты в одном слобце. А нам это не подходит, нужно их разделить.
6. Для разделения столбцов нажимаем на столбец "A" переходим во вкладку "Данные" > Текст по столбцам > Другой разделитель [ : ]
И нажимаем Далee
7. Получили разделённые данные
8. Удаляем дубликаты паролей > Выделяем стобец с паролями, в моём случае это столбец B, переходим в данные и нажимаем удалить дубликаты
Выбираем наш столбец с паролями, остальные не трогаем. И нажимаем старт.
После чего все дубликаты паролей удаляться вместе с почтовыми ящиками.
Потом экспортируете вашу базу, и впринципе всё, у вас на выходе практически идеально чистая база.
Единственное что можно ещё прочистить, так это u.s.e.r@gmail.com - фичу с точками, но как это чистить я хз.
В итоге, из 1 000 000 строк, получил я всего 140к.




