1

Disclosure: What Passwords Say About the People Who Choose Them

Disculpa, pero esta entrada está disponible sólo en Ruso. For the sake of viewer convenience, the content is shown below in the alternative language. You may click the link to switch the active language.

О паролях сказано и известно многое. Большинство из них короткие, простые, и их довольно легко взломать. Но гораздо меньше известно о психологических причинах, по которым человек выбирает тот или иной пароль. Wpengine проанализировали выбор паролей 10 миллионов человек, от руководителей компаний до ученых, чтобы выяснить, что они рассказывают о вещах, которые мы считаем легко запоминающимися и трудно угадываемыми.

 

Какой супергерой первым приходит на ум? А как насчет числа от 1 до 10? И, наконец, яркий цвет, это какой для вас? Быстро подумайте о каждой из этих вещей, если вы еще этого не сделали, а затем объедините все три в одну фразу.

 

Теперь пришло время нам угадать ее.

 

Это Супермен7красный? Нет, а может: Бэтмен3оранжевый? Если мы правильно угадали супергероя, цифру или цвет, то это лишь потому, что люди предсказуемы. И в этом проблема с паролями в целом. Правда, у нас есть преимущество благодаря некоторым хитроумно подобранным вопросам, но это ничто по сравнению с хитростью промышленного масштаба -специально разработанного программного обеспечения для взлома паролей. HashCat, например, может выдавать 300 тыс. догадок о вашем пароле в секунду (в зависимости от способа хэширования), так что даже если бы вы выбрали Hawkeye6yellow, ваша секретная фраза рано или поздно перестала бы быть секретной.

 

Пароли так часто легко угадываются, потому что многие из нас думают об очевидных словах и числах, и комбинируют их простыми способами. Эксперты хотели изучить эту концепцию и при этом узнать, что можно выяснить о том, как работает мозг человека, когда он или она выстраивает слова, цифры и (надеюсь) символы в (или возможно, не очень) уникальном порядке.

 

Для начала были выбраны два набора данных для анализа.

 

Два датасета, несколько опасений

Первый набор данных — это свалка из 5 миллионов учетных данных, впервые появившаяся в сентябре 2014 года на одном из российских форумов BitCoin. По всей видимости, это были учетные записи Gmail (и некоторые Yandex.ru), но дальнейшая проверка показала, что, хотя большинство электронных адресов были действительными адресами Gmail, большинство паролей в открытом виде были либо старыми (т.е. более не активными), либо паролями, которые не использовались с соответствующими адресами Gmail. Тем не менее, WordPress.com сбросил 100 тыс. учетных записей и заявил, что еще 600 тыс. потенциально подвержены риску. Судя по всему, дамп представляет собой пароли за несколько лет, которые были собраны из разных мест и разными способами. Для наших академических целей, однако, это не имеет значения. Пароли все равно были выбраны владельцами аккаунтов Gmail, даже если они не предназначались для их собственных аккаунтов Gmail, и, учитывая, что 98% из них больше не используются, эксперты посчитали, что могут смело их исследовать.

 

Wpengine использовали этот набор данных, который мы будем называть «утечка Gmail», чтобы ответить на демографические вопросы (особенно на вопросы, связанные с полом и возрастом выбирающих пароль). Затем извлекли эти факты путем поиска среди 5 миллионов адресов электронной почты тех, которые содержали имена и годы рождения. Например, если адрес был [email protected], он кодировался как мужской, родившийся в 1984 году. Этот метод умозаключений может быть непростым. Мы не будем утомлять вас техническими подробностями, но к концу процесса кодирования было получено 485 тыс. из 5 млн адресов Gmail с кодом пола и 220 тыс. с кодом возраста. На этом этапе стоит вспомнить вопрос: «Выбирают ли пользователи, указывающие в адресах электронной почты свои имена и годы рождения, другие пароли, чем те, кто этого не делает?» – потому что теоретически это возможно. Мы обсудим это чуть позже.

 

Вот таким образом разделили пользователей по десятилетиям рождения и полу:

 

 

В дампе Gmail или, по крайней мере, среди тех людей, в адресах которых указаны имена и/или годы рождения, преобладают мужчины и люди, родившиеся в 80-х годах. Вероятно, это связано с демографическими профилями сайтов, чьи базы данных были взломаны для создания дампа. Поиск адресов в этом количестве информации, которые содержали символ + (добавляемый пользователями Gmail для отслеживания того, что сайты делают с их адресами электронной почты), показал, что большое количество учетных данных было получено от File Dropper, eHarmony, сайтов для взрослых и Friendster.

 

Второй набор данных, который использовали для получения большинства результатов, был щедро предоставлен консультантом по безопасности Марком Бернеттом через его сайт xato.net. Он состоит из 10 миллионов паролей, которые были собраны со всех уголков Интернета в течение нескольких лет. Марк собрал публичные, утечки и опубликованные списки из тысяч источников, чтобы создать, возможно, один из самых полных списков реальных паролей за всю историю. Чтобы узнать больше об этом наборе данных, загляните в раздел FAQ в его блоге.

 

Мы не будем долго пересказывать вам основные факты об этом наборе данных (например, все средние показатели). Это уже было сделано много раз. Вместо этого давайте просто рассмотрим 50 наиболее часто используемых паролей из 10 миллионов. Затем мы зайдем на потенциально более интересную территорию.

 

 

Как вы видите и, вероятно, уже знаете, самые распространенные пароли — это яркие примеры того, что сразу приходит в голову человеку, когда сайт предлагает ему придумать пароль. Все они очень легко запоминаются и, в силу этого факта, легко угадываются с помощью словарной атаки. Когда Марк Бернетт проанализировал 3,3 миллиона паролей для определения, наиболее распространенных в 2014 году (все они входят в его больший список из 10 миллионов), он обнаружил, что 0,6% из них были 123456. А используя 10 самых распространенных паролей, хакер в среднем мог угадать 16 из 1000 паролей.

 

Тем не менее, все меньше людей, чем в предыдущие годы, используют вышеуказанные типы паролей. Пользователи становятся немного более сознательными в отношении того, что делает пароль надежным. Например, добавление цифры или двух в конце текстовой фразы. Это делает его лучше, не так ли?

 

 

Почти полмиллиона, или 420 тыс. (8,4%), из 10 миллионов паролей заканчивались цифрой от 0 до 99. И более чем каждый пятый человек, добавлявший эти цифры, просто выбирал 1. Возможно, они посчитали, что такой пароль легче всего запомнить. А может быть, сайт попросил их включить число в базовый вариант пароля. Другими наиболее распространенными вариантами были 2, 3, 12 (предположительно, считалось, что это один-два, а не 12), 7 и так далее. Было замечено, что, если попросить человека подумать о числе от 1 до 10, большинство ответит 7 или 3, и люди, похоже, склонны думать о простых числах. Это может сыграть свою роль, но также возможно, что однозначные числа выбираются в качестве альтернативы паролям, которые люди уже используют, но хотят использовать снова, не «компрометируя» свои учетные данные на других сайтах.

 

Однако это спорный вопрос, если учесть, что хороший взломщик паролей может легко добавить цифру или несколько тысяч к своему словарю слов или применить метод перебора. В действительности сила пароля сводится к энтропии.

 

 

Оценка энтропии пароля

Проще говоря, чем больше энтропия пароля, тем он надежнее. Энтропия увеличивается с длиной пароля и вариативностью символов, входящих в его состав. Однако, хотя вариативность используемых символов влияет на энтропию пароля (и на то, насколько сложно его угадать), длина пароля имеет большее значение. Это связано с тем, что с увеличением длины пароля количество способов перестановки его составных частей в новую комбинацию увеличивается в геометрической прогрессии, а значит, угадать его гораздо сложнее.

 

 

Средняя длина пароля из дампа Gmail составила восемь символов, и не было обнаружено существенной разницы между средней длиной паролей мужчин и женщин.

 

А как насчет энтропии? Что является более точным отражением надежности пароля, чем длина символов?

 

Средняя энтропия пароля из архива Gmail составила 21,6, что не так-то просто представить. Опять же, разница между мужчинами и женщинами была незначительной, но паролей с энтропией, близкой к нулю, было гораздо больше, чем с энтропией более 60.

 

Примеры паролей отличаются на один-два символа по мере изменения энтропии. Вообще говоря, энтропия увеличивается с длиной, а увеличение количества символов за счет включения цифр, заглавных букв и символов тоже помогает.

 

Как же Wpengine вычислили энтропию для всех 5 миллионов паролей из дампа Gmail?

 

Существует множество способов вычисления энтропии пароля, и некоторые методы более примитивны (и менее реалистичны), чем другие. Самый простой предполагает, что пароль можно угадать, только перебрав все комбинации его символов. Однако более разумный подход признает, что люди, как мы уже видели, любят шаблоны, и поэтому можно сделать определенные предположения о большинстве их паролей. На основе этих предположений можно установить правила для попыток угадать их пароли и использовать их для значительного ускорения процесса взлома (путем разбивки комбинаций символов на часто используемые шаблоны). Создателем метода энтропийной оценки, который здесь использовался, считается Дэн Уилер. Она называется Zxcvbn, и о ней можно подробно прочитать здесь.

 

Вкратце, он использует «знания» о том, как люди неосознанно включают шаблоны в свои пароли, в своей оценке того, что должен сделать хороший взломщик паролей, чтобы определить эти шаблоны. Например, пароль, по наивной оценке, имеет энтропию 37,6 бит. Однако Zxcvbn оценивает ее в ноль (самый низкий и худший показатель энтропии), поскольку учитывает тот факт, что каждый список слов, используемый взломщиками паролей, содержит слово password. Аналогичным образом он поступает и с другими более распространенными шаблонами, такими как leet speak (добавление цифр к словам, чтобы сделать их менее вероятными).

 

Он также оценивает другие пароли, которые на первый взгляд выглядят очень случайными, как имеющие нулевую энтропию. qaz2wsx (30-й по распространенности пароль), например, выглядит довольно случайным, верно? На самом деле, это не так. На самом деле это клавиатурный паттерн (легко повторяющийся «переход» от одной клавиши на клавиатуре к другой). Сам Zxcvbn назван в честь одного из таких шаблонов.

 

Wpengine отобрали 20 наиболее часто используемых клавиатурных шаблонов из набора данных о 10 миллионах паролей. Затем решили исключить шаблоны с цифрами, такие как 123456, потому что они являются лишь разновидностью клавиатурных ходов, и к тому же их так много в верхней части списка самых используемых паролей, что если бы их включили, не хватило бы места, чтобы увидеть некоторые более интересные из них.

 

 

19 из 20 приведенных выше клавиатурных паттерна выглядят примерно так же предсказуемо, как и следовало ожидать, за исключением последнего: Adgjmptw. Можете ли вы догадаться, почему именно он вошел в число наиболее часто используемых?

 

Если вы еще не поняли, он генерируется путем нажатия кнопок от 2 до 9 на клавиатуре смартфона (первая буква каждой из них соответствует каждой букве клавиатурного паттерна в пароле.

 

Сначала эксперты были озадачены этим шаблоном, потому что большинство людей не набирают буквы с помощью клавиатуры, а используют раскладку QWERTY. Затем они вспомнили о телефонах типа Blackberry, которые имеют физическую клавиатуру, где цифры всегда видны на клавишах.

 

Эта закономерность порождает интересный вопрос: как изменится выбор паролей, когда все больше людей будут создавать их на сенсорных устройствах, на которых некоторые символы (например, символы и заглавные буквы) выбрать сложнее, чем на обычной клавиатуре?

 

Конечно, клавиатурные раскладки, особенно те, что приведены выше, не представляют никакой проблемы для любого хорошего взломщика паролей. Например, Passpat использует несколько раскладок клавиатуры и умный алгоритм для определения вероятности того, что пароль составлен из клавиатурных шаблонов. Существуют и другие инструменты, позволяющие генерировать миллионы клавиатурных паттернов, составлять их и использовать как список, а не тратить время на попытки взломать одни и те же комбинации методом перебора.

 

Однако большинство людей не используют шаблоны клавиатуры. Они придерживаются классического и часто небезопасного метода выбора случайного слова.

 

 

Теперь вы понимаете, почему мы догадались о Бэтмене и Супермене в начале этой статьи: это самые используемые имена супергероев среди данных о 10 миллионах паролей. Важным моментом в приведенных выше списках является то, что иногда трудно понять, в каком смысле человек использует то или иное слово, когда включает его в свой пароль. Например, в списке цветов слово black иногда может означать фамилию Black; то же самое относится и к другим словам с двойным контекстом. Чтобы свести к минимуму эту проблему при подсчете частот вышеперечисленных слов, исследователи рассматривали каждый список отдельно. Например, цвета учитывались только в тех случаях, когда пароли начинались с названия цвета и заканчивались цифрами или символами. Таким образом, избежали подсчета красного в Alfred и синего в BluesBrothers. Конечно, использование такого консервативного подхода означает, что эксперты пропустили много подходящих названий цветов, но лучше знать, что приведенный выше список содержит только «определенные».

 

В других списках действуют иные правила. Wpengine не включали кошек и собак в список животных, потому что кошка встречается в слишком большом количестве других слов. Вместо этого посчитали кошек и собак отдельно и обнаружили, что они используются почти одинаковое количество раз. Однако кошки гораздо чаще используются в сочетании с Wild- и Bob- (спортивные команды), чем собаки в других фразах. Поэтому мы бы сказали, что собака, вероятно, побеждает в этом противостоянии.

 

Самые распространенные существительные и глаголы учитывались только в том случае, если они входили в 1000 лучших существительных и 1000 лучших глаголов, используемых в повседневном английском языке. В противном случае списки были бы полны существительных типа password и глаголов типа love.

 

Не то чтобы любовь не была интересным словом. На самом деле оно удивительно часто используется в паролях. Исследователи нашли его 40 тыс. раз в 10 млн паролей и много раз в 5 млн учетных данных Gmail.

 

 

Когда эксперты подсчитали частоту использования слова «любовь» в паролях людей, возраст которых определили по их логинам, оказалось, что те, кто родился в 80-х и 90-х годах, использовали его немного чаще, чем люди старшего возраста.

 

По данным Gmail, 1,4% женских паролей содержали слово love, в то время как среди мужчин этот показатель составил 0,7%. Другими словами, судя по этим данным, женщины используют слово «любовь» в своих паролях в два раза чаще, чем мужчины. Этот вывод следует по стопам других недавних исследований, посвященных слову love в паролях. Команда из Технологического института Университета Онтарио сообщила, что ilove[мужское имя] встречается в четыре раза чаще, чем ilove[женское имя]; iloveyou встречается в 10 раз чаще, чем iloveme; а <3 – второй по распространенности способ сочетания символа и числа.

 

Теперь, когда мы немного узнали о наиболее распространенных словах и цифрах в паролях, наиболее часто используемых клавиатурных шаблонах, концепции энтропии пароля и относительной бесполезности простых методов обфускации пароля, таких как leet speak, можем перейти к нашему последнему пункту повестки дня. Он самый личный и, возможно, самый интересный.

 

Пароли богатых и влиятельных

Марк Бернетт отмечает на своем веб-сайте, что утечки паролей происходят тревожно часто. В конце концов, именно с помощью поиска свежих утечек он составил подборку данных о 10 миллионах паролей. Другими событиями, которые, похоже, все чаще попадают в заголовки газет, являются громкие взломы знаменитостей и корпораций. На ум сразу приходят Дженнифер Лоуренс и компания Sony. Wpengine стало интересно, как можно использовать данные Gmail, чтобы определить, кто из известных людей пострадал от этого взлома. Другими словами, чьи пароли были опубликованы? Они сделали это с помощью API Person компании Full Contact, который берет список адресов электронной почты и прогоняет их через API нескольких крупных социальных сетей, таких как Twitter, LinkedIn и Google+. Затем он предоставляет новые данные по всем найденным адресам, такие как возраст, пол и род деятельности.

 

Исследователи уже знали, что в дампе Gmail оказались несколько довольно известных людей. Например, через месяц после публикации списка Mashable сообщил, что в него попал один из его репортеров. Но не думали, что Full Contact обнаружит так много других знаменитостей.

 

Среди 78 тыс. совпадений, которые были найдены, сотни очень известных личностей. Ниже вы найдете около 40 самых заметных. Несколько очень важных моментов:

 

  1. Исследователи намеренно не называют никого по имени.

 

  1. Логотипы компаний представляют те организации, в которых эти люди работают сейчас, а не тогда, когда они использовали указанный для них пароль.

 

  1. Невозможно узнать, где изначально использовались пароли. Возможно, это были личные пароли Gmail, но более вероятно, что они использовались на других сайтах, таких как File Dropper. Поэтому возможно, что многие из слабых паролей не являются репрезентативными для паролей, которые люди используют на работе или где-либо еще.

 

  1. Google подтвердил, что на момент публикации списка менее 2% (100 тыс.) паролей могли работать с адресами Gmail, с которыми они были сопряжены. И все затронутые владельцы учетных записей должны были сбросить свои пароли. Другими словами, приведенные ниже пароли, хотя и остаются поучительными, больше не используются. Вместо них были использованы другие, надеюсь, более надежные комбинации.

 

Однако если бы пароли не были сброшены, ситуация вызвала бы большее беспокойство. Несколько исследований показали, что многие из нас используют одни и те же пароли для нескольких сервисов. А если учесть, что в приведенном ниже списке есть несколько руководителей компаний, множество журналистов и кто-то очень высокопоставленный в компании по управлению талантами Джастина Бибера и Арианы Гранде, этот слив мог привести к большому хаосу. К счастью, этого не произошло, и теперь не может произойти.

 

 

Самое примечательное в приведенных выше паролях — это то, что многие из них было бы очень легко угадать, если бы для взлома использовался автономный процесс. Самый сложный из них когда-то принадлежал разработчику GitHub (ns8vfpobzmx098bf4coj), и с энтропией 96 он выглядит почти слишком случайным. Вероятно, он был создан генератором случайных паролей или менеджером паролей. Самый слабый пароль принадлежал старшему менеджеру IBM (123456), который, наоборот, кажется настолько простым, что его наверняка использовали где-то для регистрации. Многие из остальных паролей достаточно сбалансированы по сложности и простоте, чтобы предположить, что их владельцы заботились об их безопасности и хотели обезопасить учетные записи, для которых они были выбраны.

 

Пара интересных примеров: начальник отдела Государственного департамента США, чей пароль (но не имя) был linco1n (Линкольн), и автор Huffington Post, который пошел по стопам Малдера (из «Секретных материалов») и выбрал trustno1. И вообще, интересно посмотреть, как много известных людей из списка делали то же самое, что и многие из нас: комбинировали свои имена, даты рождения, простые слова и пару цифр для создания паршивых паролей. Хотя, наверное, в этом есть смысл. Даже президент Обама недавно признался, что однажды использовал пароль 1234567. Паролем с гораздо более высоким показателем энтропии мог бы стать PoTuS.1776. Хотя для умного взломщика это могло быть немного очевидно.

 

*      *      *

 

А как насчет ваших собственных паролей? Читая эту статью, вы, вероятно, думали о себе и задавались вопросом: «Может ли кто-нибудь угадать пароль к моему интернет-банку, электронной почте или блогу?». Если вы пользуетесь услугами одного из крупных провайдеров электронной почты, например Gmail, вам не стоит слишком беспокоиться о том, что ваш пароль может быть угадан методом перебора. Gmail отсекает неправомерные попытки почти сразу. Ваши банковские операции в Интернете, скорее всего, защищены аналогичным образом. Однако если у вас есть, например, блог, ситуация усложняется, поскольку, говоря простым языком, у злоумышленников больше потенциальных способов найти «вход», поэтому каждый из них должен быть проактивно защищен, чтобы не допустить этого.

 

Источник: Wpengine

Related Posts

card__image

2022: Top 10 Cyber Risks for Business

Disculpa, pero esta entrada está disponible sólo en Inglés, Ruso y Ucraniano. For the sake of viewer convenience, the content is shown below in this site default language. You may click one of the links to switch the site language to another available language. A growing number of cybersecurity threats make companies toy7gguh be on […]

card__image

Cybersecurity Trends 2022

Disculpa, pero esta entrada está disponible sólo en Inglés, Ruso y Ucraniano. For the sake of viewer convenience, the content is shown below in this site default language. You may click one of the links to switch the site language to another available language. The cybersecurity industry experienced an utter chaos over 2021: the highest […]

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *