Викриття: що паролі говорять про людей, які їх обирають

Про паролі сказано та відомо багато. Більшість із них короткі, прості та їх досить легко зламати. Але набагато менше відомо про психологічні причини, з яких людина обирає той чи інший пароль. Wpengine проаналізували вибір паролів 10 мільйонів людей, від керівників компаній до вчених, щоб з’ясувати, що вони розповідають про речі, які ми вважаємо легко запам’ятовувати і важко вгадувати.

Який супергерой першим спадає на думку? А як щодо числа від 1 до 10? І, нарешті, яскравий колір, це який для вас? Швидко подумайте про кожну з цих речей, якщо ви цього ще не зробили, а потім об’єднайте всі три в одну фразу.

Тепер настав час нам вгадати її.

Це Супермен7червоний? Ні, а може: Бетмен3помаранчевий? Якщо ми правильно вгадали супергероя, цифру чи колір, це лише тому, що люди передбачувані. І в цьому проблема із паролями в цілому. Правда, у нас є перевага завдяки деяким оманливим питанням, але це ніщо в порівнянні з хитрістю промислового масштабу – спеціально розробленого програмного забезпечення для зламу паролів. HashCat, наприклад, може видавати 300 тис. здогадок про ваші паролі в секунду (залежно від способу хешування). Тож навіть якщо б ви вибрали Hawkeye6yellow, ваша секретна фраза рано чи пізно перестала б бути секретною.

Паролі так часто легко вгадати, тому що багато хто з нас думає про очевидні слова і числа, і комбінують їх простими способами. Експерти вирішили вивчити цю концепцію і при цьому дізнатися, що можна з’ясувати про те, як працює мозок людини, коли він або вона вибудовує слова, цифри та (сподіваюся) символи у (або, можливо, не дуже) унікальному порядку.

Для початку було обрано два набори даних для аналізу.

Два датасети, кілька побоювань

Перший набір даних — це звалище з 5 мільйонів облікових даних, яке вперше з’явилося у вересні 2014 року на одному з російських форумів BitCoin. Очевидно, це були облікові записи Gmail (і деякі Yandex.ru), але подальша перевірка показала, що хоча більшість електронних адрес були дійсними адресами Gmail, більшість паролів у відкритому вигляді були або старими (тобто більше не активними) , або паролями, які не використовувалися з відповідними адресами Gmail. Тим не менш, WordPress.com скинув 100 тис. облікових записів і заявив, що ще 600 тис. є потенційно вразливими.

Судячи з усього, дамп є паролями за кілька років, які були зібрані з різних місць і в різний спосіб. Для наших академічних цілей, однак, це не має значення. Паролі все одно були обрані власниками облікових записів Gmail, навіть якщо вони не призначалися для своїх власних облікових записів Gmail, і, враховуючи, що 98% з них більше не використовуються, експерти вважали, що можуть сміливо їх досліджувати.

Wpengine використовували цей набір даних, який ми називатимемо «витік Gmail», щоб відповісти на демографічні питання (особливо на питання, пов’язані зі статтю та віком тих, хто обирають пароль). Потім отримали ці факти шляхом пошуку серед 5 мільйонів адрес електронної пошти тих, які містили імена та роки народження. Наприклад, якщо адреса була [email protected], вона кодувалася як чоловіча, яка народилася в 1984 році. Цей метод висновків може бути непростим. Ми не будемо вас напружувати технічними подробицями, але в результаті процесу кодування було отримано 485 тис. з 5 млн адрес Gmail з кодом статі та 220 тис. з кодом віку. На цьому етапі варто згадати питання: «Чи обирають користувачі, які вказують в адресах електронної пошти свої імена та роки народження, інші паролі, ніж ті, хто цього не робить?» – Тому що теоретично це можливо. Ми обговоримо це трохи згодом.

Ось таким чином розділили користувачів за десятиліттями народження та статтю:

У дампі Gmail або принаймні серед тих людей, в адресах яких вказані імена та/або роки народження, переважають чоловіки та люди, які народилися у 80-х роках. Ймовірно, це пов’язано з демографічними профілями сайтів, бази даних яких були зламані для створення дампу. Пошук адрес серед такої кількості інформації, які містили символ + (додається користувачами Gmail для відстеження того, що сайти роблять з їхніми адресами електронної пошти), показав, що велика кількість облікових даних була отримана від File Dropper, eHarmony, сайтів для дорослих та Friendster.

Другий набір даних, який використовували для отримання більшості результатів, був щедро наданий консультантом безпеки Марком Бернеттом через його сайт xato.net. Він складається з 10 мільйонів паролів, які були зібрані з усіх куточків Інтернету протягом кількох років. Марк зібрав публічні витоки та опубліковані списки з тисяч джерел, щоб створити, можливо, один із найповніших списків реальних паролів за всю історію. Щоб дізнатися більше про цей набір даних, перегляньте розділ FAQ у його блозі.

Ми не будемо довго переказувати вам основні факти про цей набір даних (наприклад, усі середні показники). Це вже було зроблено багато разів. Натомість давайте просто розглянемо 50 паролів з 10 мільйонів, які найчастіше використовують. Потім ми зайдемо на більш цікаву територію.

Як ви бачите та, ймовірно, вже знаєте, найпоширеніші паролі – це яскраві приклади того, що відразу спадає на думку людині, коли сайт пропонує їй придумати пароль. Всі вони дуже легко запам’ятовуються і через цей факт легко вгадуються за допомогою словникової атаки. Коли Марк Бернетт проаналізував 3,3 мільйона паролів для визначення найбільш поширених у 2014 році (всі вони входять до його більшого списку з 10 мільйонів), він виявив, що 0,6% з них були 123456. А використовуючи 10 найпоширеніших паролів, хакер у середньому міг вгадати 16 із 1000 паролів.

Однак, все менше людей, ніж у попередні роки, використовують вищезазначені типи паролів. Користувачі стають трохи свідомішими щодо того, що робить пароль надійним. Наприклад, додати цифру або дві в кінці текстової фрази. Це робить його кращим, чи не так?

Майже півмільйона, або 420 тис. (8,4%), з 10 мільйонів паролів закінчувалися цифрою від 0 до 99. І майже кожна п’ята людина, яка додавала ці цифри, просто обирала 1. Можливо, вони вважали, що такий пароль найлегше запам’ятати. Можливо, сайт попросив їх включити число в базовий варіант пароля. Іншими найбільш поширеними варіантами були 2, 3, 12 (імовірно, вважалося, що це один-два, а не 12), 7 тощо. Було помічено, що якщо попросити людину подумати про число від 1 до 10, більшість відповість 7 або 3, і люди, схоже, схильні думати про прості числа. Це може зіграти свою роль, але також можливо, що однозначні числа обираються як альтернатива паролям, які люди вже використовують, але хочуть використовувати знову, не «компрометуючи» свої облікові дані на інших сайтах.

Однак це спірне питання, якщо врахувати, що гарниий зламник паролів може легко додати цифру або кілька тисяч до свого словника або застосувати метод перебору. Насправді, сила пароля зводиться до ентропії.

Оцінка ентропії пароля

Простіше кажучи, що більше ентропія пароля, то він надійніший. Ентропія збільшується з довжиною пароля та варіативністю символів, що входять до його складу. Однак, хоча варіативність символів впливає на ентропію пароля (і на те, наскільки складно його вгадати), довжина пароля має більше значення. Це пов’язано з тим, що зі збільшенням довжини пароля кількість способів перестановки його складових частин у нову комбінацію збільшується в геометричній прогресії, отже, вгадати його набагато складніше.

Средняя длина пароля из дампа Gmail составила восемь символов, и не было обнаружено существенной разницы между средней длиной паролей мужчин и женщин.

А как насчет энтропии? Что является более точным отражением надежности пароля, чем длина символов?

Средняя энтропия пароля из архива Gmail составила 21,6, что не так-то просто представить. Опять же, разница между мужчинами и женщинами была незначительной, но паролей с энтропией, близкой к нулю, было гораздо больше, чем с энтропией более 60.

Примеры паролей отличаются на один-два символа по мере изменения энтропии. Вообще говоря, энтропия увеличивается с длиной, а увеличение количества символов за счет включения цифр, заглавных букв и символов тоже помогает.

Как же Wpengine вычислили энтропию для всех 5 миллионов паролей из дампа Gmail?

Существует множество способов вычисления энтропии пароля, и некоторые методы более примитивны (и менее реалистичны), чем другие. Самый простой предполагает, что пароль можно угадать, только перебрав все комбинации его символов. Однако более разумный подход признает, что люди, как мы уже видели, любят шаблоны, и поэтому можно сделать определенные предположения о большинстве их паролей. На основе этих предположений можно установить правила для попыток угадать их пароли и использовать их для значительного ускорения процесса взлома (путем разбивки комбинаций символов на часто используемые шаблоны). Создателем метода энтропийной оценки, который здесь использовался, считается Дэн Уилер. Она называется Zxcvbn, и о ней можно подробно прочитать здесь.

Вкратце, он использует “знания” о том, как люди неосознанно включают шаблоны в свои пароли, в своей оценке того, что должен сделать хороший взломщик паролей, чтобы определить эти шаблоны. Например, пароль, по наивной оценке, имеет энтропию 37,6 бит. Однако Zxcvbn оценивает ее в ноль (самый низкий и худший показатель энтропии), поскольку учитывает тот факт, что каждый список слов, используемый взломщиками паролей, содержит слово password. Аналогичным образом он поступает и с другими более распространенными шаблонами, такими как leet speak (добавление цифр к словам, чтобы сделать их менее вероятными).

Он также оценивает другие пароли, которые на первый взгляд выглядят очень случайными, как имеющие нулевую энтропию. qaz2wsx (30-й по распространенности пароль), например, выглядит довольно случайным, верно? На самом деле, это не так. На самом деле это клавиатурный паттерн (легко повторяющийся «переход» от одной клавиши на клавиатуре к другой). Сам Zxcvbn назван в честь одного из таких шаблонов.

Wpengine отобрали 20 наиболее часто используемых клавиатурных шаблонов из набора данных о 10 миллионах паролей. Затем решили исключить шаблоны с цифрами, такие как 123456, потому что они являются лишь разновидностью клавиатурных ходов, и к тому же их так много в верхней части списка самых используемых паролей, что если бы их включили, не хватило бы места, чтобы увидеть некоторые более интересные из них.

19 из 20 приведенных выше клавиатурных паттерна выглядят примерно так же предсказуемо, как и следовало ожидать, за исключением последнего: Adgjmptw. Можете ли вы догадаться, почему именно он вошел в число наиболее часто используемых?

Если вы еще не поняли, он генерируется путем нажатия кнопок от 2 до 9 на клавиатуре смартфона (первая буква каждой из них соответствует каждой букве клавиатурного паттерна в пароле.

Сначала эксперты были озадачены этим шаблоном, потому что большинство людей не набирают буквы с помощью клавиатуры, а используют раскладку QWERTY. Затем они вспомнили о телефонах типа Blackberry, которые имеют физическую клавиатуру, где цифры всегда видны на клавишах.

Эта закономерность порождает интересный вопрос: как изменится выбор паролей, когда все больше людей будут создавать их на сенсорных устройствах, на которых некоторые символы (например, символы и заглавные буквы) выбрать сложнее, чем на обычной клавиатуре?

Конечно, клавиатурные раскладки, особенно те, что приведены выше, не представляют никакой проблемы для любого хорошего взломщика паролей. Например, Passpat использует несколько раскладок клавиатуры и умный алгоритм для определения вероятности того, что пароль составлен из клавиатурных шаблонов. Существуют и другие инструменты, позволяющие генерировать миллионы клавиатурных паттернов, составлять их и использовать как список, а не тратить время на попытки взломать одни и те же комбинации методом перебора.

Однако большинство людей не используют шаблоны клавиатуры. Они придерживаются классического и часто небезопасного метода выбора случайного слова.

Теперь вы понимаете, почему мы догадались о Бэтмене и Супермене в начале этой статьи: это самые используемые имена супергероев среди данных о 10 миллионах паролей. Важным моментом в приведенных выше списках является то, что иногда трудно понять, в каком смысле человек использует то или иное слово, когда включает его в свой пароль. Например, в списке цветов слово black иногда может означать фамилию Black; то же самое относится и к другим словам с двойным контекстом. Чтобы свести к минимуму эту проблему при подсчете частот вышеперечисленных слов, исследователи рассматривали каждый список отдельно. Например, цвета учитывались только в тех случаях, когда пароли начинались с названия цвета и заканчивались цифрами или символами. Таким образом, избежали подсчета красного в Alfred и синего в BluesBrothers. Конечно, использование такого консервативного подхода означает, что эксперты пропустили много подходящих названий цветов, но лучше знать, что приведенный выше список содержит только «определенные».

В других списках действуют иные правила. Wpengine не включали кошек и собак в список животных, потому что кошка встречается в слишком большом количестве других слов. Вместо этого посчитали кошек и собак отдельно и обнаружили, что они используются почти одинаковое количество раз. Однако кошки гораздо чаще используются в сочетании с Wild- и Bob- (спортивные команды), чем собаки в других фразах. Поэтому мы бы сказали, что собака, вероятно, побеждает в этом противостоянии.

Самые распространенные существительные и глаголы учитывались только в том случае, если они входили в 1000 лучших существительных и 1000 лучших глаголов, используемых в повседневном английском языке. В противном случае списки были бы полны существительных типа password и глаголов типа love.

Не то чтобы любовь не была интересным словом. На самом деле оно удивительно часто используется в паролях. Исследователи нашли его 40 тыс. раз в 10 млн паролей и много раз в 5 млн учетных данных Gmail.

Когда эксперты подсчитали частоту использования слова «любовь» в паролях людей, возраст которых определили по их логинам, оказалось, что те, кто родился в 80-х и 90-х годах, использовали его немного чаще, чем люди старшего возраста.

По данным Gmail, 1,4% женских паролей содержали слово love, в то время как среди мужчин этот показатель составил 0,7%. Другими словами, судя по этим данным, женщины используют слово «любовь» в своих паролях в два раза чаще, чем мужчины. Этот вывод следует по стопам других недавних исследований, посвященных слову love в паролях. Команда из Технологического института Университета Онтарио сообщила, что ilove[мужское имя] встречается в четыре раза чаще, чем ilove[женское имя]; iloveyou встречается в 10 раз чаще, чем iloveme; а <3 – второй по распространенности способ сочетания символа и числа.

Теперь, когда мы немного узнали о наиболее распространенных словах и цифрах в паролях, наиболее часто используемых клавиатурных шаблонах, концепции энтропии пароля и относительной бесполезности простых методов обфускации пароля, таких как leet speak, можем перейти к нашему последнему пункту повестки дня. Он самый личный и, возможно, самый интересный.

Пароли богатых и влиятельных

Марк Бернетт отмечает на своем веб-сайте, что утечки паролей происходят тревожно часто. В конце концов, именно с помощью поиска свежих утечек он составил подборку данных о 10 миллионах паролей. Другими событиями, которые, похоже, все чаще попадают в заголовки газет, являются громкие взломы знаменитостей и корпораций. На ум сразу приходят Дженнифер Лоуренс и компания Sony. Wpengine стало интересно, как можно использовать данные Gmail, чтобы определить, кто из известных людей пострадал от этого взлома. Другими словами, чьи пароли были опубликованы? Они сделали это с помощью API Person компании Full Contact, который берет список адресов электронной почты и прогоняет их через API нескольких крупных социальных сетей, таких как Twitter, LinkedIn и Google+. Затем он предоставляет новые данные по всем найденным адресам, такие как возраст, пол и род деятельности.

Исследователи уже знали, что в дампе Gmail оказались несколько довольно известных людей. Например, через месяц после публикации списка Mashable сообщил, что в него попал один из его репортеров. Но не думали, что Full Contact обнаружит так много других знаменитостей.

Среди 78 тыс. совпадений, которые были найдены, сотни очень известных личностей. Ниже вы найдете около 40 самых заметных. Несколько очень важных моментов:

Исследователи намеренно не называют никого по имени.

Логотипы компаний представляют те организации, в которых эти люди работают сейчас, а не тогда, когда они использовали указанный для них пароль.

Невозможно узнать, где изначально использовались пароли. Возможно, это были личные пароли Gmail, но более вероятно, что они использовались на других сайтах, таких как File Dropper. Поэтому возможно, что многие из слабых паролей не являются репрезентативными для паролей, которые люди используют на работе или где-либо еще.

Google подтвердил, что на момент публикации списка менее 2% (100 тыс.) паролей могли работать с адресами Gmail, с которыми они были сопряжены. И все затронутые владельцы учетных записей должны были сбросить свои пароли. Другими словами, приведенные ниже пароли, хотя и остаются поучительными, больше не используются. Вместо них были использованы другие, надеюсь, более надежные комбинации.

Однако если бы пароли не были сброшены, ситуация вызвала бы большее беспокойство. Несколько исследований показали, что многие из нас используют одни и те же пароли для нескольких сервисов. А если учесть, что в приведенном ниже списке есть несколько руководителей компаний, множество журналистов и кто-то очень высокопоставленный в компании по управлению талантами Джастина Бибера и Арианы Гранде, этот слив мог привести к большому хаосу. К счастью, этого не произошло, и теперь не может произойти.

Самое примечательное в приведенных выше паролях — это то, что многие из них было бы очень легко угадать, если бы для взлома использовался автономный процесс. Самый сложный из них когда-то принадлежал разработчику GitHub (ns8vfpobzmx098bf4coj), и с энтропией 96 он выглядит почти слишком случайным. Вероятно, он был создан генератором случайных паролей или менеджером паролей. Самый слабый пароль принадлежал старшему менеджеру IBM (123456), который, наоборот, кажется настолько простым, что его наверняка использовали где-то для регистрации. Многие из остальных паролей достаточно сбалансированы по сложности и простоте, чтобы предположить, что их владельцы заботились об их безопасности и хотели обезопасить учетные записи, для которых они были выбраны.

Пара интересных примеров: начальник отдела Государственного департамента США, чей пароль (но не имя) был linco1n (Линкольн), и автор Huffington Post, который пошел по стопам Малдера (из «Секретных материалов») и выбрал trustno1. И вообще, интересно посмотреть, как много известных людей из списка делали то же самое, что и многие из нас: комбинировали свои имена, даты рождения, простые слова и пару цифр для создания паршивых паролей. Хотя, наверное, в этом есть смысл. Даже президент Обама недавно признался, что однажды использовал пароль 1234567. Паролем с гораздо более высоким показателем энтропии мог бы стать PoTuS.1776. Хотя для умного взломщика это могло быть немного очевидно.

* * *

А как насчет ваших собственных паролей? Читая эту статью, вы, вероятно, думали о себе и задавались вопросом: «Может ли кто-нибудь угадать пароль к моему интернет-банку, электронной почте или блогу?». Если вы пользуетесь услугами одного из крупных провайдеров электронной почты, например Gmail, вам не стоит слишком беспокоиться о том, что ваш пароль может быть угадан методом перебора. Gmail отсекает неправомерные попытки почти сразу. Ваши банковские операции в Интернете, скорее всего, защищены аналогичным образом. Однако если у вас есть, например, блог, ситуация усложняется, поскольку, говоря простым языком, у злоумышленников больше потенциальных способов найти «вход», поэтому каждый из них должен быть проактивно защищен, чтобы не допустить этого.

Источник: Wpengine