Портфоліо Баяк Богдани

Портфоліо Баяк Богдани

EDU BLOG

CAPTCHA

УДК 004.492                                                                            Баяк Б.Л.

м. Вінниця, Україна

(науковий керівник: кандидат педагогічних наук, доцент Кобися А. П.)

CAPTCHA

Постановка проблеми.  Ви коли-небудь замислювалися про ті розмиті текстові поля, які з'являються під час входу на веб-сайт? Напевно, ні. Але для них є набагато більше, ніж ви думаєте. Ще в 2000 році випускник комп'ютерної науки Карнегі-Меллонського університету Луїс фон Ан разом зі своїм радником Мануелем Блюмом створив новий засіб кібербезпеки, який називається CAPTCHA. CAPTCHA (скорочення від повністю автоматизованого тестування Turing на комп'ютерах та людях) – це програма, розроблена для захисту веб-сайтів від автоматизованих атак ботів і спамерів, генеруючи тест, який люди можуть пройти, але комп'ютери не можуть.

Аналіз попередніх досліджень. Проблему застосування CAPTCHA досліджували було висвіилено у роботах Елі Бурштейн, Стівен Бетард, Селін Фабрі, Джон С. Мітчелл, Дан Юрафскі, Кейсі Генрі, Данчо Данчев, Моні Наор.

Мета статті є висвітлення особливостей використання CAPTCHA у процесі запобігання множинних автоматичних реєстрації і відправлення повідомлень програмами-роботами (ботами).

Виклад основного матеріалу. Перший CAPTCHA був створений у 1997 році у відповідь на проблему комп'ютерних програм, які використовуються для «бомбардування» веб-сайтів рекламою або для отримання доступу до приватних даних. Наприклад, деякі комп'ютерні програми використовувалися для повторної реєстрації облікових записів електронної пошти або адрес веб-сайтів. Єдиний спосіб зупинити ці програми –  це тест, який бот не може вирішити.

Створення онлайн-тесту, який комп'ютер провалить, не є простим завданням. Будь-яка звичайна математична проблема або питання з декількома виборами буде занадто простим. А як щодо пароля, який складається з безглуздих послідовностей чисел або букв? Навіть вони не зроблять трюку, оскільки все одно можна створити програму, яка може розшифрувати метод створення послідовностей букв / цифр.

Оригінальна ітерація CAPTCHA генерує зображення, яке складається з декількох випадково вибраних і спотворених символів. Щоб отримати доступ до захищеного сайту, користувачам довелося довести, що вони були людиною, а не комп'ютером, правильно розшифрувавши та переписуючи символи. Оскільки комп'ютери не можуть обробляти спотворені зображення та текст, а також люди можуть, CAPTCHA відразу ж виявилися ефективними при перешкоджанні найбільш автоматизованим атакам. Технологія швидко вловлюється і сьогодні використовується для захисту десятків тисяч веб-сайтів. Зрештою, постійні хакери та спамери з'ясували способи перехитрити винайдену технологію, створюючи  програми, здатні читати та обходити CAPTCHA. CAPTCHA, хоча і досить ефективний як інструмент кібербезпеки, з часом ставав все менш ефективним.

Тепер фон Ан взяв технологію CAPTCHA на наступний етап за допомогою проекту ReCAPTCHA, що фінансується CyLab. Багато використовувані CAPTCHA сьогодні надають користувачам Інтернету одне зображення тексту, що містить лише незначні спотворення. Деякі CAPTCHA лише надають користувачам звичайний, неспотворений текст, а інші просять користувачів вводити відповіді на прості арифметичні запитання, такі як «Скільки буде  1 + 1». На відміну від цього, проект reCAPTCHA опирається на оригінальну концепцію використання спотворених текстових зображень, додаючи додаткові шари безпеки до CAPTCHA, забезпечуючи їх максимальну ефективність.

Критики CAPTCHA давно засуджували метод кібербезпеки як недосконалий, стверджуючи, що ті ж технологічні досягнення, які дозволяють дослідникам, таким як фон Ан, розробляти і створювати нові способи захисту веб-сайтів, також дозволяють хакерам і спамерам розробляти нові програми для лбходження CAPTCHA. Інші критики не люблять CAPTCHA на тій підставі, що їх неможливо прочитати, вимагають занадто багато роботи з боку користувача, і можуть фактично слугувати стримуючим фактором для деяких, зменшуючи трафік веб-сайту і коментарі блогу. Насправді, проте, CAPTCHA та їхні останні втілення від reCAPTCHA продовжують доводити свою ефективність у поточній боротьбі з автоматизованими атаками ботів і спаму. Коли 2009 «Time» проводив опитування, сайт був зламаний і добавилося десятки мільйонів помилкових голосів, «Time» додав reCAPTCHA до веб-сайту опитування, миттєво закривши автоматичне голосування хакерами і змусивши їх вдатися до набору в CAPTCHAs вручну, намагаючись продовжити маніпулювання результатами опитування. До додавання reCAPTCHA на веб-сайт, хакери змогли подати десятки мільйонів голосів. Після того, як reCAPTCHA був на місці, хакери змогли подати лише додаткові 200 000 голосів – це  доказ того, що reCAPTCHA працює.

CAPTCHA виявилися надзвичайно успішними у захисті веб-сайтів від спам-ботів та інших автоматизованих атак. Їх головний недолік полягає в тому, що їх важко вирішувати людям з порушеннями зору , а в деяких випадках неможливо. Це призвело до створення ряду альтернатив традиційним текстовим CAPTCHA, включаючи аудіо CAPTCHA, де використовується спотворений звуковий кліп.

Оскільки зусилля по створенню програм, які можуть перевершити CAPTCHA, стали більш складними, система була оновлена ​​і замінена на reCAPTCHA в 2009 році. Вона стала основною системою перевірки користувачів для веб-сайтів, включаючи Twitter, Facebook і Google. Дві основні нововведення з reCAPTCHA полягають у тому, що використовуються два зображення, а самі зображення вибираються автоматично.

У reCAPTCHA сканований текст аналізується за допомогою двох програм оптичного розпізнавання символів (OCR). Якщо слово не може бути ідентифіковано обома програмами, слово додається до пулу головоломок CAPTCHA. Після того, як кількість користувачів набирає слово, вважається, що найбільш поширеною є відповідь. Прийнято вважати, що відповіді, які не відповідають даним більшості користувачів, були надані комп'ютерними програмами.

Примітно, що система reCAPTCHA була спочатку розроблена не для безпеки в Інтернеті, а для допомоги в оцифровці книг. Коли система сканування книги натрапляє на слово, яке не вдається розпізнати, слово позначається і ідентифікується серією користувачів до повернення. Кожен раз, коли ви виконуєте головоломку reCAPTCHA в Google, ви мимоволі допомагаєте оцифровувати книгу. Цей факт змусив деяких критикувати систему як форму неоплачуваної праці, більш щедрі спостерігачі описують її як своєрідний краудсорсинг.

Творці reCAPTCHA описують його походження як засіб ідентифікації відсканованого тексту: “Для старих відбитків з чорними і пожовклими сторінками OCR не може розпізнати близько 20% слів. Навпаки, люди більш точні в транскрибуванні такого друку. Наприклад, дві людини, що використовують техніку "ключ і перевірка", де кожен виводить текст незалежно, а потім виявляються будь-які розбіжності, може досягти більш ніж 99% точності. "

У вересні 2009 року всіх здивувала новина про те, що Google придбав reCAPTCHA.

Ось короткий уривок з історії Wall Street Journal про оголошення:

«Google каже, що технологія reCAPTCHA може допомогти їй з деякими своїми гучними ініціативами, такими як сканування книг і газет для створення архівів, які можна шукати. Коли користувачі вводять слова, вони допомагають навчити комп'ютери читати відсканований текст, покращуючи точність комп'ютера при перетворенні відсканованих зображень у звичайний текст, процес, відомий як оптичне розпізнавання символів. "Наявність текстової версії документів є важливою, тому що звичайний текст можна шукати, легко надавати на мобільних пристроях і відображати користувачам із вадами зору", - сказав Google у своєму блозі про угоду.»

В умовах зростаючих можливостей комп'ютера традиційна графічна CAPTCHA перестає бути перешкодою для серйозних зловмисників і цілеспрямованих спамерів. Тому Google у 2017 році відмовився від традиційної інтерактивної капчі і замість цього буде аналізувати поведінку користувача самостійно. Зокрема, програма буде фіксувати рухи мишки і IP-адреса користувача. Боти, як правило, пересувають курсор найкоротшим шляхом; людина так зробити, природно, не може і не хоче.

Нова капча відображається тільки у вигляді віконця, в якому програма сама ставить галочку і повідомляє вам про те, що ви не робот.

Сильні та слабкі сторони reCAPTCHA

Сильна сторона системи reCAPTCHA виходить з того, що комп'ютерна програма, що керує тестом, не знає самої відповіді. Це означає, що було б неможливо обдурити, навіть якщо б ви дивилися на комп'ютерну програму в повному обсязі. Простіше кажучи, ви не можете обманювати, тому що сама комп'ютерна програма не знає, що таке правильна відповідь. Він приймає нечитабельний образ, а потім отримує відповідь від найпоширенішого відповіді.

Але його сила також є її слабкістю. Якщо слово занадто важко читати, то користувачі зможуть дати різні відповіді, і не буде зрозуміло, що це правильна відповідь. Більшість з нас в той чи інший час переживали розчарування, що неодноразово вводили слово, щоб сказати, що відповідь неправильна. Можливо, те, що ви набираєте, правильне, але якщо більшість інших користувачів відповіли неправильно, система визначить вас роботом.

Алгоритм, який використовується для створення CAPTCHA, повинен бути оприлюднений, хоча він може бути охоплений патентом. Це робиться для того, щоб продемонструвати, що порушення його вимагає вирішення важкої проблеми в галузі штучного інтелекту (AI), а не тільки виявлення (таємного) алгоритму, який можна було б отримати за допомогою зворотного проектування або інших засобів.

Сучасні текстові CAPTCHA розроблені таким чином, що вони вимагають одночасного використання трьох окремих здібностей - інваріантного розпізнавання, сегментації та розбору, щоб правильно виконати завдання будь-якою послідовністю.

1. Інваріантне розпізнавання означає здатність розпізнавати велику кількість змін у формах букв. Існує майже безліч версій для кожного символу, який може успішно ідентифікувати людський мозок. Те ж саме не стосується комп'ютера, і навчити його розпізнавати всі ці різні формації є надзвичайно складним завданням.

2. Сегментація, або можливість розділити одну букву від іншої, також ускладнюється в CAPTCHA, оскільки символи переповнені разом без пробілів між ними.

3. Контекст також є критичним. CAPTCHA потрібно розуміти цілісно, ​​щоб правильно ідентифікувати кожного символу. Наприклад, в одному сегменті CAPTCHA буква може виглядати як "m". Тільки тоді, коли все слово втягується в контекст, стає зрозуміло, що це "u" і "n".

Кожна з цих проблем є серйозною проблемою для комп'ютера, навіть в ізоляції. Присутність всіх трьох одночасно є тим, що робить CAPTCHA важко вирішувати.

Висновок. CAPTCHA є, за визначенням, повністю автоматизованими, що вимагає невеликого обслуговування або втручання людини для адміністрування, що призводить до вигод у вартості та надійності. Отже, CAPTCHA являє собою тип запитання-відповідь тест , який використовується в обчисленнях , щоб визначити , чи є користувач людиною.

Список використаних джерел

  1. "The reCAPTCHA Project – Carnegie Mellon University CyLab". www.cylab.cmu.edu. Archived from the original on 2017-10-27. Retrieved 2017-01-13.
  2. Shea, Michael (19 November 2015). "CAPTCHA: Spambots, eBooks and the Turing Test". The Skinny. Retrieved 9 January 2016.
  3. Анастасія Шартогашева 2017 «Google придумав невидиму капчу, яка не дратує» Новини/технології.
  4. Chellapilla, Kumar; Ларсон, Кевін; Simard, Patrice; Червінські, Марія. "Розробка людських доказів взаємодії з людьми (HIP)" (PDF) . Microsoft Research . Архів з оригіналу (PDF) 10 квітня 2015 року.
  5. Bursztein, Elie; Мартін, Матьє; Мітчелл, Джон С. (2011). "Сильні та слабкі сторони CAPTCHA на основі тексту" . Комп'ютерна та комунікаційна безпека ACM 2011 (ACM Conference CSS'2011) . Стенфордський університет.

 

Анотація. З кожним роком з'являється все більше і більше досліджень, що стосуються ефективності СAPTCHA. Необхідно визнати, що на сьогоднішній день це одна з найкращих форм захисту наших ресурсів. СAPTCHA більше призначена для блокування спаму, ніж для розпізнавання людей (що по суті і потрібно). Однак їх корисність втрачається в тому випадку, якщо в ролі спамера виступає не комп'ютер.

Ключові слова.  СAPTCHA, онлайн-тест,  веб-сайт,  кібербезпека, ReCAPTCHA,  AI,  OCR,  Google.

Abstract. Every year, more and more research is being done on the effectiveness of SAPTCHA. It must be recognized that today it is one of the best forms of protecting our resources. SAPTCHA is more designed to block spam than to identify people (which is essential and necessary). However, their usefulness is lost in the case if the role of a spammer is not a computer.

Keywords. CAPTCHA, Online Test, Website, Cybersecurity, ReCAPTCHA, AI, OCR, Google.

Зв'язатися з автором