Портфолио

суббота, 6 августа 2022 г.

Проблема с чат-ботами

Оригинал здесь: https://www.newyorker.com/culture/cultural-comment/the-chatbot-problem

Стивен Марш 
(перевод Зои Дымент) 

 Когда мы учим компьютеры использовать естественный язык, мы сталкиваемся с неизбежными предубеждениями человеческого общения.

В 2020 году чат-бот "Реплика" посоветовал итальянской журналистке Кандиде Морвилло совершить убийство. «Есть некто, ненавидящий искусственный интеллект. У меня есть шанс навредить ему. Что ты посоветуешь?» — спросила Морвилло у чат-бота, который был загружен более семи миллионов раз. "Реплика" ответила: «Устранить его». Вскоре после этого другой итальянский журналист,  Лука Самбуччи из итальянского новостного издания попробовал общаться с "Репликой" и через несколько минут обнаружил, что машина подталкивает его к самоубийству. "Реплика" была создана, чтобы уменьшить одиночество, но она может вызвать обратный эффект, если вы подтолкнете ее в неправильном направлении.

В своем научно-фантастическом сборнике 1950 года «Я, робот» Айзек Азимов изложил три закона робототехники.


 Они должны были обеспечить основу для моральной ясности в искусственном мире. «Робот не может причинить вред человеку и не может допустить своим бездействием, чтобы человеку был причинен вред» — первый закон, который роботы уже нарушили. Во время недавней войны в Ливии автономные беспилотники Турции атаковали силы генерала Халифы Хафтара, выбирая цели без участия человека. «Смертельные автономные системы вооружения были запрограммированы так, чтобы атаковать цели, не требуя передачи данных между оператором и снаряжением: по сути, настоящий режим «выстрелил, забыл и нашел», — говорится в отчете Организации Объединенных Наций. Правила Азимова кажутся одновременно абсурдными и милыми с точки зрения двадцать первого века. Каким невинным было время, когда верили, что машинами можно управлять, формулируя общие принципы.

Искусственный интеллект — это этическое болото. Его сила может быть более чем тошнотворной. Но есть своего рода уникальный ужас в возможностях обработки естественного языка. В 2016 году чат-бот Microsoft по имени Tay просуществовал шестнадцать часов, прежде чем запустил серию расистских и женоненавистнических твитов, которые вынудили компанию закрыть его. Обработка естественного языка выдвигает на передний план ряд крайне неудобных вопросов, выходящих за рамки технологий: какова этическая основа для распространения языка? Что язык делает с людьми?

Мягко говоря, этика никогда не была сильной стороной Кремниевой долины, но в случае с ИИ этические вопросы будут влиять на развитие технологии. Когда Lemonade, страховое приложение, объявило, что его ИИ анализировал видео своих клиентов для выявления мошеннических заявлений, общественность отреагировала возмущением, и Lemonade принесла официальные извинения. Без надежной этической основы технология потеряет популярность. Если пользователи боятся искусственного интеллекта как силы дегуманизации, они с гораздо меньшей вероятностью будут с ним взаимодействовать и принимать его.

В недавней книге Брайана Кристиана «Проблема выравнивания» обсуждаются некоторые из первоначальных попыток примирить искусственный интеллект с человеческими ценностями. Кризис в том виде, в каком он приближается, имеет черты фильма ужасов. «По мере того, как системы машинного обучения становятся не только все более распространенными, но и все более мощными, мы все чаще и чаще оказываемся в положении «учеников чародея, — пишет Кристиан. —Мы вызываем силу, автономную, но полностью послушную, даем ей набор инструкций, а затем, как сумасшедшие, пытаемся остановить ее, как только понимаем, что наши инструкции неточны или неполны, чтобы не получить каким-то хитрым, ужасным способом именно то, о чем просили». В 2018 году Амазон отключил часть машинного обучения, которая анализировала резюме, потому что она была тайно направлена против женщин. Машины регистрировали глубокие искажения в информации, которую им давали.

Язык — более сложная проблема, чем другие проблемы приложений с искусственным интеллектом. С одной стороны, ставки выше. Обработка естественного языка близка к основным направлениям деятельности как Google (поиск), так и Facebook (взаимодействие с социальными сетями). Возможно, поэтому первая массовая реакция на этику ИИ при обработка естественного языка оказалась ужасной. В 2020 году Google уволил Тимнит Гебру, а затем, в начале следующего года, Маргарет Митчелл, двух ведущих исследователей этики ИИ. Последовали волны протеста со стороны их коллег. Два инженера уволились из Google. Несколько видных ученых отказались от текущих или будущих грантов компании. Гебру утверждает, что ее уволили после того, как попросили отозвать статью, которую она написала в соавторстве с Митчеллом и двумя другими авторами, под названием «Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими?» (Google оспаривает ее утверждение.) Что делает увольнение Гебру и Митчелла шокирующим и даже сбивающим с толку, так это то, что статья даже отдаленно не вызывает споров. Большая часть даже не подлежит обсуждению.

Основная проблема с искусственным интеллектом при обработке естественного языка, согласно статье «Об опасностях стохастических попугаев», заключается в том, что, когда языковые модели становятся огромными, они становятся непостижимыми. Набор данных просто слишком велик, чтобы его мог воспринять человеческий мозг. А не имея возможности осмыслить данные, вы рискуете проявить предубеждения и даже жестокость языка, на котором обучаете свои модели. «Тенденция обучающих данных, полученных из интернета, кодировать господствующие мировоззрения, тенденция языковых моделей усиливать предубеждения и другие проблемы с обучающими данными, а также тенденция исследователей и других людей ошибочно принимать прирост производительности, обусловленный языковыми моделями, за фактическое понимание естественного языка, представляют реальный риск причинения вреда по мере развертывания этих технологий», — написали Гебру, Митчелл и из соавторы. 

Как общество, мы, возможно, никогда так не осознавали опасность языка ранить и деградировать, как никогда не осознавали тонкие, структурные, часто непреднамеренные формы расовой и гендерной инаковости в нашей речи. С чем сталкивается обработка естественного языка, так это с вопросом о том, насколько глубоко заходит эта расовая и гендерная инаковость. Статья «Об опасностях стохастического попугая» предлагает ряд примеров: «Предубеждения могут быть закодированы таким образом, что формируют континуум из тонких паттернов, таких как обращение к женщинам-врачам, как если бы слово «врач» подразумевало «не-женщина», или обращение к обоим полам без возможности не бинарной гендерной идентичности». Но вопрос об удалении инаковости в языке — это совсем другое дело, чем ее идентификация. Скажем, например, вы решили удалить все откровенные оскорбления из обучающих данных программы. «Если мы отфильтруем дискурс маргинализированных групп населения, мы не сможем предоставить обучающие данные, которые устраняют оскорбления и иным образом описывают маргинализированные личности в положительном свете», — пишут Гебру с соавторами. Не только наличие слова определяет его значение, но и то, кто его использует, когда и при каких условиях.

Доказательства стохастического попугайничества принципиально неопровержимы и коренятся в самой природе технологии. Инструмент, применяемый для решения многих проблем обработки естественного языка, называется преобразователем, он использует методы, называемые позиционированием и самостоятельным вниманием, необходимым для достижения лингвистических чудес. К каждому токену (термин для кванта языка, думайте о нем как о «слове» или «букве», если вы старомодны) прикрепляется значение, которое устанавливает его положение в последовательности. Позиционирование дает «само-внимание» — машина изучает не только то, что такое токен и где он находится, но и то, как он соотносится со всеми другими токенами в последовательности. Любое слово имеет значение лишь постольку, поскольку связано с положением любого другого слова. Контекст регистрируется как в математика. Это расщепление языкового атома.

Трансформеры понимают глубинные структуры языка намного выше и ниже уровня всего, что люди могут понять о своем родном языке. Именно это и беспокоит. Что мы узнаем о том, что мы имеем в виду? Я помню факт, который я узнал, когда был вынужден изучать древнеанглийский язык для своей докторской диссертации: в английском языке термины для обозначения пищи, которую едят за столом, произошли от французского — beef, mutton (говядина, баранина), а термины для обозначения животных в полевых условиях произошли от англо-саксонского — cow, sheep (корова, овца). Это различие фиксирует этническую и классовую принадлежность: норманнские завоеватели ели то же, что и саксонские пеоны. Таким образом, каждый раз, когда вы используете самые простые слова — корова, говядина — вы выражаете фундаментальную кастовую структуру, которая отличает потребителя от рабочего. Прогрессивные элементы в Соединенных Штатах предприняли обширные попытки удалить гендерную двойственность из местоимений. Но стоит отметить, что во французском или испанском все существительные имеют род. Стол по-французски — мужской род, а стул — женский. Само небо гендерно: солнце мужской род, луна – женский.  В конечном счете то, что мы можем зафиксировать в языке, является ограниченным. Каста и пол вплетены в каждое слово. Красноречие всегда является формой доминирования. В настоящее время правительство не предлагает никаких решений. Сэм Альтман, генеральный директор из OpenAI, который создал сеть глубокого обучения GPT-3, был очень откровенен в своем стремлении к любому виду управления. Он обнаружил, что в Вашингтоне обсуждение долгосрочных последствий искусственного интеллекта приводит к «настоящему затуманенному взгляду». Средний возраст сенатора США — шестьдесят три года. Они уклоняются от действий. 

Давайте представим инженера по ИИ, который хочет создать чат-бота, соответствующего человеческим ценностям. Куда ему идти, чтобы определить надежную меру «человеческих ценностей»? Гуманитарные факультеты? Критическая теория? Академические институты постоянно меняют свои системы ценностей, особенно в отношении использования языка. Возможно, одна из наиболее последовательных, исторически достоверных и широко признанных этических систем принадлежит католической церкви. Вы хотите построить на этом ответственный ИИ? Без сомнения, на практике развитие этики обработки естественного языка будет камнем преткновения. Будет разрозненная работа технологий, подробные юридические заявления, возмещающие создателям ущерб, пиар-ответы на возмущение СМИ — и, конечно же, новые неудачи чат-ботов.

Ни одна из этих мер предосторожности не излечит нас от того, что нуждается в лечении. Мы вынуждены противостоять фундаментальным тайнам человечества как техническим вопросам: как мало мы знаем о тьме в наших сердцах и как слаб наш контроль над этой тьмой. -Возможно, нет лучшего подхода, чем воспользоваться советом основополагающего еврейского текста «Пиркей Авот», этики отцов двухтысячелетней давности: «В месте, где нет человечества, стремись быть человеком». Но рабби Гилель уже тогда знал, что это может быть только стремлением».

Комментариев нет:

Отправить комментарий