От БЯМ до галлюцинаций: краткий словарь для понимания, что такое искусственный интеллект
НЛП, ИНС, токенизация и при чём здесь тест Тьюринга? 20+ сленговых слов из области ИИ.
Искусственный интеллект (ИИ) — это последняя мировая технологическая революция. Так же, как и бум криптовалюты познакомил нас с целой кучей новых сленговых слов и жаргонизмов, шумиха вокруг нейросетей принесла в мир набор новых терминов, часто используемых СМИ и блогерами, которые редко объясняют их значение.
Если вы задумывались об этой теме и хотите знать разницу между чат-ботом и большой языковой моделью или между глубоким и машинным обучением, вы попали куда нужно. Мы собрали термины с объяснениями, связанные с ИИ, без которых вам будет трудно понять современные технологии интеллектуальных машин.
Искусственный интеллект (ИИ)
Artificial intelligence, AI, что в переводе с английского переводится как искусственный интеллект, ИИ. Это интеллектуальные компьютерные системы, умеющие выполнять различные функции, которые ранее считались прерогативой человека.
Проще говоря, ИИ — это интеллект в компьютерах, имитирующий человеческий интеллект. На самом деле это более широкий термин, который охватывает множество различных типов машинного интеллекта, но в данный момент во всем мире разговоры об ИИ в основном ведутся вокруг инструментов, создающих искусство, контент и резюмируют или транскрибируют контент. Можно ли называть эти инструменты «интеллектуальными», вопрос, конечно, спорный, но ИИ — это термин, который закрепился за такими машинами.
Алгоритм
Алгоритм — это набор инструкций, которым следует программа, чтобы предоставить вам результат. Распространенными примерами компьютерных алгоритмов являются поисковые системы, показывающие вам набор результатов по вашим запросам, или приложения социальных сетей, показывающие контент на основе рекомендательных систем, то есть на основе ваших интересов. Алгоритмы позволяют инструментам искусственного интеллекта создавать предиктивные модели или генерировать контент или изображения/фото/видео/художественные картины/графику на основе входных данных, введенных пользователем. В отличие от классических компьютерных алгоритмов, в машинах с ИИ алгоритмы имеют возможность самообучаться.
Предвзятость (Bias)
В контексте ИИ предвзятость относится к ошибочным результатам, полученным из-за того, что алгоритм делает неверные предположения или не имеет достаточных данных для результата. Например, инструменты распознавания речи могут не понимать правильно некоторые акценты английского языка, поскольку машина была обучена на базе инструментов, в которых были данные голосов с американским акцентом. Это явная ошибка разработчика, недостаточно подготовившего машину в процессе первоначального обучения.
Кстати, есть много видов предвзятости ИИ, начиная от банальной ошибки алгоритма и заканчивая более сложным поведением машин, когда они выдают несправедливые результаты из-за внутренних предубеждений данных и процессов обучения.
Разговорный ИИ (Conversational AI)
Инструменты нейросетей, с которыми вы можете напрямую общаться, называются разговорным ИИ. Например, к ним относятся чат-боты или различные голосовые помощники. То есть если вы сами спрашиваете бота о чем-то, это разговорный искусственный интеллект.
Добыча данных (Data mining)
Это процесс добычи данных (интеллектуальный анализ) больших наборов информации для поиска закономерностей или тенденций. Некоторые инструменты ИИ используют просев информации, чтобы помочь вам понять, что заставляет людей покупать больше товаров в магазине или на веб-сайте или как оптимизировать бизнес для удовлетворения возросшего спроса в сезон распродаж и праздники.
Глубокое обучение (на английском Deep learnin) — это модель обучения нейросетей, основанная на методах обучения человеческого мозга, в которой используется три или более «слоя». Отсюда и название «глубинные», или «глубокие», нейронные сети, которые создаются для обработки больших объемов данных и обучения на примерах. Каждый из этих слоев сначала обрабатывается по отдельности, а уже потом полученные результаты объединяются, чтобы установить связи друг с другом (по типу работы нейронов в головном мозге человека) для достижения окончательного результата.
Кстати, программное обеспечение для беспилотных автомобилей как раз и использует нейросеть с глубоким обучением, чтобы автопилот знал, где нужно останавливать транспортное средство, чтобы электроника понимала дорожную разметку, светофоры, дорожные знаки и другие дорожные объекты. Это достигается путем демонстрации инструменту искусственного интеллекта множества примеров того, как выглядит определенный объект (например, стоп-сигнал, светофор, деревья и столбы). Путем многократного обучения машина с ИИ в конечном итоге может идентифицировать тот или иной объект с точностью, максимально близкой к 100%.
Большая языковая модель (БЯМ)
БЯМ, или LLM (large language model), или большая языковая модель, — это алгоритм глубокого обучения, который помогает обучать машину ИИ на базе огромного набора данных (как правило, неразмеченного текста), что позволяет не только обрабатывать запросы пользователей, но и качественно делать переводы текстов на любой язык или генерировать ответы. БЯМ, к примеру, применяется в чат-боте GPT-4 от OpenAI. Кроме того, искусственный интеллект может искать и определять в больших текстах важные части и выделять их. То же самое этот вид ИИ может делать и с видео. Например, такие машины могут сделать из длинных видеороликов текстовую версию, при желании сократить его или сделать короткую выжимку, проконспектировав текст.
Генеративный искусственный интеллект
Это тип ИИ, который может генерировать не только текст, но и картины, изображения, фото или другие медиаданные (например музыку) на основе вводимых пользователями данных. Такие машины ИИ часто поддерживаются LLM. Это стало всеобъемлющим термином для текущей технологии ИИ, которую многие компании теперь добавляют в свои продукты. Так, модель генеративного искусственного интеллекта может генерировать изображение по любому запросу пользователя или преобразовывать вертикальное фото в широкоэкранные горизонтальные обои.
Галлюцинация (конфабуляция)
Когда искусственный интеллект выдает вымысел за факт, это называется галлюцинацией, конфабуляцией или бредом. Такие неверные ответы могут возникнуть, когда набор данных ИИ неточен или его обучение было проведено некорректно, и поэтому бот выдает ответ, основываясь на имеющихся у алгоритмов знаниях. Тем не менее, поскольку ИИ основан на сложных нейросетях, часто люди не сразу распознают, что ответ машины неверен и неточен.
Допустим, чат-бот, работающий на основе больших языковых моделей (БЯМ), таких как ChatGPT, может встраивать в сгенерированный контент правдоподобно звучащие случайные ложные сообщения-ответы. Исследователи признали эту проблему. Так, аналитики выяснили, что в 2023 году чат-боты галлюцинировали в ответах в 27% случаях. Кроме того, фактические ошибки присутствовали в 46% ответов нейросетей.
Распознавания изображений (Image Recognition)
Image Recognition, или IR, — это технология, способная определять конкретные места и объекты на любом изображении. Компьютерные программы могут использовать функцию распознавания изображений, чтобы находить цветы на фотографиях и определять их название, по снимкам определять различные виды птиц или по картинке распознавать место съемки. В том числе боты умеют идентифицировать людей, начиная от распознавания пола и заканчивая определением личности по лицу.
Машинное обучение (Machine learning, ML)
Когда алгоритмы могут совершенствоваться, обучаясь на своем опыте или базах данных, это называется машинным обучением, которое чаще проводится за счет решений множества сходных задач. Так машина получает опыт.
Машинное обучение — это общая практика, из которой вытекают другие обсуждаемые нами термины искусственного интеллекта. Например, глубокое обучение — это специальная форма машинного обучения (совокупность методов обучения), а большие языковые модели обучают посредством машинного обучения.
Обработка естественного языка (НЛП)
Когда программа может понимать вводимые данные, написанные на человеческих языках, она попадает под обработку компьютера/серверов, которые применяют технологии машинного обучения, основанные на интерпретации человеческого языка (Natural Language Processing, НЛП, обработка естественного языка). Так, ваше приложение-календарь на современном смартфоне сегодня понимает, что делать программе, когда вы пишете: «У меня завтра встреча в 8 вечера в кофейне на Тверской» или когда вы спрашиваете Siri или Алису: «Какая погода сегодня?».
Нейронные сети (ИНС)
Человеческий мозг состоит из множества слоев (сетей) нейронов (нервных клеток живого организма), которые постоянно обрабатывают информацию и учатся на ней, строя друг с другом связи. Нейронная сеть искусственного интеллекта, или искусственная нейронная сеть (ИНС), имитирует структуру человеческих нейронов, чтобы учиться на наборах данных. Нейросеть представляет собой систему набора различных процессов, которые соединены между собой и взаимодействуют друг с другом, образуя искусственные нейроны.
Нейронная сеть — это система, дающая возможность осуществлять машинное обучение и глубокое обучение и в конечном итоге позволяющая ботам выполнять сложные задачи, такие как распознавание изображений и генерация текста по заданным параметрам.
Оптическое распознавание символов (OCR)
Optical character recognition, или OCR (в переводе — оптическое распознавание символов), — это технология, при которой происходит процесс извлечения текста из изображений в текстовые данные. Программы, поддерживающие OCR, способны распознавать рукописный, машинный или печатный текст, а также позволяют копировать, вставлять его в другие документы и отправлять в сообщениях и письмах.
Массово эта технология применятся для оцифровки печатных изданий, например для преобразования книг и документов в электронный вид.
Техника подсказок (промты)
Техника «обучения на основе подсказок» (prompt-based learning). Подсказка — это текст на естественном человеческом языке, описывающий задачу, которую должен выполнить ИИ. Она может состоять из любой последовательности слов.
В контексте ИИ проектирование подсказок (промтов) — это искусство написания запросов, чтобы заставить чат-ботов давать вам наиболее полезные ответы. Кстати, в мире уже образовалась целая индустрия и отрасль, в которой работают специально обученные люди, умеющие создавать креативные промты для тестирования инструментов чат-ботов. Есть также специальные люди-тестировщики, которые придумывают и тестируют промты для выявления слабых сторон искусственного интеллекта.
Обучение с подкреплением на основе отзывов людей (RLHF)
RLHF (обучение с подкреплением на основе отзывов людей, или обучение с подкреплением на основе человеческих предпочтений) — это процесс обучения ИИ, когда машина выдает неверные результаты, а человек показывает нейросети, каким должен быть правильный ответ. Это позволяет боту выдавать точные, верные и полезные результаты намного быстрее, чем он мог бы это сделать при самостоятельном обучении.
Распознавание и анализ речи (Speech recognition)
Способность программы понимать человеческую речь. Распознавание речи может использоваться для разговорного чат-бота, как правило, на основе библиотеки Speech Recognition — специального набора инструментов ИИ, которые преобразовывают человеческую речь в текст. Так компьютер понимает произнесенные слова. Это позволяет машине понимать ваши голосовые запросы и давать вам ответы. На основе этой технологии работает большинство нейросетей, которые преобразуют речь в текст.
Лексический анализ (лексическая токенизация)
Когда пользователь вводит текстовый запрос чат-боту, работающему на ИИ, машина разбивает промт на лексические токены (семантически или синтаксически преобразовывая его). Эти токены могут включать слова, даты, знаки препинания или даже фрагменты слов.
Задача нейросети — перевести неструктурированный текстовый документ в числовую структуру данных, пригодную для машинного обучения. Это быстрое преобразование позволяет компьютеру немедленно использовать эти токенизированные элементы для инициирования практических действий и ответов. В качестве альтернативы они могут служить функциями в конвейере машинного обучения, побуждая к более сложным процессам принятия решений или поведению.
Обучающий, проверочный и тестовый наборы данных
Обучающий набор данных — это информация, которую алгоритм или инструмент машинного обучения использует для обучения и выполнения своей функции. Например, большие языковые модели могут использовать обучающий набор данных, извлекая их из самых популярных в мире веб-сайтов, чтобы подобрать для пользователей более точный ответ в виде текста или изображения.
Тест Тьюринга
Алан Тьюринг был британским математиком, известным как «отец теоретической информатики и искусственного интеллекта», который разработал тест (имитационную игру), определяющий, кто перед вами — человек или машина. Его тест разработан для определения того, может ли интеллект компьютера мыслить, как человек. То есть это модель проверки способности искусственного интеллекта проходить проверку на отличие его ответов от ответов человека.
Вот его суть:
«Человек взаимодействует с одним компьютером и одним человеком. На основании ответов на вопросы он должен определить, с кем он разговаривает: с человеком или компьютерной программой. Задача компьютерной программы — ввести человека в заблуждение, заставив сделать неверный выбор».
В 2024 году в ходе исследования машины с искусственным интеллектом прошли тест Тьюринга. То есть большим языковым моделям на основе GPT-4 удалось обмануть людей, заставив их думать, что сообщения с текстом написаны человеком. В исследовании принимала участие программа ELIZA, а также нейросеть GPT-3.5 и GPT-4.
Генеративный предобученный трансформер (GPT)
Генеративный предобученный трансформер (Generative pre-trained transformer, или GPT) — тип алгоритма машинного обучения, который использует глубокое обучение и большую базу данных обучающего текста для генерации нового текста в ответ на подсказку (промт) пользователя.
Эта технология ИИ впервые была представлена компанией OpenAI, разработавшей и открывшей общий доступ к чат-боту ChatGPT. Машина основана на типе нейронных языковых моделей, обучающихся на больших текстовых базах данных, за счет которых генерируется очень реалистичный текст (очень похожий на человеческий ответ).