Как работает ChatGPT

В новостях все чаще обсуждают способности нейросетей. Многие уже начинают бояться того, что скоро останутся без работы. Но мало кто понимает, как они устроены и что у них внутри.

ChatGPT подобен Т9 из телефона, обе технологии представляют собой языковые модели. Они решают простую задачу: угадывать слово, которое должно следовать за уже написанным текстом.

А как они узнают, какие слова можно написать, а какие не подходят?

Основные принципы работы простейших нейросетей

Как предсказывают зависимость одних вещей от других? Сначала собирают массив данных, на котором будут искать закономерности. ChatGPT или Т9 – это набор уравнений, где особым образом подбираются коэффициенты при X (X – слова, которые подаются на вход, а Y – это следующее слово, которое нужно сгенерировать). Здесь главное – подобрать самые правильные коэффициенты при X, которые позволят хорошо прогнозировать зависимость.

Чем больше параметров, тем лучше генерируются тексты. Нейросеть может написать законченный текст. Она делает это постепенно, слово за словом.

Языковые модели и творчество

В качестве Y модели выдают вероятности подходящих по смыслу слов. Почему нельзя всегда выдавать одно наиболее «подходящее» слово? Нейросети реализуют творческий подход. Выбор следующего слова похож на бросание кубика (какое слово из вероятности будет сверху, то она и выдает. Это позволяет создавать разные решения на одинаковые вопросы. Она может придумывать разные варианты, совсем как человек.

Ученые раньше пытались сделать так, чтобы модель всегда выбирала одно самое «правильное» слово. Но результаты были не очень хорошие. Модели часто путались, зацикливались. При появлении функции выбора ответы стали насыщеннее и интереснее.

ChatGPT: особенности

GPT – Generative Pre-trained Transformer. Расцвет ИИ произошел именно благодаря трансформерам. Это механизмы, которые принимают набор последовательностей данных, преобразовывают их по алгоритму и выдают другой набор. Старые модели нейросетей не могли «проглотить» много слов за раз. Новые нейросети без труда обрабатывают огромные массивы данных.

И если старые модели, обрабатывая большой текст, уже к середине третьего абзаца «забывали», что было в начале. Сейчас трансформеры позволяют нейросетям смотреть на все одновременно, и это приводит к впечатляющим результатам.

ChatGPT возникла в ноябре 2022 года. Она уже может переспросить у пользователя, если что-то непонятно, а предыдущие модели не могли этого сделать. До нее существовали две похожие модели, но они не получили признания, в то время, как ChatGPT стал набирать популярность сразу после выхода. Секрет оказался прост: все дело в удобном интерфейсе диалогового окна как в любом мессенджере (его не существовало в предыдущих моделях, поэтому ими могли пользоваться в основном программисты).

В этом случае главную роль сыграла не только технология, но и ее «упаковка». Вы можете создать крутую технологию, но без удобного интерфейса, понятного для пользователей, она не обретет популярность. И случай с ChatGPT это доказал.