← Назад к статьям

12 октября 2025 г.

3 года назад ChatGPT не существовало

🧠 0% LLMLLM

Потеря интереса (или нет)

Дамы и господа, какое у вас отношение к нынешним продуктам на основе нейронных сетей? ChatGPT с текстом, Nano Banana с картинками, Sora с видео? Интересны ли они вам как явление, интересны ли продукты их работы? И главное - нет ли у вас ощущения, что они более "не влезают в голову"?

Со мной произошло последнее, в связи с чем я с удивлением обнаружил, что потерял всяческий интерес к ним. Интерес к технологиям, лежащим в их основе, непосредственно к большим языковым моделям, свёрточным нейронным сетям, индустрии видеокарт и IT вокруг, наоборот вырос, и превысил интерес к прочим мирским развлечениям наподобие войн и сбора урожая в этом сезоне.

Всё стало происходить слишком быстро. LLM прошли путь от невероятной новинки, поражающей воображение, до повседневного инструмента менее чем за 3 года. 3 года назад ChatGPT не существовало. Вообще. GPT-3.5 даже не собирались оборачивать в формат чата, это был эксперимент, который решили показать публике.

iPhone держал моё внимание к его развитию 9 лет, прежде чем он превратился в холодильник по своей обыденности. Только iPhone прекратил своё развитие, а нейросети его продолжают с такой скоростью, что каждые 3 месяца игра переворачивается. Только будто бы не в нашу сторону.

Краудсорсинг мнений

Задав этот вопрос, буквально абзац из начала текста, в замечательный чат слушателей подкаста Юрия Вафина, и почитав ответы на него, я расширил свои мысли на этот счёт. Занимательно то, что в своих ответах я по итогу скатился в полный восторг и защиту этих самых продуктов, "потеряв к ним интерес".

Но вернусь тем не менее к "потере", вспомнив, как интерес зарождался. Когда я увидел первый альбом группы Нейронная Оборона в 2016 году, где инженеры нагенерировали на основе песен Летова десяток стишков и записали из них альбом, это казалось невероятным примером использования новой технологии. Когда Уилл Смит ел спагетти на видео, это было удивительно, хотя и казалось смешным. Когда GitHub Copilot впервые дописал за меня строчку кода - это смотрелось как хорошая заявка на будущее, но продукт казался, да и что греха таить, остался, мертвым, так как умный автокомплит ни в какое сравнение с полноценными агентами, предложенными в Cursor, не идёт.

Каспаров против DeepBlue

Теперь же, поглядев на то, что может генерировать Sora, я поймал себя на мысли - прямо сейчас происходит очередной момент Каспаров против DeepBlue, или даже скорее AlphaGo против Ли Седоля (кстати, очень рекомендую посмотреть документальный фильм, снятый Google DeepMind по мотивам). Только момент происходит уже не для Каспарова и Ли Седоля, а для всего человечества.

Шахматы и Го всегда были вычислительным горизонтом, таким же, как шифрование (которое должны были подвинуть только квантовые вычисления). Понятное дело, что возможно посчитать все исходы шахматной партии, ведь они конечны, и выиграть партию гарантированно. Проблема только в том, что это невозможно сделать всем доступным человечеству объёмом вычислительных мощностей за время человеческой жизни. До момента, пока доступного в одной машине компьюта в сочетании с обычными алгоритмами оценки следующего хода не хватило, чтобы решить задачу без полного перебора.

Алгоритмов не хватало для Го. Полный перебор в Го еще менее возможен, чем в шахматах. И тут на сцену вышли нейронные сети и машинное обучение, позволившие решить задачу даже без алгоритмов.

Следить за противостоянием Каспарова и Ли Седоля с машиной было интересно, так как с ними можно было ассоциировать себя, сравнивать, обдумывать - почему они сделали тот или иной ход - думать их мысль. Но смотреть за игрой двух DeepBlue друг с другом мне будет так же интересно, как смотреть футбольный матч в FC 25, где оба играющих - боты.

Только боты в футбольном симуляторе и агенты на основе LLM с инфраструктурой и ручками доступа к реальному миру - это две разные вещи.

Последний фронтир реальности

С нейрослопом, похоже, осталась буквально одна деталь - плохие шрифты и низкокачественный текст, особенно если это не латиница. Для изображений вопрос решен - Qwen уже в этом году представила Qwen-Image, генерирующий качественный текст для всех языков, включая китайский, просто это еще не дошло до видео.

Знаменитые вирусные "интервью" с медведями на Красной площади начала этого года мгновенно угадываются как результат генерации, но исключительно потому, что я наизусть знаю, как она выглядит, и лишняя башня или неправильный угол расположения ГУМа сразу бросаются в глаза. В других локациях - это прямо обыкновенные московские улицы и площади. Когда в обучение Sora добавят качественное описание знаков ПДД и формат адресных табличек всех крупных государств и их городов - можно рисовать вообще что угодно.

Поверить алгеброй гаромнию

Я сделался ремесленник: перстам

Придал послушную, сухую беглость

И верность уху. Звуки умертвив,

Музыку я разъял, как труп. Поверил

Я алгеброй гармонию. Тогда

Уже дерзнул, в науке искушенный,

Предаться неге творческой мечты.

Александр Сергеевич Пушкин - Моцарт и Сальери

В хорошей музыке всегда есть "нагнетание". Необычно длинные "разгоны" и "торможения" у Pink Floyd в Shine On You Crazy Diamond, или скажем в концерте Dazed and Confused у Led Zeppelin в Madisson Square Garden, где играют адскую какафонию, прежде чем вступить непосредственно с музыкой, и вступить с последующим экстазом у слушателя. Если скипнуть эти 10-15 минут трека сразу до "вкусного" момента - эффект теряется.

В литературе есть попытка стандартизации сюжетов, скажем Тридцать шесть драматических ситуаций Жоржа Польти, согласно которому любое произведение так или иначе попадает в один из описанных сюжетов.

В любом искусстве всегда описаны и классифицированы некие правила, составные части, "best practices", в конце концов. Кажется, что если их закинуть в LLM - она легко создаст "шедевр". Нужно лишь задать четкую рамку сюжета, чтобы межгалактические корабли не начали бороздить просторы Большого театра, проставить галочки "нагнетания" через выверенное число итераций, чтобы не затянуть, и вперёд.

Потребуется очень много компьюта и памяти для поддержки длинного контекста без методов Sparsed Attention, чтобы LLM в процессе не забыла сюжетную ветку, скажем. Это дорого. С подпиской ChatGPT Pro за 200 долларов не напишешь Сильмариллион. Но если дать хорошему писателю, или даже просто литературному критику или филологу, полный доступ к кластеру из Nvidia H100 на несколько месяцев, то мы можем увидеть последний роман Джорджа Мартина значительно быстрее.

LLM позволит ускорить итерации. Вместо написания романа, можно сгенерировать его, внимательно прочитать, отметить удачное, а остальное отдать под нож. Литературный критик может оказаться даже лучше, так как его отношение к тексту будет отношением издателя к автору, без ревностной защиты результатов своего труда.

Заключение

Я сознательно не использовал LLM для написания этого текста, даже для проверки фактов. Только старый-добрый Google и Wikipedia. Пусть мой слог, и набор грамматических ошибок останутся здесь для истории. Возможно, это последний текст, который я пишу самостоятельно, без "велосипеда для мозга" (писать код руками я уже почти перестал).

Стив Джобс

Стив Джобс подарил нам велосипед. Сэм Альтман дарит нам Suzuki Hayabusa.

Ценность мыслей отдельных людей стремительно теряется в этой, уже более успешной, попытке объединить массив знаний человечества в Сверхразум Роя, в форме датасета LLM и его инференса.

Надеюсь, мы все не убъемся на этом гипербайке по дороге.

Спасибо за внимание.