Якщо вірити галасу в соцмережах, та галузь розробки програмного забезпечення, до якої ми звикли, вже мертва. Проте дивно, що, попри роки роботи з ШІ інструментарієм, результати виглядають, відчуваються і працюють приблизно так само, як і на початку: не надто примітно порівняно зі сподіваннями.

Зміст

1 Про неминучість використання штучного інтелекту
2 Майстерність чи імітація
3 Недовіра та верифікація
4 Інструменти для інструментів
5 І пляшка рому

Про неминучість використання штучного інтелекту

Неможливо сперечатися, що цю технологію оточує величезний ажіотаж — у неї вливаються сотні мільярдів доларів і створюється масштабна інфраструктура, що, своєю чергою, потребує ще більшого ажіотажу, щоб виправдати інвестиції. Вже очевидно, що все побудовано на перебільшеннях — нові моделі продовжують навчати для досягнення цілей, яких, судячи з обіцянок, мали досягти вже існуючі моделі.

Тому дозвольте мені сказати фразу, яка повергне бувалого резидента Кремнієвої долини в більший шок, ніж дефекація на Маркет-стріт: не використовувати ШІ цілком нормально.

Це не перетворить вас на троглодита, і через це ви не залишитеся на узбіччі прогресу, який нібито несуть самопроголошені техночарівники та їхні агенти. Насправді таке рішення виглядає набагато менш складним і набагато більш радісним, ніж альтернатива йому.

Майстерність чи імітація

В усіх обговореннях того, що можуть і чого не можуть LLM, формулювати те, що відбувається, можна по-різному. Якщо дивитися під одним кутом, то хороша сторона полягає в корисності, розумності, креативності та продуктивності. Шкода криється в стимулюванні лінощів, одноразовості, крадіжці інформації та деградації знань. Але в цьому дискурсі особливо примітна відсутність згадки одного слова. І це слово — підробка(forgery).

Якщо хтось намалює картину в стилі Вінсента ван Гога, видасть її за створену ван Гогом, поставивши на ній його підпис, то така картина буде підробкою.
Якщо хтось виготовить юридичний документ, імітувавши формат, видавши себе за сторони, що беруть участь, і сфальсифікувавши їхню згоду, то цей документ буде підробкою.
Якщо хтось проведе дослідження, імітувавши або змінивши дані, вигадавши цитовані джерела і підібравши результати так, щоб вони підходили під конкретний висновок, то це дослідження буде підробкою.

Фальсифікація стає невід’ємною властивістю предмета і способів його виробництва. Неважливо, що ніхто ніколи не побачить підроблену картину або що вона висітиме тільки в приватній колекції — це підробка, тому що це не оригінал.

З цієї думки, LLM виконують щось цілком конкретне: вони дають змогу людям генерувати підробки їхніх власних чи чиїхось ще потенційних результатів швидше, ніж люди зможуть створити їх самі.

Акт підроблення — це акт імітації. Строго кажучи, сам по собі він цілком законний, наприклад, у вигляді вигадки або самовираження — він створює проблеми тільки тоді, коли хтось намагається використати підробку як заміну оригіналу. Вплив цього на практиці залежить від обставин, і здебільшого від того, що мається на увазі під оригінальністю.

Іншими словами, нікого не заарештують за «підроблення» листа від Діда Мороза, але в жодній юрисдикції не дозволяється зберігати вкрай схожі на оригінал «імітації грошей», навіть як предмета для колекціонування.

Подібні заходи захисту також застосовуються у сфері так званих харчових продуктів із контрольованим походженням, наприклад, виготовлюваних вручну сирів або в’яленої шинки, які потребують не тільки традиційних способів виготовлення і високоякісних інгредієнтів, а й конкретного географічного походження. І на це є вагома причина.

Виробництво французького сиру Брі де Мо(Brie de Meaux) заборонено за межами Франції, тому що в іншому разі ринок був би неминуче завалений дешевшими імітаціями — це зашкодило б бренду автентичного продукту і поставило б під загрозу необхідний для виробництва унікальний місцевий досвід, що передається з покоління в покоління.

Для правильної роботи ринку в цьому випадку недостатньо було б простої думки кінцевого споживача. Спектр продуктів, які ви можете придбати в магазині та з яких ви можете вибирати, заздалегідь визначений не залежними від вас факторами. Якість сиру з контрольованим походженням визначає весь ланцюжок постачання, часто заснований на сучасних методиках, який просто неможливо перенести в інше місце без величезних інвестицій у людський капітал, інфраструктуру та сільське господарство. Це не просто якась романтика.

Кожне суспільство має провести межу десь у спектрі від «традиційного, виготовлюваного вручну сиру» до «підроблених яєць, вироблених із промислових хімікатів», якщо воно не хоче, щоб люди помирали від недоїдання або отруєння. Але ті суспільства, які розуміють і підтримують цінність мистецтва виробництва їжі, не опиняються в ситуації, коли 70%+ їхніх членів страждають від ожиріння.

Недовіра та верифікація

Тут нескладно провести паралелі зі створенням ПЗ (кодингом) за допомогою LLM — ремесло написання ПЗ перебуває під загрозою буквального затоплення дешевими імітаціями.

Одними з перших недоліки цього відчули на собі мейнтейнери опенсорсного ПЗ — у них і так були величезні складнощі з пошуком мотивованих контриб’юторів і з введенням їх у курс справи щодо цілей проєкту та ментальної моделі розробки. Останнє, що їм було потрібно, то це отримувати згенеровані пул-реквести від контриб’юторів, які просто бажають хитрістю створити собі гарне GitHub-резюме.

Отримувати такі пул-реквести і принизливо, і абсурдно, тому що єдине, що вайб-кодер може зробити з даним йому зворотним зв’язком — скопіпастити її в інструмент, який і згенерував помилки спочатку.

У результаті проєкти відмовляються від участі сторонніх контриб’юторів і закривають програми баг-баунті, деякі просто глузують з імітаторів і сподіваються, що ті залишать їх у спокої. І все це апріорі не схоже на корисне, розумне, креативне і продуктивне.

У повсякденному кодингу робота разом із колегами-вайбкодерами чинить схожий вплив. Хоч і може здаватися, що нові співробітники набагато швидше освоюються, насправді вони скидають усі труднощі перших тижнів на бота, сподіваючись, що ніхто цього не помітить.

У процесі цього вони впроваджують у код посередність, хоча ви сподівалися на їхню особисту думку.

Якщо в році 2026-му від Різдва Христового працівник створює вкрай детальний PR із купою пояснень і коментарів, то слід сумніватися в кожному його слові.

Кажуть, що у досвідчених програмістів-ветеранів, які почали використовувати ШІ, ситуація краща: вони випускають у 10 або навіть 100 разів більше коду, ніж раніше. Коли я чую таке, то запитую себе: що це за «сеньйор» який не розуміє, що кожен рядок коду, який він виконує і від якого залежить — це відповідальність.

Одне з найбільш примітних тверджень, почутих мною: ШІ-кодинг — це чудова галузь застосування технології, адже все, що необхідно знати агенту, вже пояснено в кодовій базі. Це катастрофічно помилково та абсурдно, тому що якби це було так, то ніякого кодингу і не знадобилося б.

Це ще й важливий показник, що визначає різницю між розробником, який здебільшого займався розв’язанням проблем, створених іншим ПЗ, або тих, які були в людей ще до появи самої концепції ПЗ. Тільки другий тип розробника зможе навчити вас думати про реальні рамки проблеми та про потреби користувачів, які її вирішують; це завжди заплутаніше, ніж може подумати новачок.

Коли ПЗ розглядається як самоціль, то в результаті виходить вкрай переускладнена інфраструктурна хмара, хоча насправді система могла б працювати на VPS ціною 10 доларів на місяць, а на резервне копіювання та пиво лишилося б іще купа грошей.

Інструменти для інструментів

Розробники, які знають своє ремесло, можуть відчути нейросміття за кілометри під час рев’ю коду, попри весь досягнутий “прогрес” — воно проявляється в надмірно повторюваному коді, необов’язковій складності та небажанні рефакторити, навіть якщо код очевидно застарів.

Крім того, я вже багато разів бачив, що звання «сеньйор» і роки досвіду не рятують розробників від створюваних за допомогою вайб-кодингу ганебних «перлів”.

Якщо спробувати уявити розумовий процес, що призвів до досліджуваного результату, то швидко стає зрозуміло, що його просто не було — кодинг-агент тут не другий пілот, а автопілот.

Те саме стосується і самих вайб-кодерів, а їхні реакції багато в чому передбачувані. Slope-код(нейросміття) відчувається поганим і переповненим «багами»; це помітно і в тому, що на Discord-сервері Microsoft Copilot нещодавно заборонили використовувати слово «Microslop». Негативну реакцію користувачів назвали «спамом» і «шкодою»; це доводить, що обіцянки часто варті більше за реальний результат і що у Всесвіту все ще є почуття гумору.

Менш обнадіює те, що ці інструменти називають “такими, що викликають залежність” або навіть “найкращим другом, який тільки може бути”. Так, “гіки” цілковито зачаровані комп’ютерами, ще з часів революції ПК, однак, здається, супутній “кембрійський вибух” творчості та досягнень не виник.

Я можу зрозуміти, чому цим вражені сторонні люди, але я не розумію, чому про це не замислюється так багато професіоналів.

Насправді за допомогою ШІ розробляється весь той «клей», який став необхідним після вищезгаданої революції PC, коли застосунки стали більш закритими, більш розподіленими і більш корпоративними. Усі варіанти, які є в кінцевих користувачів, жахливі.

HTTP API не робить системи більш відкритими, якщо кожна кінцева точка потребує слабо задокументований JSON-об’єкт, схема якого змінюється з примхи розробника. Скидати сирі дампи бази даних — теж не варіант, це використовується тільки для аварійного відновлення. Здебільшого, ПЗ заіржавіло намертво.

Згадаймо, що багато компаній здебільшого залежать від Excel. Яка програма стала аналогом Excel для JSON? Таких немає. Тому так, звісно, користувачі вважають, що потрібна машина, яка б перетворила їхні задуми на код, який можна запустити. Але навіть якщо так, то де аналоги Jupyter notebook для JSON?

Звісно, є jq, але варто пам’ятати, що спочатку це був SQL, який позиціонували як рішення, здатне звільнити компанії та їхніх співробітників від необхідності користуватися спеціалізованими інструментами. І подивіться, до чого все прийшло… чим більше все змінюється, тим більше залишається тим самим. Чи є вже стандартний протокол у стилі CRDT для синхронізації редагованих графів?

Як не дивно, ми не стали й свідками повернення до нативних застосунків. Виявляється, вайб-кодинг для створення застосунку на Electron усе ж кращий, ніж вайб-кодинг для безлічі платформ з використанням усіх їхніх особливостей. То де ж це оспіване 100x-поліпшення? Навіть Apple уже не може підтримувати однакову форму та іконографіку у своїй новій операційній системі, то яка ймовірність, що з цим впорається навчений на веб-нейросмітті ШІ?

Це багато говорить про нашу галузь, але не особливо багато — про розробку.

В. Тернер, «Корабельна аварія» (1805 рік)

І пляшка рому

Більшість розробників ПЗ наввипередки освоюють нову технологію, але не всі галузі здалися настільки охоче, видимість неминучості — це все-таки видимість, і її слід піддавати сумніву.

Відеоігри — приклад ринку, на якому споживачі активно протидіють нейросміттю. Багато проєктів уже вибачилося за ШІ-контент і видалили його. У платформ на кшталт Steam є чітко окреслені політики про нього, та існують інструменти для його фільтрації.

Втім, політика Steam була нещодавно оновлена: у ній зроблено виняток для інструментів розробника, використовуваних з метою «підвищення ефективності», але не застосовуваних для генерації доступного гравцям контенту.

Ігри, з яких видалили ШІ-контент після релізу

Це не так уже й дивно з двох причин.

По-перше, відеоігри — це ринок прямої цифрової доставки до споживача. У геймерів є всі можливості вибирати, і якщо їм не подобається гра або її модель ціноутворення, то це результат рішень, ухвалених конкретними виробниками. Існують інші проєкти без подібних вад, тому вони отримують популярність і продаються замість невдалих. Стиль задають самі гравці, які вимагають прозорості.

По-друге, більшість відеоігор — це твори(artistic), і їх купують через їх привабливість. У мистецтві копіювання не вітається, тому що воно знецінює оригінал і краде славу. Художники дуже чутливі до цього і мають на це повне право, тому що привабливість мистецтва частково викликана унікальним баченням творця.

Твір мистецтва має бути особистим підтвердженням виконаної роботи, цінність якого необхідно зберегти. Допустимою формою імітації тут стає оммаж, який поважає оригінал і водночас розвиває його ідеї.

Це різко контрастує з принципом використання коду, який зазвичай абсолютно не страждає від багаторазового використання і навіть виграє від цього, якщо це інфраструктура. Також це пояснює, чому опенсорсні проєкти так погано підходять для залучення талановитих, художніх творців. Етика обміну з нульовими витратами означає, що будь-який художній задум може бути миттєво запозичений і перероблений без його початкового контексту.

Тут як прецедент можна розглянути класичну процедурну генерацію, з якою вже знайомі геймери. Загалом, вона не виправдала сподівань. Перспектива експоненційного зростання контенту з обмежених джерел швидко вичерпує себе, тому що основна робота, виконувана процедурним генератором, робить усе різноманіття його власних результатів марним.

Тому не дивно, що після появи генеративного ШІ художники затаврували його як масовий плагіат. Не дивно і те, що жменька технологічних підприємців і збирачів даних абсолютно цього не розуміє; вони вітають плагіат, навчаючи свої моделі на будь-яких піратських бібліотеках, які зможуть дістати, або на всіх наявних репозиторіях коду.

Якщо результат, згенерований на основі цього, виявляється пересічним, огидним і підозрілим, на те є вагома причина. Різні навчальні вибірки у вихідному матеріалі самі по собі стають для машини просто нейросміттям. Підійде все, що прокачує ваги при навчанні.

Просто так сталося, що тепер неможливо сказати, що є цитатою, що — галюцинацією, а що можна вважати новим і творчим. Саме тому піратські бібліотеки контенту незаконні, але ChatGPT «законний».

Таким чином, позначка ШІ-контенту як згенерованого ШІ або додавання на нього водяних знаків — це по суті, прикривання своєї дупи, а аж ніяк не відповідальне розкриття походження.

Крім того, це дає багатьом розробникам “фіговий листок”, що дає їм змогу щодня раніше йти на обід і вечерю, зберігаючи зростання показників і не ставлячи собі запитань про те, чи, як і раніше, мають який-небудь сенс пункти про інтелектуальну власність у їхніх договорах.

Однак при цьому такі розробники опиняються в неприємному становищі — щоб вайб-кодинг був прийнятним і виправданим, вони змушені вважати власні результати роботи одноразовими, вкрай нетворчими та не вартими зазначення авторства.

На мою думку, жоден суд не має ухвалювати рішення про те, чи слід розцінювати результати роботи ШІ в категоріях «законності» або «захищеності авторським правом», тому що в них немає першоджерел — таке рішення просто неможливо ухвалити, і результати роботи ШІ потрібно вважати підробкою, тільки якщо не доведено інше.

Отже, вихід із парадоксальної ситуації з LLM і очевидний, і ілюзорний: єдиний спосіб відокремлення золота від сміття полягає в тому, щоб разом з інференсом LLM коректно вказували джерела.

Це не тільки допоможе з художнього погляду, а й продемонструє, що вайб-кодинг багато в чому виявляється простим “копіпастингом” із наявної кодової бази, за якого зручно забувається зазначення автора, ліцензії та посилання.

Для сучасних моделей реальне зазначення авторства технічно неможливе, те, що LLM може навіть згадувати та цитувати джерела — наслідок властивостей споживаних нею даних і виконуваного промпту. Вона може робити це, тільки коли це доречно згідно з поточною позицією в тексті.

Немає підстав думати, що в цьому є якась система; набагато вища ймовірність того, що LLM просто справляються з цитуванням того, що часто і коректно цитується в навчальних даних — це просто рольова гра в цитування.

Обов’язкова вимога вказувати джерела тягне за собою масштабні наслідки — як взагалі виглядатиме зворотне поширення, якщо для ваг обов’язково потрібно вказувати джерело, а для прямого проходу обов’язкова можливість аудиту? Зрозуміло тільки, що все це не вмістиш в int4.

З усім тим, я думаю, це буде дуже показово: таке завдання намагаються вирішувати «інструменти для розпізнавання втручання ШІ», тільки у зворотному порядку. Божевільно те, що наступною великою технологією після World Wide Web і пошукових движків рівня Google став ШІ, який за своєю природою не може сказати, звідки взялася інформація.

Щоб машини перестали брехати, вони зобов’язані належним чином посилатися на джерела. Те саме стосується й ШІ-компаній.