додому Наука ШТУЧНИЙ ЗУБЧАСТИЙ ІНТЕЛЕКТ / ARTIFICIAL JAGGED INTELLIGENCE 

ШТУЧНИЙ ЗУБЧАСТИЙ ІНТЕЛЕКТ / ARTIFICIAL JAGGED INTELLIGENCE 

4
Screenshot

Проблеми з галюцінуванням моделей, які нікуди не зникають підштовхують шукати нові підходи для роботи з ними в повсягденому житті. В університеті Торонто спробували новий підхід “Зубчастий інтелект” сподіваюсь і вам буде в нагоді. 

Сучасний досвід взаємодії з великими мовними моделями нагадує прогулянку по мінному полю, де під шаром ідеально згенерованого тексту ховаються зони абсолютної когнітивної некомпетентності. Ви можете довірити системі аудит складного смарт-контракту, і вона впорається блискуче, але наступного моменту вона «спіткнеться» на елементарній логічній задачі, варто лише змінити одне слово в запиті. Це не просто прикрий баг — це фундаментальна характеристика технології, яку ми називаємо «Штучним зубчастим інтелектом» (Artificial Jagged Intelligence — AJI).

AJI — це передусім інформаційна проблема, а не технічна недосконалість. У світі, де «середня точність» стає головним маркетинговим бенчмарком, професіонали стикаються з незвідною невизначеністю в прогалинах між знаннями моделі. Проблема полягає в тому, що успіх впровадження ШІ залежить не від його абстрактної потужності, а від здатності користувача ідентифікувати межу між локальною експертністю та правдоподібною галюцинацією.

Справжня небезпека ШІ криється не в його обмеженості, а в його нелінійній надійності. Для стратега це означає необхідність переходу від управління середніми показниками до калібрування хвостових ризиків.

Зубчастий ландшафт і «шорсткість» знань

Концепція AJI базується на тому, що можливості ШІ розподілені вкрай нерівномірно. Відповідно до базової економічної моделі AJI, ми використовуємо Assumption 1: Brownian Landscape (Припущення 1: Броунівський ландшафт). У цій моделі «істина» представлена як броунівський рух — процес неперервний, але такий, що ніде не має похідної. ШІ «знає» лише розрізнені точки в цьому просторі, отримані під час навчання, а між ними він змушений інтерполювати.

Саме через «шорсткість» цього інтелектуального ландшафту навіть мінімальні зміни в просторі завдань призводять до колосальних стрибків у якості результату. Це пояснює, чому модель видає ідеальну відповідь на один запит, а на сусідній — впевнену дезінформацію. Інтерполяція в умовах «шорсткості» є ризикованою за своєю природою: невеликий зсув контексту може викинути користувача з піка компетентності в глибоку прірву помилки.

Як зазначає Джошуа Ганс у своїй роботі: «Ми називаємо це явище штучним зубчастим інтелектом (AJI). Модель може надати чітку, правильну відповідь на один запит, а потім — правдоподібну, впевнено неправильну відповідь на сусідній запит».

Парадокс інспекції, або чому ми бачимо найгірше

Щоб візуалізувати цей ризик, уявіть «Міст знань» через річку. Опори мосту (пілони) — це знання моделі, а дошки між ними — спроби інтерполяції. Короткі прольоти між опорами жорсткі й безпечні, тоді як довгі — прогинаються і загрожують падінням. Тут виникає «Парадокс інспекції»: хоча середня відстань між опорами може здаватися прийнятною, користувач статистично набагато частіше стикається саме з найдовшими прогалинами.

Це відбувається тому, що довгі дірки в знаннях займають більшу площу в робочому просторі завдань. Користувач, обираючи завдання випадковим чином, буквально «наступає» на небезпечні зони частіше, ніж на надійні опори. Математичне обґрунтування цього парадоксу (Proposition 1) є нищівним для оптимістів:

• У пуассонівському процесі типова прогалина, з якою стикається користувач, є вдвічі більшою за середню прогалину в моделі (E[X ∗]=2/λ).

• Досвід користувача подвоює відчутну похибку порівняно з лабораторними бенчмарками.

• Користувачі статистично перевантажені слабкостями моделі, оскільки «дірки» мають більшу «поверхню контакту» з їхньою повсякденною роботою.

Масштабування: ілюзія виправлення зубчастості

Існує хибне переконання, що масштабування (scaling laws) — збільшення даних та обчислень — автоматично розв’яже проблему надійності. Однак, згідно з Proposition 4, зубчастість є інваріантною до масштабу (scale-invariant). Хоча масштабування робить прогалини вужчими, коефіцієнт варіації залишається константним. Це означає, що відносна форма «зубців» не змінюється: модель стає розумнішою в середньому, але залишається такою ж непередбачуваною у своїх локальних провалах.

Погляд через середні показники

Погляд через AJI (Стратегічний підхід)

Об’єкт: Середній бал у тестах

Об’єкт: Надійність як функція конкретних завдань

Проблема: Брак загальної потужності

Проблема: Локальна непрозорість прогалин

Ефект масштабу: Модель стає «розумнішою»

Ефект масштабу: Знання щільніші, але нерівномірність зберігається

Головний ризик: Модель чогось «не знає»

Головний ризик: Користувач не бачить межу ризику

Навіть у надпотужних моделях залишається irreducible uncertainty (незвідна невизначеність) у місцях, де дані були розрідженими. Для лідерів це означає, що масштабування — це не ліки проти «зубчастості», а лише спосіб зробити «зуби» дрібнішими, але не менш гострими.

«Пастка утримання» та когнітивна інерція

Одним із найбільших бар’єрів на шляху до освоєння ШІ є «Пастка утримання» (abstention trap). Коли фахівець стикається з катастрофічною помилкою ШІ в певній зоні, він формує стійке упередження: «тут це не працює». Через високу розмірність (dimensionality) завдань та складність верифікації, користувачі припиняють використовувати інструмент там, де він колись помилився.

Проблема в тому, що масштабування могло вже заповнити цю конкретну прогалину, але користувач ніколи про це не дізнається. Виникає «швидкісний ліміт» на навчання:

• Висока розмірність: Важко зрозуміти, які саме нюанси промпту роблять результат надійним.

• Проблема інформаційного приросту: Процес виявлення «де модель працює» є математично повільним через нелінійність помилок.

• Шум верифікації: Витрати на перевірку результатів змушують користувачів обирати безпечну стратегію повної відмови замість експериментів.

Розрив між керівництвом та працівниками: конфлікт метрик

Феномен AJI пояснює, чому впровадження ШІ часто супроводжується внутрішнім спротивом. Керівники дивляться на Benchmark Reliability (R bench) — оптимістичні цифри з лабораторних звітів, які обіцяють 90% точності. Натомість працівники в полі відчувають на собі Experienced Reliability Ratio (R exp).

Через парадокс інспекції та зміщення вибірки в бік довших прогалин, працівник бачить набагато гіршу картину, ніж менеджер. Коли керівництво вимагає автоматизації, посилаючись на середні показники, воно ігнорує реальний ризик, який несе працівник, стикаючись із «зубцями».

Як влучно підсумовує Джошуа Ганс: «Оцінка на основі середніх показників вводить в оману, оскільки прийняття технології залежить від пережитого ризику».

Якщо бенчмарк обіцяє надійність, а працівник отримує галюцинацію в критичному звіті — для нього цінність інструменту падає до нуля. Це не саботаж, а раціональна реакція на невідповідність виміряного ризику реальному досвіду.

Висновок: Поза межами середніх чисел

Майбутнє ефективного ШІ-стейкхолдингу вимагає повної відмови від «середньої точності» як метрики успіху. Ми повинні перейти до стратегії калібрування хвостових ризиків. Це означає створення систем, які не просто видають відповідь, а й сигналізують про свою локальну невпевненість.

Впровадження ШІ сьогодні — це не питання купівлі найпотужнішої моделі, а питання побудови «мап надійності» всередині організації. Компанії, що ігноруватимуть «зубчастість», залишаться в пастці між завищеними очікуваннями менеджменту та розчаруванням виконавців.

Запитання для стратегічного аудиту: Як саме ви зміните систему оцінки ШІ у вашій компанії вже сьогодні, щоб замість абстрактного середнього балу почати вимірювати Experienced Reliability Ratio та щільність «зубців» у ваших найбільш критичних бізнес-процесах?

огляд – Maksym Kopystko

джерело

НАПИСАТИ ВІДПОВІДЬ

введіть свій коментар!
введіть тут своє ім'я