Нові дослідження показують: що довша розмова з чат-ботом — то нижча якість відповідей моделі. Продуктивність падає в середньому на 39% у багатораундових сценаріях порівняно з одиночними, точними запитами.
Це стосується навіть найкращих моделей, таких як GPT‑4o або Claude 3.7 Sonnet.
Ключові результати дослідження
Дослідники з Microsoft та Salesforce тестували 15 моделей LLM, імітуючи реальні взаємодії за допомогою «шардингу» — поділу завдань на етапи, як у типовій розмові. В одному турі точність досягала близько 90%, але в режимі кількох турів вона впала до 65% і нижче — навіть після всього двох турів.
Було проаналізовано понад 200.000 діалогів у шести генеративних завданнях, що підтверджує зниження результативності в усіх протестованих системах.
Причини зниження якості
Моделі роблять висновки занадто рано, використовуючи неправильні припущення з початкових відповідей та пропускаючи інформацію з середини контексту. Замість того, щоби гнучко коригувати напрямок відповідей, вони дотримуються першого вибраного напрямку, що призводить до накопичення помилок та збільшення часу реакції навіть у кількасот процентів. Це пояснює, чому довгі чати стають ризикованими: ШІ «робить неправильний поворот» і не повертається на правильний шлях.
Практичні поради для користувачів
Дедалі більше людей використовують інструменти, відомі як штучний інтелект, у різних контекстах. Ці інструменти можуть бути дуже корисними — але також можуть заводити на манівці. Очевидно, що результати роботи ШІ завжди потрібно перевіряти.
Також можна сформулювати кілька додаткових правил, щоб уникнути пасток, які виникають через недосконалість так званих мовних моделей:
-Формулюйте повні, точні запити в одному зверненні, замість того, щоб викладати їх крок за кроком.
-За потреби перезавантажуйте історію (reset context, коли модель «забуває» попередню розмову) або розділяйте теми на нові сесії, що дозволяє підтримувати високу точність — до рівня 90%.
-Ставтеся до ШІ як до інструменту для точних підказок, а не як до партнера для невимушеної розмови.
Люди набагато краще спілкуються в чаті. Крім того, зараз може бути відповідний час, щоб відірвати погляд від екрана, роззирнутися довкола й запитати когось поруч, як у нього справи. Навіть коротка розмова віч-на-віч може зробити ваш день набагато приємнішим.
Переклад CREDO за: Томаш Ровінський, Aleteia


фінансово.
Щиро дякуємо!