Вчора компанія Ілона Маска випустила оновлену версію свого штучного інтелекту – Grok 4.1. Тепер він доступний на grok.com, X і в мобільних додатках для iOS і Android. Нова версія вибирається автоматично, але ви можете вибрати її вручну.
Головне оновлення — покращення емоційного інтелекту та природного спілкування. Grok 4.1 краще відчуває настрій співрозмовника, зберігає послідовність у діалозі та відповідає тепло, без шаблонних фраз. Точність і надійність залишилися на високому рівні.
Щоб навчити модель, ми використали попередню систему підкріплення та додали автоматичне підрахунок відповідей у реальному часі. Під час закритого тестування 1-14 листопада користувачі віддали перевагу оновленій версії в 64,78% випадків.
Лідером рейтингу є Grok 4.1. У текстовій таблиці лідерів LMArena версія Grok 4.1 Thinking набрала 1483 Elo, а звичайна версія – 1465. У тесті на емоційний інтелект EQ-Bench3 новинка набрала 1586 балів, випередивши всіх конкурентів.
Модель помітно краще спілкується. Наприклад, коли користувач оплакував мертвого кота, стара версія давала суху відповідь, а Grok 4.1 згадував деталі, викликав емоції та підтримував розмову. Також модель показала високий рівень творчих завдань, зокрема створення зворушливих текстів і постів у X.
Розробники зменшили кількість «галюцинацій» – вигаданих фактів. У внутрішніх тестах кількість помилок знизилася з 12,09% до 4,22%, а в загальнодоступних FActScores – з 9,89% до 2,97%. Навіть у повсякденних завданнях Grok 4.1 надає короткі та корисні відповіді замість довгих текстів.
Загалом Grok 4.1 перевершує попередню версію, зберігаючи швидкість і ефективність, і конкурує з найкращими світовими моделями ШІ.
Джерело
