Дослідження Humain стало несподіванкою для ринку: улюблений мільйонами ChatGPT посів лише восьме місце в рейтингу найкращих чат-ботів на думку користувачів. Лідером став Google Gemini 2.5 Pro, випередивши китайський DeepSeek і французький Magistral від Mistral.
Методика Humaine базується на реальних діалогах: майже 25 тисяч учасників із США та Великої Британії спілкувалися одночасно з двома анонімними моделями та визначали переможницю. Такий формат очних зустрічей дозволяє оцінити не тільки здатність правильно виконати завдання, але й природність, комфортність і зрозумілість спілкування.
Критеріями оцінювання були логіка міркувань і виконання базових завдань, уміння вести діалог і адаптуватися до змін теми, стиль подачі інформації, а також рівень довіри, етичності та безпеки відповідей. Саме ці параметри визначили, що для користувачів важливіше не суха точність, а відчуття живої розмови.
У топ-10 увійшли: Gemini 2.5 Pro, DeepSeek v3, Magistral Medium, Grok 4, Grok 3, Gemini 2.5 Flash, DeepSeek R1, ChatGPT-4.1, Gemma і Gemini 2.0 Flash. Цікаво, що молодші версії моделей Google і DeepSeek також потрапили в рейтинг, але поступалися своїм старшим «побратимам» за гнучкістю і адаптивністю.
Цей результат показує, що навіть найпопулярніші рішення можуть втратити позиції, якщо не відповідають очікуванням користувачів щодо стилю та «людяності» спілкування.
Джерело
