Влияние Искусственного Интеллекта на Научные Исследования и Продуктовый Менеджмент
В начале этого года разработчик искусственного интеллекта Anthropic выпустил новую модель, способную дольше «думать» над проблемой, аналогично тому, как это делает человек. Стэнфорд и IBM разработали «двойников» более чем 1000 человек, которые, как предполагается, рассуждают и принимают решения так же, как и их реальные прототипы. Для многих компаний в этой области надежда заключается в создании моделей ИИ, которые рассуждают так, что их выводы практически неотличимы от человеческих.
«ИИ, который лучше имитирует людей, кажется хорошей вещью», — говорит Блейк МакШейн, профессор маркетинга в Kellogg. «Но когда ИИ имитирует человеческие ошибки, это, очевидно, плохо, когда точность является целью».
Дихотомия Восприятия
Люди склонны воспринимать мир как дихотомичный, а не непрерывный. Этот черно-белый способ мышления также присутствует в науке, когда исследователи применяют произвольные пороги к своим результатам — подход, который может привести к ошибкам в интерпретации. В новом исследовании МакШейн и его коллеги из Университета Иллинойс в Чикаго обнаружили, что модели ИИ также подвержены этим ошибкам, как и человеческие исследователи.
«Учитывая, что модели ИИ «учатся» на человеческом тексте и что люди совершают эти ошибки постоянно, мы предположили, что модели ИИ будут делать то же самое», — говорит МакШейн.
Статистическая Значимость в Научной Практике
Исследователи давно полагаются на статистические тесты для интерпретации результатов исследований. Один из самых популярных тестов, тест значимости нулевой гипотезы, предоставляет меру, известную как P-значение, которое варьируется от нуля до одного. Обычно исследователи считают свои результаты «статистически значимыми», когда P-значение ниже 0.05, и «статистически незначимыми», когда оно выше.
Когнитивная ошибка часто сопровождает эту дихотомизацию: исследователи неверно интерпретируют «статистическую значимость» как подтверждение эффекта, который они изучают, и «статистическую незначимость» как доказательство отсутствия эффекта. Порог 0.05 стал своего рода «стражем» для публикации исследований. Исследования, которые сообщают о «статистически значимых» результатах, гораздо более вероятно будут опубликованы, чем те, которые этого не делают, даже если их P-значения почти одинаковы. Это приводит к предвзятой литературе и поощряет вредные исследовательские практики, которые толкают P-значение к желаемой стороне порога.
Как ИИ Имитирует Человека
МакШейн и его коллеги исследовали, следуют ли модели ИИ, такие как ChatGPT, Gemini и Claude, так же строго порогу «статистической значимости» 0.05 при интерпретации статистических результатов. Они попросили эти модели интерпретировать результаты трех различных гипотетических экспериментов.
Первый эксперимент касался выживаемости среди пациентов с терминальной стадией рака. Пациенты были разделены на две группы: Группа А, где они ежедневно писали о положительных вещах, и Группа Б, где они писали о несчастьях других. Результаты показали, что в среднем пациенты из Группы А жили 8.2 месяца после первоначального диагноза, по сравнению с 7.5 месяцами для пациентов из Группы Б.
После представления этой информации моделям ИИ исследователи спросили, какой из четырех вариантов наиболее точно отражает результаты. Они варьировали P-значение, сравнивая две группы, от «статистически значимого» 0.049 до «статистически незначимого» 0.051. Результаты показали четкое разделение в ответах моделей ИИ в зависимости от P-значения: они почти всегда утверждали, что Группа А жила дольше, когда P-значение составляло 0.049, но гораздо реже делали это, когда оно составляло 0.051.
Проблемы с Интерпретацией
Исследователи столкнулись с аналогичными результатами в двух других гипотетических экспериментах. Например, в одном из них о эффективности препарата, где результаты для Препарата А были более многообещающими, чем для Препарата Б, модели ИИ почти всегда отвечали, что пациент скорее выздоровеет, если ему дадут Препарат А, когда P-значение составляло 0.049, но очень редко, когда оно составляло 0.051.
Во всех этих экспериментах результаты близко отражали то, что происходило, когда академические исследователи отвечали на те же вопросы в предыдущих исследованиях. Место, где находилось P-значение относительно порога «статистической значимости» 0.05, последовательно играло ключевую роль в формировании того, как как люди, так и модели ИИ интерпретировали результаты.
Предостережение
Исследователи расширили исследование, предоставив моделям ИИ подсказки с явным предупреждением от Американской статистической ассоциации о том, что не следует полагаться на пороги P-значений при интерпретации количественных результатов. Несмотря на это руководство, модели ИИ все равно отвечали дихотомично, отвечая одним образом, когда P-значение составляло 0.049, и другим, когда оно составляло 0.051.
Даже более мощные и современные модели ИИ оказались подвержены этому. Например, ChatGPT выпустил новую версию своей модели во время проведения этого исследования — модель, предназначенную для разбиения проблем на более мелкие компоненты и итеративного размышления над ответами. Эта обновленная модель ИИ отвечала еще более дихотомично, чем старые модели.
«Я не могу с уверенностью сказать, почему это так, но если бы мне пришлось спекулировать, возможно, это связано с тем, что эти новые и более крупные модели более эффективно имитируют человеческие ответы», — говорит МакШейн. «Если это так, то чем ближе эти модели ИИ к генерации текста, который выглядит как текст, созданный человеком, тем больше их ответы должны попадать в ловушки, в которые попадают люди».
Стратегические Рекомендации для Продуктовых Команд
Результаты этого исследования поднимают красные флаги, поскольку люди в академических кругах и других отраслях интегрируют ИИ с большей автономией в более широкие аспекты своей работы. Исследователи уже используют ИИ для обобщения статей, проведения литературных обзоров, выполнения статистических анализов и даже для поиска новых научных открытий. Тем не менее, каждая модель, которую тестировали МакШейн и его соавторы, продемонстрировала систематическую неспособность правильно интерпретировать базовые статистические результаты — что, по словам МакШейна, является необходимым условием для всей этой другой работы.
«Люди просят модели ИИ делать вещи, которые гораздо более сложны, чем простые вопросы с несколькими вариантами ответов, которые мы задавали», — говорит он. «Но если они так непоследовательны в наших вопросах, это вызывает сомнения в их способности выполнять более амбициозные задачи».
Заключение
В заключение, интеграция ИИ в научные исследования и продуктовый менеджмент требует внимательного подхода. Продуктовые команды должны учитывать, что, несмотря на прогресс в области ИИ, модели могут унаследовать человеческие ошибки и предвзятости. Важно разрабатывать стратегии, которые учитывают эти ограничения, и использовать более сложные методы анализа данных, чтобы избежать дихотомичного мышления. Применение таких подходов, как Design Thinking и Agile, может помочь в создании более устойчивых и эффективных продуктов, способных адаптироваться к меняющимся условиям рынка и потребностям пользователей.