Itinai.com httpss.mj.runmrqch2uvtvo a business analyst in an 02058418 0fdf 4e9b abf9 29c0eef8cb93 0

Искусственный интеллект и статистическая значимость: ошибки в интерпретации данных

Itinai.com httpss.mj.runmrqch2uvtvo a business analyst in an 02058418 0fdf 4e9b abf9 29c0eef8cb93 0

Влияние Искусственного Интеллекта на Научные Исследования и Продуктовый Менеджмент

В начале этого года разработчик искусственного интеллекта Anthropic выпустил новую модель, способную дольше «думать» над проблемой, аналогично тому, как это делает человек. Стэнфорд и IBM разработали «двойников» более чем 1000 человек, которые, как предполагается, рассуждают и принимают решения так же, как и их реальные прототипы. Для многих компаний в этой области надежда заключается в создании моделей ИИ, которые рассуждают так, что их выводы практически неотличимы от человеческих.

«ИИ, который лучше имитирует людей, кажется хорошей вещью», — говорит Блейк МакШейн, профессор маркетинга в Kellogg. «Но когда ИИ имитирует человеческие ошибки, это, очевидно, плохо, когда точность является целью».

Дихотомия Восприятия

Люди склонны воспринимать мир как дихотомичный, а не непрерывный. Этот черно-белый способ мышления также присутствует в науке, когда исследователи применяют произвольные пороги к своим результатам — подход, который может привести к ошибкам в интерпретации. В новом исследовании МакШейн и его коллеги из Университета Иллинойс в Чикаго обнаружили, что модели ИИ также подвержены этим ошибкам, как и человеческие исследователи.

«Учитывая, что модели ИИ «учатся» на человеческом тексте и что люди совершают эти ошибки постоянно, мы предположили, что модели ИИ будут делать то же самое», — говорит МакШейн.

Статистическая Значимость в Научной Практике

Исследователи давно полагаются на статистические тесты для интерпретации результатов исследований. Один из самых популярных тестов, тест значимости нулевой гипотезы, предоставляет меру, известную как P-значение, которое варьируется от нуля до одного. Обычно исследователи считают свои результаты «статистически значимыми», когда P-значение ниже 0.05, и «статистически незначимыми», когда оно выше.

Когнитивная ошибка часто сопровождает эту дихотомизацию: исследователи неверно интерпретируют «статистическую значимость» как подтверждение эффекта, который они изучают, и «статистическую незначимость» как доказательство отсутствия эффекта. Порог 0.05 стал своего рода «стражем» для публикации исследований. Исследования, которые сообщают о «статистически значимых» результатах, гораздо более вероятно будут опубликованы, чем те, которые этого не делают, даже если их P-значения почти одинаковы. Это приводит к предвзятой литературе и поощряет вредные исследовательские практики, которые толкают P-значение к желаемой стороне порога.

Как ИИ Имитирует Человека

МакШейн и его коллеги исследовали, следуют ли модели ИИ, такие как ChatGPT, Gemini и Claude, так же строго порогу «статистической значимости» 0.05 при интерпретации статистических результатов. Они попросили эти модели интерпретировать результаты трех различных гипотетических экспериментов.

Первый эксперимент касался выживаемости среди пациентов с терминальной стадией рака. Пациенты были разделены на две группы: Группа А, где они ежедневно писали о положительных вещах, и Группа Б, где они писали о несчастьях других. Результаты показали, что в среднем пациенты из Группы А жили 8.2 месяца после первоначального диагноза, по сравнению с 7.5 месяцами для пациентов из Группы Б.

После представления этой информации моделям ИИ исследователи спросили, какой из четырех вариантов наиболее точно отражает результаты. Они варьировали P-значение, сравнивая две группы, от «статистически значимого» 0.049 до «статистически незначимого» 0.051. Результаты показали четкое разделение в ответах моделей ИИ в зависимости от P-значения: они почти всегда утверждали, что Группа А жила дольше, когда P-значение составляло 0.049, но гораздо реже делали это, когда оно составляло 0.051.

Проблемы с Интерпретацией

Исследователи столкнулись с аналогичными результатами в двух других гипотетических экспериментах. Например, в одном из них о эффективности препарата, где результаты для Препарата А были более многообещающими, чем для Препарата Б, модели ИИ почти всегда отвечали, что пациент скорее выздоровеет, если ему дадут Препарат А, когда P-значение составляло 0.049, но очень редко, когда оно составляло 0.051.

Во всех этих экспериментах результаты близко отражали то, что происходило, когда академические исследователи отвечали на те же вопросы в предыдущих исследованиях. Место, где находилось P-значение относительно порога «статистической значимости» 0.05, последовательно играло ключевую роль в формировании того, как как люди, так и модели ИИ интерпретировали результаты.

Предостережение

Исследователи расширили исследование, предоставив моделям ИИ подсказки с явным предупреждением от Американской статистической ассоциации о том, что не следует полагаться на пороги P-значений при интерпретации количественных результатов. Несмотря на это руководство, модели ИИ все равно отвечали дихотомично, отвечая одним образом, когда P-значение составляло 0.049, и другим, когда оно составляло 0.051.

Даже более мощные и современные модели ИИ оказались подвержены этому. Например, ChatGPT выпустил новую версию своей модели во время проведения этого исследования — модель, предназначенную для разбиения проблем на более мелкие компоненты и итеративного размышления над ответами. Эта обновленная модель ИИ отвечала еще более дихотомично, чем старые модели.

«Я не могу с уверенностью сказать, почему это так, но если бы мне пришлось спекулировать, возможно, это связано с тем, что эти новые и более крупные модели более эффективно имитируют человеческие ответы», — говорит МакШейн. «Если это так, то чем ближе эти модели ИИ к генерации текста, который выглядит как текст, созданный человеком, тем больше их ответы должны попадать в ловушки, в которые попадают люди».

Стратегические Рекомендации для Продуктовых Команд

Результаты этого исследования поднимают красные флаги, поскольку люди в академических кругах и других отраслях интегрируют ИИ с большей автономией в более широкие аспекты своей работы. Исследователи уже используют ИИ для обобщения статей, проведения литературных обзоров, выполнения статистических анализов и даже для поиска новых научных открытий. Тем не менее, каждая модель, которую тестировали МакШейн и его соавторы, продемонстрировала систематическую неспособность правильно интерпретировать базовые статистические результаты — что, по словам МакШейна, является необходимым условием для всей этой другой работы.

«Люди просят модели ИИ делать вещи, которые гораздо более сложны, чем простые вопросы с несколькими вариантами ответов, которые мы задавали», — говорит он. «Но если они так непоследовательны в наших вопросах, это вызывает сомнения в их способности выполнять более амбициозные задачи».

Заключение

В заключение, интеграция ИИ в научные исследования и продуктовый менеджмент требует внимательного подхода. Продуктовые команды должны учитывать, что, несмотря на прогресс в области ИИ, модели могут унаследовать человеческие ошибки и предвзятости. Важно разрабатывать стратегии, которые учитывают эти ограничения, и использовать более сложные методы анализа данных, чтобы избежать дихотомичного мышления. Применение таких подходов, как Design Thinking и Agile, может помочь в создании более устойчивых и эффективных продуктов, способных адаптироваться к меняющимся условиям рынка и потребностям пользователей.

Как создать продукт который станет новой нормой. ИИ-менеджмент продукта

Этот гид содержит ключевые принципы создания успешного продукта на основе опыта Airbnb, Uber, Revolut, Spotify и других компаний.

Содержание книги

Почему одни продукты меняют поведение людей, а другие остаются незамеченными

  • Как новые продукты создают новые рынки
  • Формирование идеи, информационного сигнала и социального института
  • Механики вирусности, сетевые эффекты и глобализация
  • Как измерять успех: метрики и финансовая устойчивость

Как создать продукт на миллиард

  • Какие факторы определяют готовность рынка к изменениям
  • Успех и провалы компаний-единорогов: ключевые закономерности
  • Чек-лист: готов ли рынок к появлению нового продукта

Как сделать идеальный продукт

  • Почему лучшие продукты воспринимаются как «технологическая магия»
  • Чек-лист для команды: продукт решает проблему, легко встраивается в привычки и вызывает желание возвращаться
  • Современные методы исследования гипотез

От идеи к первым клиентам: запуск и тестирование

  • Design Thinking, Lean Startup, MVP: как проверять гипотезы и минимизировать риски
  • Agile и Scrum в управлении продуктом
  • Как маркетинг встроен в процесс разработки

Как использовать данные для роста

  • Data-Driven Product Management: как анализ данных помогает развивать продукт
  • Влияние искусственного интеллекта на персонализацию, аналитику и монетизацию
  • Как изменяется конкурентоспособность с приходом AI

Как продукт становится новой нормой

  • Информационный сигнал и механизмы его распространения
  • Институционализация: превращение продукта в новый стандарт
  • Почему одни продукты закрепляются, а другие исчезают

Масштабирование: рост без хаоса

  • Как сохранить простоту и ценность при росте продукта
  • Ошибки, которые убивают масштабирование
  • Как избежать перегруженности функций и сохранить удобство для пользователей

Монетизация: стратегии и ошибки

  • Как выбрать модель монетизации и не потерять пользователей
  • Почему некоторые компании готовы работать в убыток ради долгосрочной выгоды
  • Чек-лист: как оценить зрелость продукта и его дальнейшие перспективы

Продуктовый менеджмент в эпоху AI

  • Как изменяются роли в команде с внедрением AI
  • Управление продуктом без команды: автоматизация аналитики, маркетинга и разработки
  • Чек-лист: как работать с AI и использовать его в продуктовой стратегии

Бесплатный ИИ для работы

Новости в сфере искусственного интеллекта