Незначительность значимости

Что не так со значимостью? Прежде всего само слово. У математической науки вообще забавные отношения с языком. Статьи о математических исследованиях, порой к большому удивлению людей непосвященных, состоят далеко не из одних только чисел и символов; математические выкладки состоят из слов. Однако объекты, на которые мы ссылаемся, зачастую представляют собой сущности, о которых ничего не сказано в словаре Merriam – Webster[105]. Описание нового требует новой лексики. Существует два способа создать такой словарь. Можно придумать совершенно новые слова, как мы обычно поступаем, когда говорим о когомологиях, сизигиях, монодромии и так далее, однако это делает нашу работу непривлекательной и недоступной для понимания. Гораздо чаще мы приспосабливаем существующие слова для собственных целей[106], опираясь на определенное сходство между математическим объектом, который необходимо описать, и тем или иным элементом так называемого реального мира. Таким образом, для математика слово группа действительно означает группу объектов, но это группа особого типа, например группа целых чисел или группа симметрий геометрической фигуры. Под такой группой мы подразумеваем не просто произвольную совокупность объектов, как в случае ОПЕК или Abba[107], а совокупность объектов, обладающих таким свойством, что любую пару объектов данной группы можно скомбинировать, получив третий объект, как в случае, когда пару чисел можно сложить или пару симметрий выполнить одну за другой[108]. То же самое касается схем, расслоений, колец и пакетов – математических объектов, которые имеют лишь поверхностное отношение к тем вещам, которые обозначают эти слова в обычной жизни. Иногда слова, которые мы выбираем, имеют пасторальный оттенок: современная алгебраическая геометрия, например, имеет дело с полями, пучками, ядрами и слоями[109]. Порой терминология носит более агрессивный характер: нередко говорят, что оператор что-то разрушает или, если использовать еще более сильное выражение, уничтожает. Однажды в аэропорту у меня сложилась довольно неловкая ситуация из-за коллеги, сделавшего совершенно безобидное в математическом смысле замечание: мол, нужно было бы в какой-то момент взорвать плоскость[110].

Итак, поговорим о значимости. В обыденном языке это слово означает нечто важное или имеющее большое значение. Однако тест на оценку значимости, который используют ученые, не измеряет степень важности. Когда мы оцениваем воздействие нового лекарственного препарата, нулевая гипотеза гласит, что такого воздействия вообще нет; следовательно, доказать несостоятельность нулевой гипотезы – значит просто прийти к выводу, что воздействие лекарственного препарата отлично от нуля. Однако это воздействие все-таки может быть очень маленьким – настолько маленьким, что препарат не является эффективным в любом смысле, который обычный человек, не имеющий отношения к математике, назвал бы значимым.

Такая лексическая двойственность термина «значимость» не только делает математические работы трудными для чтения, но и влечет за собой другие последствия. Британский комитет по безопасности лекарственных средств (Committee on Safety of Medicines; далее по тексту – CSM) 18 октября 1995 года разослал по всей Великобритании – 200 тысячам врачей и медицинских работников – информационное письмо с тревожным предупреждением относительно некоторых марок оральных контрацептивов «третьего поколения». В этом письме было сказано следующее: «Получены новые доказательства, что в случае приема некоторых лекарственных препаратов вероятность закупорки вен возрастает примерно в два раза по сравнению с другими»{87}. С венозным тромбозом шутки плохи. Во-первых, образуется тромб, препятствующий циркуляции крови по венам; во-вторых, когда тромб отрывается, кровоток может перенести его в легочную артерию; в-третьих, возникает угроза легочной эмболии, которая в итоге может вас убить.

Авторы письма поспешили заверить читателей, что противозачаточные средства безопасны для большинства женщин, а также что никому не следует прекращать прием соответствующих препаратов без совета врача. Однако такие детали легко теряются из виду, если главная мысль состоит в том, что «таблетки убивают». Уже 19 октября информационное агентство Associated Press опубликовало сообщение: «В четверг правительство предупредило, что новый оральный контрацептив, который принимают 1,5 миллиона британских женщин, может привести к образованию тромбов. …Рассматривалась возможность изъятия данного лекарственного препарата из обращения, но было принято решение не делать этого, отчасти потому, что некоторые женщины не могут принимать другие препараты»{88}.

Ясное дело, женщины почувствовали себя ошарашенными. По данным одного терапевта, 12 % ее пациенток, как только услышали о докладе правительства, прекратили принимать контрацептивы{89}. По всей вероятности, многие перешли на другие типы противозачаточных средств, не имеющих побочного действия в виде тромбоза. Однако любой перерыв в приеме контрацептивов снижает их эффективность, а менее эффективные противозачаточные меры приводят к увеличению случаев беременности. (Вряд ли вы сейчас подумали, что я сообщу о волне воздержания.) До этого инцидента уровень зачатий в Соединенном Королевстве снижался на протяжении нескольких лет подряд, но в следующем году он повысился на несколько процентных пунктов. В Англии и Уэльсе в 1996 году было зачато на 26 тысяч младенцев больше, чем за год до этого. Поскольку во многих случаях беременность оказалась незапланированной, это привело к увеличению случаев прерывания беременности: в 1996 году было сделано на 13 600 абортов больше, чем в 1995-м{90}.

На первый взгляд можно предположить, что такое развитие ситуации не слишком большая плата за возможность избежать страшной угрозы, когда по вашей кровеносной системе носятся сгустки крови, способные привести к летальному исходу. Подумайте обо всех женщинах, которых предупреждение CSM спасло от смерти!

Но о каком именно количестве женщин идет речь? Наверняка мы не знаем, однако, по данным одного ученого, поддержавшего решение CSM о публикации предупреждения, общее количество предотвращенных случаев смерти от эмболии составляло «возможно, один случай»{91}. Дополнительный риск в случае приема оральных контрацептивов третьего поколения был значимым в статистическом смысле по Фишеру, но не был значимым с точки зрения здравоохранения.

Способ, каким была подана эта история, только усилил замешательство. В письме CSM был приведен коэффициент риска: препараты третьего поколения в два раза увеличивают риск тромбоза у женщин. Звучит довольно мрачно, если только вы не вспомните, что тромбоз – крайне редкое заболевание. Среди женщин детородного возраста прием оральных контрацептивов первого и второго поколения мог привести к одному случаю тромбоза на семь тысяч женщин; у женщин, принимавших препараты нового поколения, этот риск был в два раза выше, то есть два случая тромбоза на семь тысяч женщин. Однако это все равно очень низкий уровень риска, если учесть простой математический факт: в два раза большее крохотное число остается крохотным числом. Хорошо это или плохо – увеличить нечто в два раза, зависит от того, насколько велико это нечто! Если во время игры в Scrabble удается сделать ход, в два раза увеличивающий ценность длинного сложного слова – это победа, но поставить на призовую клетку букву из такого слова, как «нос», – значит сделать бесполезный ход.

Мозг воспринимает коэффициент риска гораздо легче, чем крохотную долю вероятности, такую как единичный случай на семь тысяч. Однако применение этого показателя к малым значениям вероятности может ввести в заблуждение. Социологи Городского университета Нью-Йорка провели исследование, по результатам которого было установлено, что среди детей, за которыми присматривают няни или сотрудники центров по уходу за детьми на дому, смертность от несчастных случаев в семь раз выше, чем среди детей, посещающих детские садики{92}. Но прежде чем увольнять няню-иностранку, задумайтесь на минутку о том, что в наше время маленькие дети почти не умирают, а если даже это происходит, то не потому, что няня укачала ребенка до смерти. Годовой уровень несчастных случаев со смертельным исходом в случае ухода за детьми на дому составил 1,6 на 100 тысяч детей: действительно намного более высокий уровень, чем 0,23 на 100 тысяч детей в детских садиках[111]. Однако оба показателя очень близки к нулю. По данным исследования, проведенного социологами Городского университета Нью-Йорка, от несчастных случаев погибло около десятка детей, за которыми обеспечивался уход на дому, – крохотная доля от 1110 американских детей, погибших в результате несчастных случаев в 2010 году (в основном в результате удушения постельным бельем), или от 2063 детей, умерших от синдрома внезапной детской смерти{93}. При прочих равных условиях результатов этого исследования было бы достаточно для того, чтобы отдать предпочтение детским садам перед домашним воспитанием и уходом, однако на самом деле прочие условия не являются равными, причем некоторые аспекты такого неравенства имеют большее значение, чем другие. Что если детский сад, сияющий чистотой и имеющий сертификат городских властей, находится в два раза дальше от вашего дома, чем вызывающий небольшие сомнения детский сад семейного типа? Например, в автомобильных авариях в 2010 году погибло 79 детей; если ваш ребенок будет проводить на 20 % больше времени в год на дороге из-за большего расстояния до детского сада, вы можете потерять преимущество в плане безопасности, которое получили, выбрав более продвинутый садик.

Проверка значимости – это научный инструмент, и, подобно любому другому инструменту, он имеет определенный уровень точности. Если вы сделаете такую проверку более точной (например, увеличив размер изучаемой совокупности), это позволит вам зафиксировать еще более слабое воздействие. В этом не только сила данного метода, но и его опасность. По правде говоря, нулевая гипотеза (если воспринимать ее буквально) почти всегда бывает ложной. Когда вы вводите сильный лекарственный препарат в кровь пациента, трудно поверить, что такое вмешательство оказывает в точности нулевое воздействие на вероятность того, что у этого пациента возникнет рак пищевода, или тромбоз, или неприятный запах изо рта. Каждая часть тела взаимодействует со всеми остальными частями в рамках сложного цикла обратной связи, которая сводится к воздействию и контролю. Все, что вы делаете, либо способствует развитию злокачественной опухоли, либо предотвращает его. Теоретически, если провести эффективное исследование, можно определить влияние каждого фактора. Однако это влияние в большинстве случаев настолько крохотное, что его можно смело исключить из рассмотрения. Тот факт, что мы можем зафиксировать влияние различных факторов, не означает, что все они имеют значение.

Если можно было бы вернуться во времена формирования статистической терминологии и объявить результат, прошедший проверку Фишера с p-значением меньше 0,05, «статистически заметным» или «статистически определимым», вместо того чтобы называть его «статистически значимым»! Эти термины были бы более близкими к сути данного метода, который просто говорит нам о существовании воздействия, но не позволяет определить размер или важность этого воздействия. Но уже слишком поздно. И мы имеем то, что имеем[112].