Телефон:
+7 (499) 705-15-45
Написать нам

Определение объема выборки

Определение объема выборки

Правильная подготовка к исследованию позволяет провести его максимально эффективно используя имеющиеся ресурсы и получить достоверные результаты, на основе которых можно будет уверенно сделать те или иные выводы. Расчёт объёма выборки – это один из существенных этапов планирования эксперимента. Вопрос о размере групп тесно связан как с научными, так и с этическими сторонами исследования. Очевидно, что от количества объектов исследования зависит мощность статистических методов, применяемых для обработки результатов эксперимента. Но помимо достоверности результатов, оптимальный подбор числа испытуемых в клинических исследованиях необходим для того, чтобы возможный риск для пациентов был оправдан положительным вкладом в существующее понимание той или иной научной проблемы.

Для того, чтобы получить представление о размере выборки и мощности исследования приходится делать довольно много допущений. Информацию, необходимую для оценки объёма выборки, получают либо из результатов собственных предыдущих исследований, либо из литературных источников, а иногда исследователь не имеет ни того, ни другого. Но в любом случае, необходимо знать минимальную величину эффекта, которая в данном исследовании будет считаться достаточной. На основании этой величины можно будет сделать предположение о мощности исследования, то есть о его способности дать ответ на интересующий нас вопрос.

Мощность или чувствительность статистического критерия зависит от нескольких показателей.

  • Уровень значимости. Чем меньше этот уровень, тем ниже чувствительность. Другими словами, чем ниже величина p, которая является границей для признания результатов статистически достоверными, тем ниже мощность. Справедливо и обратное утверждение.

  • Объем выборки. Чем больше испытуемых в исследовании, тем более чувствительными становятся статистические критерии.

  • Соотношение величины эффекта (величины различий между контрольной и опытной группами) и стандартного отклонения. Чем выше это значение, тем чувствительнее критерий.

Снижая уровень значимости, исследователь уменьшает риск ошибки первого рода, то есть вероятность найти различия там, где их нет. Одновременно с этим, повышается вероятность ошибки второго рода, смысл которой в том, что существующие различия остаются нераспознанными. Поэтому при планировании исследования очень важно выбрать именно то соотношение вероятностей обеих ошибок, которое обеспечит достаточную мощность статистических критериев при оптимальном уровне значимости.

Таким образом, ещё до начала исследования необходимо определить какого размера потребуется выборка, чтобы при заданном уровне значимости и величине эффекта получить достаточную мощность или чувствительность критериев. Например, при изучении препарата, снижающего артериальное давление, исследователи могут ожидать обнаружения эффекта в 15 мм рт. ст. с вероятностью 80% при уровне значимости 0,05. Затем, определившись со своей целью, исследователи могут приступать к определению оптимальной численности групп, которые будут вовлечены в работу. Естественно, что в это время уже должен быть решён вопрос о том, какой статистический критерий использовать для тестирования гипотезы. Следует иметь в виду, что если мы захотим обнаружить изменения давления меньшие чем выбранные ранее 15 мм рт. ст., то при сохранении всех прочих параметров неизменными мощность уменьшится. Следовательно, обратные действия приведут к увеличению мощности критериев.

Посмотрим, как решить приведённый пример в статистическом пакете Stata. Мы не будем использовать графические меню этого приложения, а ограничимся только командной строкой. Для определения мощности и размера выборки существует функция sampsi. Чтобы получить о ней подробную информацию достаточно набрать help sampsi. Предположим, что для сравнения средних мы решили применить двухвыборочный t-тест. По результатам похожих предыдущих исследований мы знаем, что стандартное отклонение исследуемого показателя одинаково в обеих группах и составляет 20 мм рт. ст. Сами группы также равны по размеру. Тогда следует записать следующую команду:

sampsi 150 135, sd1(20) sd2(20) p(0.8) a(0.05)

Здесь 150 и 135 – это средние величины артериального давления, выраженные в мм рт ст. sd1() и sd2() – стандартные отклонения, p() и a() – целевые мощность и уровень значимости соответственно. В результате работы функции мы выясним, что для решения поставленной задачи необходимо набрать группы по 28 человек. Необходимо всегда иметь в виду, что приведённые в примере значения мощности и уровня значимости не являются обязательными для всех. Эти числа могут изменяться в зависимости от особенностей исследования. Однако любое повышение мощности будет даваться довольно дорого. Так, если в нашем примере увеличить целевую мощность до 90%, то при сохранении всех прочих параметров размер выборки придётся увеличить до 38 испытуемых в каждой группе, что скажется на стоимости планируемой работы.

Приведённый пример очень прост, тем не менее, даже он порождает ряд довольно сложных вопросов. Почему мы решили, что минимальный эффект, который необходимо учитывать составляет 15 мм рт. ст.? Где взять значение стандартного отклонения, ведь мы ещё только планируем эксперимент?

Начнём с выбора величины эффекта. Некоторые исследователи ждут от статистического анализа только одного, чтобы «величина p была меньше 0,05». Однако не стоит забывать и о разнице между группами, то есть величине эффекта исследуемого вида терапии. Допустим, исследование показало, что некоторое гипотензивное средство, статистически достоверно снижает артериальное давление на 3 мм рт. ст. Очевидно, что, несмотря на всю свою статистическую значимость, никакого клинического значения у данного препарата нет. И если есть у него область применения, то это не лечение гипертонии. Таким образом, для выбора целевой величины эффекта можно задать себе вопрос: «Какое максимальное изменение давления ещё можно считать клинически незначимым?» У каждого исследователя возникает желание понизить этот параметр до минимально возможного уровня, но следует помнить, что сокращение целевой величины эффекта в два раза, может привести к необходимости увеличить размер выборки примерно в четыре раза. Так, если в приведённом выше примере установить минимальную величину эффекта 7 мм рт. ст., то в каждую группу необходимо будет набрать по 129 человек вместо 28. И наоборот, если исследователи сочтут достойным внимания снижение давления не менее чем на 30 мм рт. ст., то понадобится всего лишь по семь испытуемых на группу.

Менее тривиальной задачей является определение степени разброса данных, которые ещё не собраны. Речь идёт о дисперсии и, как следствие, о стандартном отклонении. Чувствительность статистического критерия снижается с ростом разброса значений. Строго говоря, она зависит не от абсолютной величины эффекта, а от так называемого «параметра нецентральности», представляющего собой соотношение величины эффекта и стандартного отклонения.

Значение стандартного отклонения для изучаемого параметра исследователь может получить из результатов собственных исследований, выполненных ранее, или из литературных источников. При использовании таких данных вовсе не обязательно, чтобы дизайн предыдущего исследования полностью совпадал с планируемым, но, все же, при выборе источника информации необходимо проанализировать все имеющиеся различия.

При анализе предыдущих исследований следует обратить внимание не столько на схожесть дизайна, сколько на те факторы, которые были причиной разброса данных. Сюда можно отнести характеристики пациентов (возраст, пол, факторы риска изучаемого заболевания и т. д.), оборудование и инструменты, способы введения лекарственного препарата, методы сбора информации, было ли исследование слепым, а так же множество других факторов. Допустим, что в раннем исследовании участвовали только женщины, тогда как будущая работа будет проводиться как с женщинами, так и с мужчинами. Очевидно, что половые различия могут увеличить разброс значений, что следует иметь в виду при определении стандартного отклонения. Даже тот факт, что измерения некоторого показателя, например, артериального давления, проводится у всех пациентов одним и тем же человеком, может оказать значительное влияние на разнородность получаемых данных.

Поскольку дисперсия зависит от большого количества факторов, выделить из них основные – довольно трудная задача, которая осложняется ещё и тем, что в публикациях очень редко отражаются все тонкости проведённого исследования. Поэтому намного более эффективным будет определение стандартного отклонения на основе небольшого количества подробных статей, чем попытка проанализировать как можно больший объем литературы. И уже после того, как будут определены основные факторы, влияющие на разброс данных, можно использовать методы оценки компонентов дисперсии для того, чтобы получить представление о том, какое стандартное отклонение следует ожидать в планируемом исследовании.

Таким образом, мы выяснили, что мощность исследования зависит от того, какой величины эффект мы хотим увидеть и от разброса данных. Исходя из априорных предположений о представленных параметрах, определяется размер будущей выборки. Но бывают случаи, когда исследователь не в силах изменить численность групп. Причиной тому могут быть как ограничения финансового характера, так и непоколебимое мнение руководства о том, какой должна быть выборка. В таком случае следует помнить, что количество испытуемых в группе – это не единственный фактор, от которого зависит качество исследования. В нашем распоряжении остаётся ещё и величина эффекта.

Для примера вернёмся к исследованию гипотензивного препарата. Мы уже выяснили, что для выявления эффекта 15 мм рт. ст. с вероятностью 80% нам понадобятся две группы по 28 человек. Допустим, бюджет исследования позволяет набрать не более чем по 16 испытуемых в группу. Тогда, чтобы сохранить прежний уровень мощности, придётся увеличить целевую величину эффекта до 20 мм рт. ст., а затем обсудить с коллегами возможность проведения исследования с данными параметрами. Если окажется, что новое значение слишком велико, то это может быть веским аргументом в пользу увеличения бюджета. Другой вариант выхода из ситуации заключается в изменении дизайна исследования таким образом, чтобы снизить разброс данных до уровня, при котором величина стандартного отклонения будет достаточна для выявления малого эффекта. В случае с многофакторным исследованием можно сделать фиксированными некоторые из факторов или провести данную работу как часть нескольких последовательных исследований. Иначе говоря, при фиксированном размере выборки есть возможность изменить ряд других параметров исследования для получения результатов необходимого качества.

Как видите, планирование исследования задача непростая, поэтому многие исследователи вместо планирования эксперимента занимаются только ретроспективным анализом размера выборки и мощности статистических критериев. К сожалению, такой подход смещает акцент работы учёного с научных целей, на достижение статистической значимости. В том случае, когда анализ показывает достижение установленного уровня значимости, работа считается успешно завершённой, о чем и сообщается в очередной публикации. Однако может оказаться, что преодоление некоторого порога значимости достигнуто путём неоправданно больших размеров групп. Такое положение дел в клинических исследованиях даёт основу для критики: как по экономическим, так и по этическим соображениям. Участие в исследовании избыточного числа пациентов говорит о том, что часть из них напрасно подвергла риску своё здоровье, особенно те, кто получал плацебо вместо лечения.

Может возникнуть и обратная ситуация, когда после сбора и анализа данных выясняется, что результаты статистически недостоверны. В таком случае возникает необходимость дополнительного исследования, цель которого не научная проверка гипотезы, а всего лишь достижение статистической значимости, то есть «погоня за звёздочками».

Таким образом, определение размера выборки при планировании исследования – это очень важный, но всегда сложный процесс. Для успешного его выполнения необходимо тесное сотрудничество исследователя со статистиком. В этой работе придётся ответить на вопросы о величине ожидаемого эффекта и предполагаемом разбросе данных. Поэтому, несмотря на сложность этих вопросов, при подготовке исследования, игнорировать их нельзя.


Название: Определение объема выборки
Детальное описание: 

Правильная подготовка к исследованию позволяет провести его максимально эффективно используя имеющиеся ресурсы и получить достоверные результаты, на основе которых можно будет уверенно сделать те или иные выводы. Расчёт объёма выборки – это один из существенных этапов планирования эксперимента. Вопрос о размере групп тесно связан как с научными, так и с этическими сторонами исследования. Очевидно, что от количества объектов исследования зависит мощность статистических методов, применяемых для обработки результатов эксперимента. Но помимо достоверности результатов, оптимальный подбор числа испытуемых в клинических исследованиях необходим для того, чтобы возможный риск для пациентов был оправдан положительным вкладом в существующее понимание той или иной научной проблемы.

Для того, чтобы получить представление о размере выборки и мощности исследования приходится делать довольно много допущений. Информацию, необходимую для оценки объёма выборки, получают либо из результатов собственных предыдущих исследований, либо из литературных источников, а иногда исследователь не имеет ни того, ни другого. Но в любом случае, необходимо знать минимальную величину эффекта, которая в данном исследовании будет считаться достаточной. На основании этой величины можно будет сделать предположение о мощности исследования, то есть о его способности дать ответ на интересующий нас вопрос.

Мощность или чувствительность статистического критерия зависит от нескольких показателей.

  • Уровень значимости. Чем меньше этот уровень, тем ниже чувствительность. Другими словами, чем ниже величина p, которая является границей для признания результатов статистически достоверными, тем ниже мощность. Справедливо и обратное утверждение.

  • Объем выборки. Чем больше испытуемых в исследовании, тем более чувствительными становятся статистические критерии.

  • Соотношение величины эффекта (величины различий между контрольной и опытной группами) и стандартного отклонения. Чем выше это значение, тем чувствительнее критерий.

Снижая уровень значимости, исследователь уменьшает риск ошибки первого рода, то есть вероятность найти различия там, где их нет. Одновременно с этим, повышается вероятность ошибки второго рода, смысл которой в том, что существующие различия остаются нераспознанными. Поэтому при планировании исследования очень важно выбрать именно то соотношение вероятностей обеих ошибок, которое обеспечит достаточную мощность статистических критериев при оптимальном уровне значимости.

Таким образом, ещё до начала исследования необходимо определить какого размера потребуется выборка, чтобы при заданном уровне значимости и величине эффекта получить достаточную мощность или чувствительность критериев. Например, при изучении препарата, снижающего артериальное давление, исследователи могут ожидать обнаружения эффекта в 15 мм рт. ст. с вероятностью 80% при уровне значимости 0,05. Затем, определившись со своей целью, исследователи могут приступать к определению оптимальной численности групп, которые будут вовлечены в работу. Естественно, что в это время уже должен быть решён вопрос о том, какой статистический критерий использовать для тестирования гипотезы. Следует иметь в виду, что если мы захотим обнаружить изменения давления меньшие чем выбранные ранее 15 мм рт. ст., то при сохранении всех прочих параметров неизменными мощность уменьшится. Следовательно, обратные действия приведут к увеличению мощности критериев.

Посмотрим, как решить приведённый пример в статистическом пакете Stata. Мы не будем использовать графические меню этого приложения, а ограничимся только командной строкой. Для определения мощности и размера выборки существует функция sampsi. Чтобы получить о ней подробную информацию достаточно набрать help sampsi. Предположим, что для сравнения средних мы решили применить двухвыборочный t-тест. По результатам похожих предыдущих исследований мы знаем, что стандартное отклонение исследуемого показателя одинаково в обеих группах и составляет 20 мм рт. ст. Сами группы также равны по размеру. Тогда следует записать следующую команду:

sampsi 150 135, sd1(20) sd2(20) p(0.8) a(0.05)

Здесь 150 и 135 – это средние величины артериального давления, выраженные в мм рт ст. sd1() и sd2() – стандартные отклонения, p() и a() – целевые мощность и уровень значимости соответственно. В результате работы функции мы выясним, что для решения поставленной задачи необходимо набрать группы по 28 человек. Необходимо всегда иметь в виду, что приведённые в примере значения мощности и уровня значимости не являются обязательными для всех. Эти числа могут изменяться в зависимости от особенностей исследования. Однако любое повышение мощности будет даваться довольно дорого. Так, если в нашем примере увеличить целевую мощность до 90%, то при сохранении всех прочих параметров размер выборки придётся увеличить до 38 испытуемых в каждой группе, что скажется на стоимости планируемой работы.

Приведённый пример очень прост, тем не менее, даже он порождает ряд довольно сложных вопросов. Почему мы решили, что минимальный эффект, который необходимо учитывать составляет 15 мм рт. ст.? Где взять значение стандартного отклонения, ведь мы ещё только планируем эксперимент?

Начнём с выбора величины эффекта. Некоторые исследователи ждут от статистического анализа только одного, чтобы «величина p была меньше 0,05». Однако не стоит забывать и о разнице между группами, то есть величине эффекта исследуемого вида терапии. Допустим, исследование показало, что некоторое гипотензивное средство, статистически достоверно снижает артериальное давление на 3 мм рт. ст. Очевидно, что, несмотря на всю свою статистическую значимость, никакого клинического значения у данного препарата нет. И если есть у него область применения, то это не лечение гипертонии. Таким образом, для выбора целевой величины эффекта можно задать себе вопрос: «Какое максимальное изменение давления ещё можно считать клинически незначимым?» У каждого исследователя возникает желание понизить этот параметр до минимально возможного уровня, но следует помнить, что сокращение целевой величины эффекта в два раза, может привести к необходимости увеличить размер выборки примерно в четыре раза. Так, если в приведённом выше примере установить минимальную величину эффекта 7 мм рт. ст., то в каждую группу необходимо будет набрать по 129 человек вместо 28. И наоборот, если исследователи сочтут достойным внимания снижение давления не менее чем на 30 мм рт. ст., то понадобится всего лишь по семь испытуемых на группу.

Менее тривиальной задачей является определение степени разброса данных, которые ещё не собраны. Речь идёт о дисперсии и, как следствие, о стандартном отклонении. Чувствительность статистического критерия снижается с ростом разброса значений. Строго говоря, она зависит не от абсолютной величины эффекта, а от так называемого «параметра нецентральности», представляющего собой соотношение величины эффекта и стандартного отклонения.

Значение стандартного отклонения для изучаемого параметра исследователь может получить из результатов собственных исследований, выполненных ранее, или из литературных источников. При использовании таких данных вовсе не обязательно, чтобы дизайн предыдущего исследования полностью совпадал с планируемым, но, все же, при выборе источника информации необходимо проанализировать все имеющиеся различия.

При анализе предыдущих исследований следует обратить внимание не столько на схожесть дизайна, сколько на те факторы, которые были причиной разброса данных. Сюда можно отнести характеристики пациентов (возраст, пол, факторы риска изучаемого заболевания и т. д.), оборудование и инструменты, способы введения лекарственного препарата, методы сбора информации, было ли исследование слепым, а так же множество других факторов. Допустим, что в раннем исследовании участвовали только женщины, тогда как будущая работа будет проводиться как с женщинами, так и с мужчинами. Очевидно, что половые различия могут увеличить разброс значений, что следует иметь в виду при определении стандартного отклонения. Даже тот факт, что измерения некоторого показателя, например, артериального давления, проводится у всех пациентов одним и тем же человеком, может оказать значительное влияние на разнородность получаемых данных.

Поскольку дисперсия зависит от большого количества факторов, выделить из них основные – довольно трудная задача, которая осложняется ещё и тем, что в публикациях очень редко отражаются все тонкости проведённого исследования. Поэтому намного более эффективным будет определение стандартного отклонения на основе небольшого количества подробных статей, чем попытка проанализировать как можно больший объем литературы. И уже после того, как будут определены основные факторы, влияющие на разброс данных, можно использовать методы оценки компонентов дисперсии для того, чтобы получить представление о том, какое стандартное отклонение следует ожидать в планируемом исследовании.

Таким образом, мы выяснили, что мощность исследования зависит от того, какой величины эффект мы хотим увидеть и от разброса данных. Исходя из априорных предположений о представленных параметрах, определяется размер будущей выборки. Но бывают случаи, когда исследователь не в силах изменить численность групп. Причиной тому могут быть как ограничения финансового характера, так и непоколебимое мнение руководства о том, какой должна быть выборка. В таком случае следует помнить, что количество испытуемых в группе – это не единственный фактор, от которого зависит качество исследования. В нашем распоряжении остаётся ещё и величина эффекта.

Для примера вернёмся к исследованию гипотензивного препарата. Мы уже выяснили, что для выявления эффекта 15 мм рт. ст. с вероятностью 80% нам понадобятся две группы по 28 человек. Допустим, бюджет исследования позволяет набрать не более чем по 16 испытуемых в группу. Тогда, чтобы сохранить прежний уровень мощности, придётся увеличить целевую величину эффекта до 20 мм рт. ст., а затем обсудить с коллегами возможность проведения исследования с данными параметрами. Если окажется, что новое значение слишком велико, то это может быть веским аргументом в пользу увеличения бюджета. Другой вариант выхода из ситуации заключается в изменении дизайна исследования таким образом, чтобы снизить разброс данных до уровня, при котором величина стандартного отклонения будет достаточна для выявления малого эффекта. В случае с многофакторным исследованием можно сделать фиксированными некоторые из факторов или провести данную работу как часть нескольких последовательных исследований. Иначе говоря, при фиксированном размере выборки есть возможность изменить ряд других параметров исследования для получения результатов необходимого качества.

Как видите, планирование исследования задача непростая, поэтому многие исследователи вместо планирования эксперимента занимаются только ретроспективным анализом размера выборки и мощности статистических критериев. К сожалению, такой подход смещает акцент работы учёного с научных целей, на достижение статистической значимости. В том случае, когда анализ показывает достижение установленного уровня значимости, работа считается успешно завершённой, о чем и сообщается в очередной публикации. Однако может оказаться, что преодоление некоторого порога значимости достигнуто путём неоправданно больших размеров групп. Такое положение дел в клинических исследованиях даёт основу для критики: как по экономическим, так и по этическим соображениям. Участие в исследовании избыточного числа пациентов говорит о том, что часть из них напрасно подвергла риску своё здоровье, особенно те, кто получал плацебо вместо лечения.

Может возникнуть и обратная ситуация, когда после сбора и анализа данных выясняется, что результаты статистически недостоверны. В таком случае возникает необходимость дополнительного исследования, цель которого не научная проверка гипотезы, а всего лишь достижение статистической значимости, то есть «погоня за звёздочками».

Таким образом, определение размера выборки при планировании исследования – это очень важный, но всегда сложный процесс. Для успешного его выполнения необходимо тесное сотрудничество исследователя со статистиком. В этой работе придётся ответить на вопросы о величине ожидаемого эффекта и предполагаемом разбросе данных. Поэтому, несмотря на сложность этих вопросов, при подготовке исследования, игнорировать их нельзя.


Возврат к списку