Материалы конгрессов и конференций

VII РОССИЙСКАЯ ОНКОЛОГИЧЕСКАЯ КОНФЕРЕНЦИЯ

СТАТИСТИКА И КЛИНИЧЕСКИЕ ИССЛЕДОВАНИЯ В ОНКОЛОГИИ

А.Е. Алфимов
Фармацевтическая компания АстраЗенека

Результаты клинических исследований (КИ) меняют практику применения лекарственных препаратов. Особенно быстро это происходит в онкологии. Если врачи некоторых других специальностей широко назначают лечение на основании традиций, привычек, недобросовестной рекламы, представлений о механизмах действия, то онкологи чаще других при выборе лечения руководствуются доказанными преимуществами в эффективности, переносимости, фармакоэкономике и качестве жизни. Доказательствами являются, прежде всего, результаты КИ и их систематические обобщения.

При планировании собственных исследований и представлении их результатов врачи должны обращаться к специалистам по биомедицинской статистике, что также естественно, как обращение за специализированной помощью к любому врачу-специалисту. Однако, для того, чтобы уметь самому оценить качество и корректность чужой публикации, любой врач должен иметь представление о том, как КИ планируются, проводятся и правильно представляются их результаты. Цель настоящего доклада - коротко и доступно описать процесс планирования и представления результатов КИ, а также используемые при этом статистические термины.

КИ отличаются от экспериментов фундаментальных биомедицинских наук тем, что объектом исследования является живой человек – пациент, а не животные, культуры клеток, тканей и т.п. Поведение пациента, так же как и экспериментатора, контролировать трудно, но необходимо, т.к. в отличие от «чистого» эксперимента, где в качестве важного доказательства объективности данных принимается воспроизводимость, в КИ демонстрация воспроизводимости ограничена или невозможна по этическим и экономическим причинам. Следовательно, в КИ всегда заложена опасность систематических ошибок, снизить которую можно только, предприняв меры контроля на всех этапах КИ. Эти меры адекватно предусмотрены в дизайне рандомизированных контролируемых исследований (РКИ). В ходе РКИ мы набираем из интересующей нас популяции больных (статистики назовут ее генеральной совокупностью (ГС)) группу больных определенной численности (статистики называют ее «выборка»), даем одной части больных исследуемый препарат, другой - препарат сравнения или плацебо и фиксируем заранее оговоренные эффекты от лечения, например, уменьшение размера опухоли, продолжительность жизни или безрецидивного периода. Затем полученный на нашей выборке результат мы переносим на всю генеральную совокупность, т.е. полагаем, что результаты нашего исследования имеют отношение ко всем больным. Этот важный этап называется генерализацией и, как правило, делается автоматически, при этом подразумевается, что исследование спланировано и проведено правильно, и генерализация возможна без оговорок. На самом деле, контролировать факторы, влияющие на обоснованность генерализации на 100% невозможно, а, значит, в любом КИ невозможно получить абсолютно надежные выводы относительно генеральной совокупности и то, что мы наблюдаем в исследовании, может отличаться от реальной жизни. Тем не менее, не имея другой возможности, нам остается делать выводы из результатов КИ с той надежностью, которую мы в состоянии получить.

Чтобы оценить насколько полученные в исследовании данные соответствуют реальной генеральной совокупности, применяют понятие доверительного интервала (ДИ), т.е. интервала значений, который с определенной вероятностью, чаще всего 95%, содержит истинное значение. Например, частота ответа 32% (95% ДИ 15-49%), то есть в исследовании получено среднее значение 32%, но в генеральной совокупности оно почти наверняка (с вероятностью 95%) попадет в указанный диапазон (15-49%). Такое представление вероятного разброса значений сейчас общепринято, более наглядно и пригодно для сравнения, чем, скажем, «среднее±ошибка среднего» или «среднее» (минимальное значение, максимальное значение).

Представим, что исследование показало статистически достоверное преимущество препарата, которое в дальнейшем не подтвердилось, т.е. исследование дало ложноположительный результат. Он для нас более неприемлем, чем ложноотрицательный, т.к. он означает, что мы введем в практику бесполезный неэффективный препарат. Это – так называемая ошибка первого рода или ошибка потребителя. Для оценки ошибки первого рода применяют значение р, которое показывает вероятность этой ошибки. Например, если р=0.05 (наиболее часто применяемое пороговое значение р), то мы должны иметь в виду что есть 5% вероятность того, что результат, полученный в данном КИ, является чисто случайным, т.е. при гипотетическом бесконечном повторении нашего КИ он будет случайным образом наблюдаться в каждом двадцатом исследовании.

Ошибка второго рода, или ошибка производителя, или ложноотрицательный результат заключается в том, что на основании нашего исследования мы можем решить, что препарат неэффективен, хотя в действительности он эффективен. В этом случае пострадает производитель, т.к. он ошибочно откажется от эффективного препарата. Контролировать ошибку второго помогает мощность исследования, которая зависит от числа пациентов, включенных в исследование, и рассчитывается специалистом по биомедицинской статистике. Чтобы достоверно показать небольшое различие, которое к тому же имеет большой разброс, необходимо набрать больше пациентов. Однако, увеличивая число больных, можно статистически доказать наличие столь малых различий, которые уже не будут иметь клинического значения. Поэтому следует различать статистическую и клиническую значимость. Фраза о расчете мощности исследования включается в статистическую часть протокола и публикации, и обязательно указывает размер предполагаемого эффекта, который естественно должен быть клинически значимым. Например: “Иресса будет сравниваться с плацебо в отношении влияния на выживаемость на основе “intent-tо-treat” подхода. Цель финального анализа с 90% мощностью выявить увеличение 1-летней выживаемости на 50%, а именно при 30% выживаемости для плацебо показать 45% выживаемость для ирессы. При экспоненциальной кривой выживаемости это соответствует отношению рисков 1,51 (плацебо/иресса) и увеличению медианы выживаемости на 3,5 мес., а именно при 6,5 мес. для плацебо – 10,4 мес. для ирессы. Всего необходимо иметь 369 летальных исходов для достижения 5% уровня значимости и 90% мощности. Анализ должен включать минимум 6 мес. наблюдения”.

В данном примере размер искомого различия указан и является клинически значимым (увеличение 1-летней выживаемости на 3,5 мес.); “intent-to-treat” означает, что в анализ эффективности будут включены все больные, даже выбывшие и не получившие полный курс лечения, в отличие от анализа “per protocol”, куда включаются только больные, прошедшие полный курс лечения согласно протоколу. Гипотеза о превосходстве ирессы над плацебо сформулирована относительно единственной главной (первичной) конечной точки (primary end-point), а именно - 1-летней выживаемости.

Вторичных конечных точек (secondary end-points) может быть больше одной, но отношение к интерпретации результатов по вторичным точкам должно быть критичным, особенно, если по первичным точкам получен отрицательный результат. Дело в том, что все описанные выше критерии научной обоснованности исследования (в том числе расчет мощности и выбор корректного статистического метода для анализа) учитываются только для главных (первичных) эндпойнтов. Тем не менее, не обладая доказательной силой, результаты по вторичным точкам вносят важный вклад в общую массу уместных доказательств и дают нам ценный материал для новых гипотез.

Предварительное тестирование новых гипотез может проводиться с помощью пилотных исследований и с помощью недоказательного исследовательского (exploratory) анализа доказательных исследований. Как правило, такой анализ не запланирован (ретроспективный) и вызван полученными данными и необходимостью их объяснения, например, анализ в подгруппах. При представлении таких данных обязательно указывать, что они получены при ретроспективном анализе.

Исследование может быть спланировано не для демонстрации превосходства препарата в эффективности (superiority), а для того чтобы показать, что эффективность нового, лучше переносимого препарата эквивалентна или, по крайней мере, не хуже, чем у стандартного лечения (non-inferiority). Статистический анализ в этом случае обязательно основывается на доверительных интервалах, при этом границы интервалов должны быть указаны заранее и клинически обоснованы. Вывод об эквивалентности делается в том случае, когда весь доверительный интервал попадает в заданные границы эквивалентности.

Таким образом, для демонстрации эквивалентности необходим особый дизайн исследования: «…нельзя делать вывод о наличии эквивалентности на основании отсутствия достоверности различий и отрицания нулевой гипотезы». Это цитата из статистического руководства ICH. Например, если сравнительное КИ, спланированное для демонстрации превосходства в эффективности, дало отрицательный результат (не показало превосходства), то мы не можем сделать формальный вывод о том, что оба препарата равны по эффективности, даже если средние показатели эффективности равны или лучше чем в контрольной группе. Однако если полученные результаты интересны для производителя, он, конечно, будет их приводить, но при этом должен указывать, что они получены при дополнительном анализе. Если же КИ, спланированное для доказательства эквивалентности или не худшей эффективности, показывает статистически достоверное преимущество исследуемого препарата, то обязательно следует указывать также, что этот результат получен при дополнительном анализе. Вот пример корректного представления результатов исследования на эквивалентность, в котором обнаружилось преимущество: «Аримидекс против тамоксифена в первой линии при лечении рака молочной железы». Первичные цели: время до прогрессирования (Time to Progression, ТТР) и частота ответа (OR). Мощность исследования рассчитана для демонстрации эквивалентности. Эквивалентность будет установлена, если нижний одинарный 95% предел соотношения рисков времени до прогрессирования (ТТР) будет >0.80, т.е. эквивалентность будет установлена, если с 95% уверенностью будет исключено превосходство тамоксифена на 20% и больше. Результаты: медиана времени до прогрессирования (ТТР) - 11.1 мес. (Аримидекс) и 5.6 мес. (тамоксифен). Соотношение рисков (HR) прогрессирования тамоксифен/Аримидекс 1.44 (нижний 95% доверительный предел 1.16), следовательно, Аримидекс, по крайней мере, так же эффективен как тамоксифен. Дополнительный анализ данных времени до прогрессирования (ТТР) показал, что преимущество Аримидекса было статистически достоверным (р=0.005)1». Здесь четко указано, что преимущество выявлено при дополнительном анализе.

А вот пример некорректного представления результатов в сходной ситуации: «Экземестан против мегестрола во 2-й линии лечения рака молочной железы». Первичная цель - частота ответа (OR). Так как исследование на эквивалентность, вероятность ошибки 1 рода принята 0,1. Для установления эквивалентности верхняя граница 90% доверительного интервала для разницы в частоте ответа в пользу мегестрола не должна превышать 25%. Результаты: хотя на фоне приема экземестана наблюдалась более высокая частота ответа, чем на фоне приема мегестрола, разница была статистически недостоверной: 15% против 12.4%. Разница: -2.6%, 95%ДИ от -7.5% до 2.3%. Следовательно, цель протокола - продемонстрировать эквивалентность - выполнена. Лечение экземестаном также связано с существенным преимуществом в выживаемости (медиана 123.4 нед. - мегестрол, медиана не достигнута - экземестан) р=0.039. Результаты этого проспективного контролируемого исследования показали существенное улучшение общей продолжительности успешного лечения, времени до прогрессирования (ТТР), времени до неудачи терапии (TTF) и улучшение выживаемости при лечении инактиватором ароматазы экземестаном по сравнению с мегестролом2».

Прежде всего, обратим внимание на то, что первичной целью и, следовательно, первичной конечной точкой является только частота ответа. Для онкологических исследований III фазы такой вариант мало информативен и подвержен сильному субъективному влиянию, поэтому доказательные исследования III фазы должны планироваться на основе анализа времени до прогрессирования, времени до смерти, симптоматического улучшения и качества жизни3.

Обращаем также внимание на фразу: «медиана не достигнута». Это означает, что авторы докладывают промежуточные (неокончательные) результаты, а в самой статье можно найти информацию о том, что на момент анализа умерли 30% больных, а медиана продолжительности наблюдения составила 11 мес. На самом деле, для корректного анализа исследования по раку молочной железы необходимо >50% исходов и не менее 24 мес. наблюдения. Кстати, результаты окончательного анализа до сих пор (спустя 3 года!) не опубликованы. И, наконец, в выводах мы видим типичный трюк: если у врачей нет времени читать публикацию полностью и сравнивать запланированные цели с полученными выводами, то создается впечатление, что они имеют дело с результатами доказательного исследования на превосходство, т.к. не указывается, что результаты получены при дополнительном, к тому же предварительном анализе. Более того, не к месту вставляется фраза о проспективном исследовании. На самом деле, полученные при дополнительном анализе результаты требуют проверки в проспективном исследовании, специально спланированном для доказательства перечисленных выводов. Надо отметить, что эти «маленькие хитрости» не мешают появлению подобных публикаций в рецензируемых (peer-reviewed) изданиях, т.к. не нарушают их формальных требований. Поэтому врачу необходимо самому разбираться в этих тонкостях, а не полагаться на авторитет издания.

К числу маленьких хитростей относится и представление результатов в виде относительного преимущества. Например, при частоте ответа 30% на новом методе и 20% на стандартном, относительное преимущество нового метода составит 50%, а абсолютное только 10%. Ниже представлен пример расчета соотношений, применяемых в онкологии:

Исходные данные

  Умерло Живы Всего Риск неблаго-
приятного исхода
Шансы на неблаго-
приятный исход (Odds)
препарат Х А (404) В (921) (А+В) 1325 A/(A+B)
404/1325=0,305
A/B
404/921=0,439
препарат У С (359) D (974) (С+D) 1333 C/(C+D)
359/1333=0,269
C/D
359/974=0,369

Соотношения

Относительный риск неблагоприятного исхода (Relative Risk) RR x/y [A/(A+B)]/[C/(C+D)]
0,305/0,269=1,113
  RR y/x [C/(C+D)]/[A/(A+B)]
0,269/0,305=0,882
Соотношение шансов (Odds Ratio) OR x/y (A/B)/(C/D)
0,439/0,369=1,19
  OR y/x (C/D)/(A/B)
0,369/0,439=0,840
Абсолютное снижение риска
(Absolute Risk Reduction)
ARR A/(A+B) - C/(C+D)
0,305-0,269=0,036
Число больных, которых необходимо подвергнуть лечению для избежания одного неблагоприятного исхода
(Number needed to treat)
NNT NNT=1/ARR
1/0,036=28,01
Соотношение рисков (Hazard Ratio) HR x/y
HR y/x
по смыслу сходно с OR, но применяется в случае оцениваемых рисков, рассчитанных при анализе выживаемости цензурированных (неполных) данных по исходам Таким образом, врачу необходимо знать, как проводятся КИ и правильно представляются их результаты, чтобы уменьшить возможность манипулирования собственным мнением самостоятельно оценивать качество публикаций.

Список литературы:

1. Nabholtz J.M., Buzdar A., Pollak M. et al. Anastrozole Is Superior to Tamoxifen as First-Line Therapy for Advanced Breast Cancer in Postmenopausal Women: Results of a North American Multicenter Randomized Trial// Journal of Clinical Oncology –2000. -Vol 18. -N 22. -P 3758-3767.

2. Kaufman M., Bajetta E., Dirix L.Y. et al. Examestane is superior to megestrol acetate after tamoxifen failure in postmenopausal women with advanced BC: results of a phase III randomized double-blind trial// J. Clin. Oncology –2000. -Vol. 18. -No. 7.- P. 1399-1411.

3. Response Evaluation Criteria in Solid Tumors (RECIST).