Материалы конгрессов и конференций

X РОССИЙСКИЙ ОНКОЛОГИЧЕСКИЙ КОНГРЕСС

МНОГОФАКТОРНЫЙ АНАЛИЗ И ЦИФРОВЫЕ ТЕХНОЛОГИИ
ПРИ ФОРМИРОВАНИИ ГРУПП ВЫСОКОГО ОНКОЛОГИЧЕСКОГО РИСКА

А.Ф. Лазарев, В.Д. Петрова, С.А. Терехова
Алтайский филиал ФГБУ «НМИЦ онкологии им. Н.Н. Блохина» Минздрава России,
ГУЗ «Алтайский краевой онкологический диспансер», Барнаул

Большинство злокачественных опухолей человека имеет многофакторную природу, т.е. в их возникновении играют роль как генетические, так и внешнесредовые факторы [9].

Сегодня уже установлены основные факторы риска злокачественных опухолей. К ним относят курение и другие формы потребления табака, особенности питания, эндогенные и экзогенные гормоны, потребление алкогольных напитков, профессиональные канцерогены, загрязнение воздуха, ультрафиолетовое излучение, ионизирующую радиацию, инфекционные факторы, наследственность [6].

Однако роль и степень влияния их на развитие различных злокачественных новообразований человека не одинакова. Так курение табака является главной причиной развития рака легкого у мужчин, тогда как при раке молочной железы у женщин роль этого фактора незначительна, а по мнению некоторых авторов, играет даже защитную функцию. Аналогичным образом обстоит дело и с другими факторами риска: большое количество беременностей и родов профилактирует рак молочной железы и повышает риск развития рака шейки матки, а прием тамоксифена снижает риск рецидива рака молочной железы, но повышает опасность развития рака эндометрия. Поэтому необходимо установить свой перечень факторов риска для каждой злокачественной опухоли.

В настоящее время известны основные факторы риска при многих злокачественных новообразованиях, например:

  • рак легкого: курение, асбест, радон, другие “профессиональные канцерогены” (хлорметил, хром, никель, мышьяк), питание (дефицит витаминов A, C, E, b-каротина), ионизирующая радиация, генетические/наследственные факторы;
  • рак желудка: генетические (группа крови II(A), пернициозная анемия, семейный анамнез рака желудка, наследственный неполипозный колоректальный рак, синдром Li-Fraumeni и др.); предшествующие заболевания (хронический атрофический гастрит, аденоматозный полип желудка и др.), факторы питания (избыточное употребление соли и нитратов, недостаток витаминов A и C и др.); курение, инфекция, helicobacter pylori, вирус Epstein-Barr; предшествующие операции по поводу язвы желудка; ионизирующее излучение;
  • рак молочной железы: возраст, рак молочной железы в семейном и личном анамнезе, гиперэстрогения (раннее менархе, поздняя менопауза, заместительная гормонотерапия/оральные контрацептивы); отсутствие родов; первая беременность после 30 лет; питание и образ жизни (ожирение, злоупотребление алкоголем); воздействие ионизирующего излучения до 40-летнего возраста; предшествующие доброкачественные и пограничные изменения в молочной железе (рак in situ, атипическая гиперплазия, радиальные рубцы) и т.п. [8, 14, 15].

Важно определить степень влияния каждого фактора на развитие того или иного заболевания. В большинстве клинических ситуаций одновременно действуют несколько факторов, между которыми существуют взаимные влияния. Общий эффект от двух факторов может быть выше индивидуальной суммы, а может быть и ниже. Поэтому важным условием получения точных прогностических и диагностических данных является правильный выбор методов статистической обработки материала.

Многофакторный анализ – это совокупность методов одновременного рассмотрения воздействия многих переменных. Они используются для того, чтобы корректировать эффекты множества исследуемых переменных для выявления независимого действия одного фактора, позволяют выделить из большого числа переменных те, которые вносят независимый и существенный вклад в исход и упорядочить переменные по силе их влияния на исход [4, 12].

Прогресс в области медицины в значительной степени может быть связан с новыми возможностями компьютерных исследовательских программ, поскольку они являются не только средствами статистической обработки данных, но и инструментом медико-биологического познания [4, 5].

Если задача исследователя не ограничивается только констатацией факта отличия средних, а ставится проблема поиска существующих связей, то на первом, разведочном этапе применяется исследование коэффициентов корреляций [5, 10]. Дополнительная задача корреляционного анализа (являющаяся основной в регрессионном анализе) состоит в оценке уравнений регрессии, где в качестве результативного выступает признак, являющийся следствием других признаков (факторов, причин) [1, 2].

Целью факторного анализа является попытка качественно описать большую совокупность имеющихся параметров, как бы «суммировать» информацию и получить факторы, имеющие некий биологический смысл [3, 6, 10]. Особенностью факторного анализа является его «непредвзятость» с точки зрения анализа объектов, так как фактически основной анализ производится над корреляционной матрицей, не включающей информацию о каждом объекте. Использование таких подходов и помогает решать современные задачи.

Нами создана база данных, включающая информацию по различным факторам, отражающим гено- и фенотип человека на основе обследования >10000 больных злокачественными новообразованиями и >10000 пациентов без онкологической патологии. Факторный анализ включал >100 различных факторов и >500 их параметров.

Значимые факторы и их параметры для каждого новообразования выявлялись методом определения относительного риска (RR) и их доверительных интервалов [11].

Степень влияния фактора на развитие той или иной опухоли устанавливали методом корреляционного анализа [7].

Группа пациентов с высоким онкологическим риском формировалась на основе дискриминантного анализа [11].

Статистическая обработка данных проводилась методами вариационной статистики с определением показателя вероятности по таблице Стьюдента с помощью электронной таблицы Microsoft Excel в операционной системе Microsoft Windows. Статистически значимыми принимались различия при величине достоверности р<0,05 [5].

На примере рака желудка для определения силы связи развития рака желудка с факторами внешней и внутренней среды организма каждый из этих факторов был разделен на несколько (от 2 до 72) вариантов значений по силе и качественным характеристикам воздействия. Для каждого значения был определен коэффициент корреляции. При наличии трех и более вариантов значений одного признака исследовалось каждое его значение отдельно в сравнении со всеми остальными наблюдениями [7]. Были исследованы 131 фактор и 526 их вариантов.

Для 285 вариантов были установлены положительные коэффициенты корреляции (при таком значении фактора, связь его с раком желудка - прямая), при 241 – отрицательные (при этом значении фактора связь его с раком желудка - обратная).

Положительные значения коэффициентов корреляции варьировали от 0,0001 до 0,5144; отрицательные - от -0,0004 до -0,5193.

Статистически значимую связь между значением фактора и раком желудка показали только коэффициенты корреляции более 0,3 (связь прямая) и менее -0,3 (связь обратная).

Положительные значения коэффициентов корреляции (r), превышающие 0,3, получены для следующих признаков: возраст 60 лет и старше (0,4990); нерегулярное питание (0,3043); употребление только крепких (40° и более) алкогольных напитков в неразбавленном виде (0,3302); перерывы между приемами пищи 8 часов и более (0,5116); употребление маринованных продуктов и солений чаще 2 раз в неделю (0,3536); употребление острой пищи чаще 2 раз в неделю (0,4037); употребление животных жиров (в т.ч. для жарения) чаще 2 раз в неделю (0,4739); употребление свежих овощей, фруктов зелени редкое, даже в сезон (0,3480); отказ от употребления кисло-молочных продуктов (0,3004); использование для питья водопроводной воды без дополнительной очистки (0,3411); СОЭ 14 мм/ч и более (0,3591); гемоглобин до 120 г/л (0,3801); АПТВ 46" и более (0,3207); хронический гастрит в анамнезе 10 лет и более (0,3449).

Коэффициенты корреляции меньше -0,3 (r) были установлены для признаков: возраст моложе 40 лет (-0,5258); регулярное питание (-0,3043); отказ от употребления крепких (40° и более) алкогольных напитков в неразбавленном виде (-0,3132); отказ от употребления крепких алкогольных напитков натощак, без закуски (-0,4190); перерывы между приемами пищи 5-7 часов (-0,4289); отказ от употребления животных жиров (в т.ч. для жарения) (-0,4636); употребление свежих овощей, фруктов, зелени круглый год (-0,3206); гемоглобин 160 г/л и более (-0,4534).

Для остальных значений исследованных факторов, коэффициенты корреляции отличались от 0 менее чем на 0,3. Статистически значимая связь между такими вариантами значений исследованных факторов и раком желудка отсутствовала.

Для установления различий между основной и контрольной группами по нескольким вариантам значений различных факторов одновременно был применен метод современной многомерной статистики – дискриминантный анализ. Анализ информации о наборе признаков у индивидуумов, относящихся к одной из двух групп (основной – больные раком желудка, и контрольной – лица с исключенной онкопатологией желудка) выясняет возможность использования набора данных факторов для отнесения конкретного индивидуума в ту или иную группу (при формировании групп риска по раку желудка), а также то, насколько хорошо эти факторы помогают производить такую дискриминацию и какие из них наиболее информативны.

Целью дискриминации является выявление такой линейной комбинации переменных, которая оптимально разделила бы рассматриваемые группы. Для дискриминации все значения переменных в обеих группах были выражены в интервальной шкале, из анализа исключались линейно-зависимые переменные и переменные, значения которых не подчинялись многомерному нормальному закону распределения.

Коэффициенты канонической функции дискриминации статистически значимых для разделения (дискриминации) групп факторов представлены в табл. 1.

Таблица 1.
Коэффициенты канонической функции дискриминации.

  Переменный признак Коэффициент (p<0,001)
1. Перерывы между приемами пищи 0,4888
2. Употребление крепких (40° и более) алкогольных напитков в неразбавленном виде 0,3925
3. СОЭ 0,3192
4. Употребление животных жиров (в т.ч. для жарения) 0,2622
5. Привычка употреблять слишком горячую пищу и напитки 0,2318
6. Количество употребляемых алкогольных напитков, г. в месяц (в пересчете на чистый спирт) 0,2234
7. Возраст 0,2000
8. Рак желудка у кровных родственников 0,1746
9. Продолжительность стрессового воздействия 0,1690
10. Употребление острой пищи 0,1672
11. Наличие клинических симптомов 0,1444
12. Употребление свежих овощей, зелени и фруктов 0,1396
13. Злокачественные новообразования у родственников 0,1338
14. Бессонница 0,1297
15. Употребление консервированной пищи 0,1101
16. Употребление хлебобулочных изделий 0,0927
17. Общий "стаж" курения в течение жизни 0,0755
18. Употребление крепкого черного чая и кофе 0,0747
19. Употребление зеленого чая, фиточая -0,0440
20. Уровень образования -0,0794
21. Масса тела -0,1338
22. Дневной сон -0,1650
23. Гемоглобин -0,1800
24. Употребление кисломолочных продуктов -0,2727
25. Регулярноcть питания -0,2919
26. Разнообразие рациона -0,4659
  (Constant) -3,254

На основании полученных коэффициентов канонической функции дискриминации вычислялся интегральный показатель (сумма произведений интервальных значений признаков на соответствующие коэффициенты этих признаков). Введение константы -3,254 позволило использовать знак интегрального показателя как указатель группы, к которой относится индивидуум с данным интегральным показателем. Знаки групп определяются знаком соответствующих центроидов (табл. 2).

Таблица 2.
Центроиды распределений интегральных показателей в группах.

Группа Центроиды групп
Основная (больные раком желудка) 2,09
Контрольная (здоровые) -1,47

Распределение интегральных показателей в основной группе было в интервале от -2,75 до 5,25. Среднее значение составило 2,09, стандартное выборочное отклонение - 1,00. Таким образом, 95% значений интегральных показателей больных основной группы попадали в интервал от 0,09 до 4,09.

Распределение интегральных показателей в контрольной группе было в интервале от -4,25 до 3,25 (рис. 1). Среднее значение составило -1,47, стандартное выборочное отклонение - 1,00. Таким образом, 95% значений интегральных показателей лиц контрольной группы основной группы попадали в интервал от -3,47 до 0,53.


Рис. 1. Гистограмма значений канонической дискриминантной функции (интегральных показателей) в основной и контрольной группах.

Таким образом, коэффициенты канонической функции дискриминации позволили отличить основную группу (больные раком желудка) от контрольной (лица с исключенной онкопатологией желудка) на основании значений следующих наиболее информативных признаков: возраст, масса тела, наличие клинических симптомов,продолжительность стрессового воздействия, дневной сон, уровень образования, рак желудка у кровных родственников, злокачественные новообразования других локализаций у ровных родственников, бессонница, общий "стаж" курения в течение жизни, количество употребляемых алкогольных напитков в месяц (в пересчете на чистый спирт), употребление крепких (40° и более) алкогольных напитков в неразбавленном виде, регулярность питания, перерывы между приемами пищи, разнообразие рациона, привычка употреблять очень горячую пищу и напитки, употребление животных жиров (в т.ч. для жарения), хлебобулочных изделий, консервированной и острой пищи, крепкого черного чая и кофе, свежих овощей, зелени и фруктов, зеленого чая и фиточаев, кисломолочных продуктов, величина СОЭ и гемоглобина.

Целью классификации является нахождение классифицирующей функции, обеспечивающей возможность отнесения конкретного индивидуума к определенной группе, то есть поиск возможности предсказания по имеющимся значениям переменных вероятности диагноза рака желудка.

Для классификации возможно использование непосредственно дискриминантных функций (рис. 2). Для классификации по группам используется знак интегрального показателя конкретного человека ("-" – контрольная группа, "+" – основная).

Рис. 2. Распределение значений канонической функции дискриминации (интегральных показателей) в основной и контрольной группах.

Точность классификации проверена применением полученных функций к объектам, по которым они были выведены. По доле правильных классификаций объектов оценили точность процедуры классификации (табл. 3).

Таблица 3.
Результаты проверки точности классификации.

Точность классификации (предсказанная группа) Всего
основная контрольная
Исходные данные основная группа абс. число 667 33 700
% 95,3 4,7 100
контрольная группа абс. число 50 942 992
% 5,0 95,0 100
Кросс-проверка основная группа абс. число 666 34 700
% 95,1 4,9 100
контрольная группа абс. число 50 942 992
% 5,0 95,0 100

На основании полученных данных доля больных основной группы, классифицированных правильно, составила 95,3%, а доля лиц контрольной группы, классифицированных правильно – 95,0%.

Для повышения точности оценки результатов классификации была произведена кросс-проверка: поочередно из исходной базы данных исключалось по одному наблюдению, производилось определение канонической функции дискриминации на оставшихся случаях наблюдений, на основании полученных функций классифицировалось исключенное наблюдение.

Доля правильно классифицированных лиц основной группы (т. е. частота отнесения их в группу больных раком желудка) по результатам кросс-проверки составила 95,1%, а доля правильно классифицированных лиц контрольной группы (т. е. частота попадания их в группу с исключенной онкопатологией желудка) – 95,0%.

Таким образом, результаты дискриминантного анализа позволили добиться правильного предсказания наличия или отсутствия у человека с определенным набором значений исследованных признаков рака желудка; чувствительность метода составила 95,1%, специфичность - 95,0%.

Применение результатов дискриминантного анализа в алгоритме обследования пациентов дало возможность прогнозировать рак желудка и может служить критерием для формирования групп высокого риска по данной патологии.

Аналогичные исследования нами были проведены со всеми основными локализациями злокачественных новообразований, на их основе создана корреляционная матрица в виде компьютерной программы и по ней осуществлен проспективный многофакторный анализ в четырех контингентах населения: среди пациентов с облигатными предраковыми заболеваниями, пострадавшими вследствие радиационных катастроф, членов «раковых» семей, больных излеченных от 2-х и более злокачественных новообразований. По его результатам сформирован регистр пациентов с высоким онкологическим риском, в который 3373 человека.

Диспансеризация и углубленное обследование этих пациентов в условиях отделения профилактики ГУЗ АКОД позволили обнаружить в этой группе за 2005 г. и 6 месяцев 2006 г. 107 больных различными злокачественными новообразованиями (3,2%). Из них с ранними стадиями заболевания (I-II) было 103 (96,3%) человека, с III ст. – 4 (3,7%). У 2 пациенток установлен рак шейки матки в стадии in situ, рак желудка был обнаружен у 6 пациентов – у всех - I ст. Запущенных форм злокачественных опухолей (IV ст.) в этой группе не обнаружено.

Таким образом, проведенные исследования показали, что применение многофакторного анализа в определенных контингентах населения с использованием методов определения относительного риска, корреляционных коэффициентов и формированием групп высокого онкологического риска по результатам дискриминантного анализа позволяет значительно повысить эффективность онкологической диспансеризации населения и улучшить раннюю диагностику злокачественных новообразований.

Список литературы:

1. Боженко В.К. Многопараметрический анализ лабораторных показателей крови для получения диагностической информации в экспериментальной и клинической онкологии //Дисс. д-ра мед. наук. –М., 2004. -с.52-53.

2. Боровиков В.П. Прогнозирование в системе Statistics в сфере Windows / В.П. Боровиков, И.Г. Ивченко. –М: Финансы и статистика, 1999. -с.381.

3. Воробьев Ф.П. Математическое планирование эксперимента в биохимии и медицине/ Ф.П. Воробьев, К.К. Голобородько, А.М. Мануйлова. –Харьков: Вища школа, 1977, -с.8-17.

4. Генкин А.А. Новая информационная технология медицинских данных/ А.А. Генкин –СПб.: Политехника, 1999. –с.192.

5. Гланц С. Медико-биологическая статистика. Пер. с англ./ С.Гланц. – М.: Практика, 1998. -459 с.

6. Канцерогенез / под ред. Д.Г. Заридзе. –М: Медицина, К19.2004. -576 с.

7. Лазарев А.Ф. Оптимизация методов хирургического и лекарственного лечения рака желудка// Дисс. д-ра. мед. наук. –М.: 1991, 338 с.

8. Лазарев А.Ф. Профилактика злокачественных новообразований /лекция/ VIII Российский онкологический конгресс 23-25 ноября 2004 г., г. Москва.

9. Полищук Л.З. Использование методов генетического анализа при обследовании больных раком эндометрия/ Л.З. Полищук, И.П. Несина, А.Ф. Гриценко, Л.И. Воробьева, К.П. Ганина // Акушерство и гинекология. -1990, -№2. –с.49-51.

10. Сепетлиев Д. Статистические методы в научных медицинских исследованиях (пер. с болг.). -.: Медицина, 1968. –с.130-132.

11. Терехова С.А. Многофакторный анализ при формировании групп риска рака желудка // Дисс. канд. мед. наук –Барнаул. 2005., 162 с.

12. Флетчер Р. Клиническая эпидемиология. Основы доказательной медицины. (пер. с англ.) / Р. Флетчер, С. Флетчер, Э. Вагнер –М.: Медиа Сфера, 1998, -352 с.

13. Lazarev A.F. Factor analysis in earby detection of malignancies / A.F. Lazarev, V.D. Petrova, T.V. Sinkina et al. // Journal of Clinical oncology, 2006. ASCO Annual Meeting Proceedings, 42 nd Annual Meeting June 2-6 2006, Atlanta, GA. Abstract #1033 -p.573.

14. Lazarev A.F. Medical Prevention of Lung Cancer/ A.F. Lazarev, V.D. Petrova UICC World Cancer Congress July 8-12, 2006 Washington D.C. USA. Education/ Abctract 85-54, Washington , 2006, -p.295.

15. Terekhova S.A. Effect of Tabacco use on Risk of Gastric Cancer/ S.A. Terekhova, A.F. Lazarev, V.D. Petrova, Y.N. Shoykhet. UICC World Cancer Congress July 8-12, 2006 Washington D.C. USA. Education/ Abctract 88-41, Washington , 2006, -p.329.