|
Выявление набора активных соединений из массива неактивных
Основым результатом работы программы докинга является позиция лиганда в активном центре белка и соответствующее ей значение скоринг функции, характеризующее наибольшую свободную энергию связывания белок-лиганд. Чем более отрицательно это значение скоринг функции, тем лучше лиганд позиционируется в белке. Таким образом, качественно работающая программа докинга должна хорошо отличать активные для данного протеина лиганды от неактивных, выдавая существенно различные значения скоринг функции для обоих типов соединений. То есть, активные лиганды должны обладать значительно более отрицательным значением скоринг функции по сравнению с неактивными (или <мусором>). Таким образом, ранжируя весь набор задоченных лигандов по скорингу, программа докинга должна выводить в верхнюю часть списка лиганды, активные для данного белка, и обладающие более отрицательным значением скоринг функции. Чем больше активных лигандов попадет на самый верх списка, тем более качественно работает программа докинга, позволяя более точно определять потенциально активные лиганды. Это свойство программы докинга можно использовать для компьютерного (виртуального) перебора баз данных химических соединений с целью выявления в них активных лигандов для заданных белков-мишеней, т.е. выявления кандидатов в ингибиторы для заданных белков-мишеней. Такой процесс называется виртуальным скринингом.
Итак, для проведения данного типа валидации необходимо выбрать несколько белков-мишеней, сформировать набор неактивных для данных белков лигандов, для каждого из взятых белков-мишеней найти в литературе активные лиганды, т.е. ингибиторы данного белка-мишени, построить 3D-структуры этих активных лигандов и сделать несколько валидационных наборов лигандов (по одному валидационному набору на каждый белок-мишень), каждый из которых содержит неактивные лиганды (<мусор>) и активные для данного белка-мишени лиганды (ингибиторы данного белка-мишени).
Для проведения валидации по данному направлению был выбран следующий набор белков-мишеней:
- Тромбин (PDB 1o2g, разрешение 1.58 A).
- p38 MAP киназа (PDB 1a9u, разрешение 2.50 A).
- Фактор Xa (PDB 1lqd, разрешение 2.70 A)
- Рецептор эстрогена (PDB 1xpc, разрешение 1.60 A).
Результаты
В ходе проведения валидации было подготовлено 1893 лиганда из базы данных NCI Diversity. Весь этот набор рассматривается как <мусор>
для выбранных белков. Соответственно для всех четырех белков проводился докинг всего набора. Для того, чтобы отсортировать
<мусор> необходимо провести докинг лигандов активных для данного белка. Для каждого из белков в наборе было выбрано и посчитано:
- Тромбин - 25 активных лиганда, 1893 лиганда NCI Diversity (1918 лигандов)
Источники из которых взяты лиганды.
J. Vacca, Current Opinion in Clinical Biology, 4, n 4, 394-400, 2000
Stauffer K.J., Williams P.D, Selnick H.G. etc. J Med Chem 48, 2282, 2005
- p38 MAP киназа - 26 активных лигандов, 1893 лиганда NCI Diversity (1919 лигандов)
Источники из которых взяты лиганды.
Stahl M., Rarey M., J. Med. Chem. 44,1035-1042(2001)
3 лиганда взяты из PDB комплексов
- Фактор Xa - 59 активных лиганда, 1893 лиганда NCI Diversity (1952 лиганда)
Источники из которых взяты лиганды.
Pauls h.W., Ewing W.R., Choi-Sledeski Y.M., Frontiers Med. Chem. 1,129-152(2004)
- Рецептор эстрогена - 52 активных лиганда, 1893 лиганда NCI Diversity (1945 лиганда)
Источники из которых взяты лиганды.
Stahl M., Rarey M., J. Med. Chem. 44,1035-1042(2001)
Таким образом, общее количество рассчитанных лигандов для каждого из белков не превышало 2000.
Обработка результатов валидации заключается в ранжировании соединений в соответствии с оценками энергии связывания лигандов с белком-мишенью, полученными при помощи скоринговой функции программы SOL. Для каждого из 4 белков-мишений, в соответствии с полученными результатами, проводится построение т.н. enrichment plot (EP) - кривой, представляющей относительное число известных, реальных ингибиторов (нормализованное на полное число известных, реальных ингибиторов, присутствующих в полном наборе лигандов (1893 + активные)), построенной как функция от числа соединений с наилучшими скорами, находящихся в верхней части всех ранжированных лигандов, содержащие в себе эти ингибиторы. Например, если 8 известных реальных ингибиторов находятся в тестовом наборе из 2000 лигандов, и, если среди двухсот лучших лигандов (т.е. 200 лигандов, находящихся в верхней части ранжированного по скору списка всех лигандов тестового набора) находятся 4 известных реальных ингибитора, то соответствующая точка графика EP имеет координаты в процентах (x=10, y=50), потому что 200/2000=0.1 и 4/8=0.5. Этот график позволяет вычислить т.н. enrichment value (EV) - значение площади под графиком, являющееся собственно результатом, и позволяющее оценить возможность программы SOL выявить активные соединения из массива неактивных, возможности программы SOL для виртуального скрининга.
При расчете значений enrichment value (EV) мы ориентируемся на следующие критерии качества работы программы докинга, принятые в литературе: значения площади (enrichment value (EV)) 0.6-0.7 - удовлетворительное, 0.7-0.9 - хорошее, > 0.9 - отличное качество работы программы докинга в режиме виртуального скрининга.
Приведем графики enrichment plot и значения enrichment value для всех 4 белков-мишеней на полном наборе лигандов, соответственно. Проведение данного типа валидации осуществлялось при следующих параметрах программы докинга SOL.
NUMBER OF RUNS: 30
POPULATION SIZE: 30000
NUMBER OF GENERATIONS: 200
Тромбин представлял собой исключение, в данном случае использовались параметры:
NUMBER OF RUNS: 20
POPULATION SIZE: 30000
NUMBER OF GENERATIONS: 500
Тромбин
Enrichment value |
0.788898 |
p38 MAP киназа
Enrichment value |
0.637652 |
Фактор Xa
Enrichment value |
0.939988 |
Рецептор эстрогена
Enrichment value |
0.954927 |
Один из 4 белков (киназа) попадает в интервал 0.6 - 0.7, что является удовлетворительным качеством скрининга. Результат для тромбин попадает в интервал 0.7 -0.9, что является хорошими качеством скрининга. Для двух других (фактор 10а и рецептор эстрогена) результат превышает 0.9, что является отличным качеством скрининга.
В целом на основании этих результатов можно считать, что качество работы программы докинга SOL в режиме виртуального скрининга хорошее.
При анализе данных результатов надо принимать во внимание, что все приведенные выше значения EP занижены. Это обусловлено тем, что а priori нельзя быть уверенным, что все химические соединения из базы данных NCI-Diversity являются мусором для того или иного белка-мишени. Среди них вполне могут находится соединения, хорошо связывающиеся с тем или иным белком-мишенью. Действительно, нами совместно с Гематологическим Научным Центром РАМН (Лаб. Ф.И.Атауллаханова) был проведен программой SOL виртуальный поиск в базе данных NCI-Diversity активных соединений для тромбина. Выявленные в расчетах соединения с наиболее отрицательными значениями скора были заказаны, и с ними были проведены эксперименты по ингибированию тромбина и измерению свертываемости крови (т.к. тромбин играет важную роль в процессе свертываемости крови). В результате было обнаружено около десятка новых ингибиторов тромбина разной степени активности. Очевидно такие соединения нельзя отнести к <мусору>, и их присутствие в топе ранжированного валидационного набора для тромбина снизило значение EP. Этот вывод подтверждается и тем, что при использовании в качестве <мусора> не всего набора NCI-Diversity, а только 1000 соединений, имеющих наименее отрицательный скор и тех же 25 активных из литературы, площадь под кривой обогащения EP оказалась равной 0.986, что является отличным качеством виртуального скрининга. |
|