Modelos de estimativa de afinidade de proteínas para design inteligente de drogas com base em pseudoconvoluções e regressores não lineares
DOI:
https://doi.org/10.33448/rsd-v11i8.31222Palavras-chave:
Marcadores de Afinidade; Aminoácidos, Peptídeos e Proteínas; Inteligência artificial.Resumo
Propósito: O surgimento de novos vírus e, consequentemente, novas doenças torna cada vez mais necessária a produção rápida e precisa de novos medicamentos. Com a disponibilidade de grandes bancos de dados de proteínas e medidas de afinidade, é possível construir funções de pontuação para prever a afinidade molecular. Essas funções são fundamentais para o design inteligente de medicamentos. Objetivo: Neste trabalho, propomos uma função de pontuação para prever a afinidade entre duas proteínas. O método é baseado na extração de características por transferência de aprendizado em sequências representadas em pseudo-convoluções. Método: As pseudo-convoluções organizam as sequências em distribuições de vizinhança de base. Cada distribuição é então representada por uma imagem. Duas proteínas são então transformadas em duas imagens que são concatenadas, formando a terceira imagem. Por meio de deep transfer learning, essa imagem resultante é então representada por um vetor de atributos, que tem a dimensionalidade reduzida por Random Forest. Por fim, o vetor de atributos reduzido é aplicado a uma máquina de aprendizado de regressão que retorna o grau de afinidade das duas proteínas. Resultados: Usamos o banco de dados Affinity Benchmark Versão 2. 145 complexos foram usados para treinamento do modelo e 35 para teste. Os resultados mostraram um desempenho igual ou superior aos métodos de avaliação de afinidade de proteínas no estado da arte, considerando os coeficientes de correlação de Pearson, Spearman e Kendall. Os melhores resultados foram 0.66, 0.70 e 0.52. Conclusão: O método proposto pode caracterizar sequências proteicas de forma que a afinidade de ligação entre duas proteínas possa ser estimada sem simular a estrutura tridimensional do complexo.
Referências
Baca-Carrasco, D.; Velasco-Hernández, J. X. (2016). Sex, mosquitoes and epidemics: an evaluation of zika disease dynamics. Bulletin of Mathematical Biology, 78 (11), 2228–2242.
Baldi, A. (2010). Computational approaches for drug design and discovery: An overview. Systematic reviews in Pharmacy, 1 (1), 99.
Ballester, P. J.; Mitchell, J. B. (2010). A machine learning approach to predicting protein– ligand binding affinity with applications to molecular docking. Bioinformatics, 26 (9), 1169–1175.
Breiman, L. (2001). Random forests. Machine learning, 45 (1), 5–32.
Deng, J.; Dong, W.; Socher, R.; Li, L.-J.; Li, K.; Fei-Fei, L. (2009). Imagenet: A large-scale hierarchical image database. In 2009 ieee conference on computer vision and pattern recognition (p. 248-255).
Durrant, J. D.; McCammon, J. A. (2011). Nnscore 2.0: a neural-network receptor–ligand scoring function. Journal of chemical information and modeling, 51 (11), 2897–2903.
Gomes, J. C.; Masood, A. I.; Silva, L. H. d. S., da Cruz Ferreira, J. R. B., Júnior, A. A. F.; dos Santos Rocha, A. L.,; de Oliveira, L.C. P.; da Silva, N. R. C.; Fernandes, B. J. T.; Dos Santos, W. P. (2021). Covid-19 diagnosis by combining rt-pcr and pseudo-convolutional machines to characterize virus sequences. Scientific Reports,11 (1), 1–28.
Guedes, I. A.; Barreto, A. M. S.; Marinho, D.; Krempser, E.; Kuenemann, M. A.; Sperandio, O.; Dardenne, L. E.; Miteva, M. A. (2021). New machine learning and physics-based scoring functions for drug discovery. Scientific Reports, 11 (1), 3198.
Halgren, T. A. (1996). Merck molecular force field. i. basis, form, scope, parameterization, and performance of mmff94. Journal of Computational Chemistry, 17 (5-6), 490-519.
Hung, C.-L.; Chen, C.-C. (2014). Computational approaches for drug discovery. Drug development research, 75 (6), 412–418.
James, G.; Witten, D.; Hastie, T.; Tibshirani, R. (2013). An introduction to statistical learning (Vol. 112). Springer.
Katara, P. (2013). Role of bioinformatics and pharmacogenomics in drug discovery and development process. Network Modeling Analysis in Health Informatics and Bioinformatics, 2 (4), 225–230.
Khamis, M. A.; Gomaa, W.; Ahmed, W. F. (2015). Machine learning in computational docking. Artificial Intelligence in Medicine, 63 (3), 135–152.
Lai, T. L.; Robbins, H.; Wei, C. Z. (1978). Strong consistency of least squares estimates in multiple regression. Proceedings of the National Academy of Sciences of the United States of America, 75 (7), 3034.
Nicola, M.; Alsafi, Z.; Sohrabi, C.; Kerwan, A.; Al-Jabir, A.; Iosifidis, C.; Agha, M.; Agha, R. (2020). The socio-economic implications of the coronavirus pandemic (covid-19): A review. International journal of surgery, 78 , 185–193.
Ragoza, M.; Hochuli, J.; Idrobo, E.; Sunseri, J.; Koes, D. R. (2017). Protein–ligand scoring with convolutional neural networks. Journal of chemical information and modeling, 57 (4), 942–957.
Shevade, S.; Keerthi, S.; Bhattacharyya, C.; Murthy, K. (2000). Improvements to the smo algorithm for svm regression. IEEE Transactions on Neural Networks, 11 (5), 1188-1193.
Tian, H.; Hu, S.; Cazelles, B.; Chowell, G.; Gao, L.; Laine, M.; Li, Y.; Yang, H.; Li, Y.; Yang, Q.; Tong, X.; Huang, R.; Bjornstad, O. N.; Xiao H.; Stenseth, N. C. (2018). Urbanization prolongs hantavirus epidemics in cities. Proceedings of the National Academy of Sciences, 115 (18), 4707–4712.
Trott, O.; Olson, A. J. (2010). Autodock vina: improving the speed and accuracy of docking with a new scoring function, efficient optimization, and multithreading. Journal of computational chemistry, 31 (2), 455–461.
Vreven, T.; Moal, I. H.; Vangone, A.; Pierce, B. G.; Kastritis, P. L.; Torchala, M.; Chaleil, R.; Jiménez-García, B.; Bates, P. A.; Fernandez-Recio, J.; Bonvin, A. M. J. J.; Weng, Z. (2015). Updates to the integrated protein–protein interaction benchmarks: docking benchmark version 5 and affinity benchmark version 2. Journal of molecular biology, 427 (19), 3031–3041.
Wang, C.; Zhang, Y. (2017). Improving scoring-docking-screening powers of protein–ligand scoring functions using random forest. Journal of computational chemistry, 38 (3), 169–177.
Wójcikowski, M.; Ballester, P. J.; Siedlecki, P. (2017). Performance of machine-learning scoring functions in structure-based virtual screening. Scientific Reports, 7 (1), 1–10.
Zhang, Y.; Wang, Y.; Zhou, W.; Fan, Y.; Zhao, J.; Zhu, L.; Lu, S.; Lu, T.; Chen, Y.; Liu, H. (2019). A combined drug discovery strategy based on machine learning and molecular docking. Chemical Biology & Drug Design, 93 (5), 685–699.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2022 Laila Barros Campos; Janderson Romário Borges da Cruz Ferreira; Wellington Pinheiro dos Santos

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Autores que publicam nesta revista concordam com os seguintes termos:
1) Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista.
2) Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.
3) Autores têm permissão e são estimulados a publicar e distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) a qualquer ponto antes ou durante o processo editorial, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado.