Modelos de estimativa de afinidade de proteínas para design inteligente de drogas com base em pseudoconvoluções e regressores não lineares

Autores

DOI:

https://doi.org/10.33448/rsd-v11i8.31222

Palavras-chave:

Marcadores de Afinidade; Aminoácidos, Peptídeos e Proteínas; Inteligência artificial.

Resumo

Propósito: O surgimento de novos vírus e, consequentemente, novas doenças torna cada vez mais necessária a produção rápida e precisa de novos medicamentos. Com a disponibilidade de grandes bancos de dados de proteínas e medidas de afinidade, é possível construir funções de pontuação para prever a afinidade molecular. Essas funções são fundamentais para o design inteligente de medicamentos. Objetivo: Neste trabalho, propomos uma função de pontuação para prever a afinidade entre duas proteínas. O método é baseado na extração de características por transferência de aprendizado em sequências representadas em pseudo-convoluções. Método: As pseudo-convoluções organizam as sequências em distribuições de vizinhança de base. Cada distribuição é então representada por uma imagem. Duas proteínas são então transformadas em duas imagens que são concatenadas, formando a terceira imagem. Por meio de deep transfer learning, essa imagem resultante é então representada por um vetor de atributos, que tem a dimensionalidade reduzida por Random Forest. Por fim, o vetor de atributos reduzido é aplicado a uma máquina de aprendizado de regressão que retorna o grau de afinidade das duas proteínas. Resultados: Usamos o banco de dados Affinity Benchmark Versão 2. 145 complexos foram usados para treinamento do modelo e 35 para teste. Os resultados mostraram um desempenho igual ou superior aos métodos de avaliação de afinidade de proteínas no estado da arte, considerando os coeficientes de correlação de Pearson, Spearman e Kendall. Os melhores resultados foram 0.66, 0.70 e 0.52. Conclusão: O método proposto pode caracterizar sequências proteicas de forma que a afinidade de ligação entre duas proteínas possa ser estimada sem simular a estrutura tridimensional do complexo.

Biografia do Autor

Laila Barros Campos, Universidade de Pernambuco

Laila Campos possui graduação em Engenharia Elétrica pela Universidade de Pernambuco (2019). Foi monitora de Eletromagnetismo 1 por três semestres (2016.2, 2017.1 e 2017.2) na Escola Politécnica de Pernambuco. Ela estagiou na área de energias renováveis na empresa Aeroespacial Tecnologia e Sistemas Renováveis Ltda durante 1 ano e 4 meses (Novembro de 2016 a Março de 2018), atuando na otimização de produção de energia em parques eólicos e solares utilizando softwares como Windographer para análise estatísticas dos dados meteorológicos além do WindPRO e WindSim para planejamento de layouts. Atualmente ela trabalha na empresa Petrobras Transpetro S/A desde Julho de 2019, atuando em melhorias de projetos que visam consultar de forma mais autônoma dados existentes no software de gestão empresarial SAP através da linguagem de programação Python e bancos de dados SQL.

Janderson Romário Borges da Cruz Ferreira, Universidade de Pernambuco

Janderson Ferreira é doutorando em Engenharia da Computação pela UPE, Brasil. Mestre em Engenharia da Computação pela UPE, Brasil. Graduado em Ciência da Computação FACAPE, Brasil. Período Sanduíche na Universidad de Santiago de Compostela - Campus Santiago. Espanha. Atua com pesquisas e consultorias nas áreas de Visão Computacional, Machine Learning, Inteligencia Artificial.

Wellington Pinheiro dos Santos, Universidade Federal de Pernambuco

Wellington Pinheiro dos Santos possui graduação em Engenharia Elétrica Eletrônica (2001) e mestrado em Engenharia Elétrica (2003) pela Universidade Federal de Pernambuco, e doutorado em Engenharia Elétrica pela Universidade Federal de Campina Grande (2009). Atualmente é Professor Associado (dedicação exclusiva) do Departamento de Engenharia Biomédica do Centro de Tecnologia e Geociências - Escola de Engenharia de Pernambuco, Universidade Federal de Pernambuco, atuando na Graduação em Engenharia Biomédica e no Programa de Pós-Graduação em Engenharia Biomédica, do qual foi um dos fundadores (2011). Fundou o Núcleo de Tecnologias Sociais e Bioengenharia da Universidade Federal de Pernambuco, NETBio-UFPE (2012). É também membro do Programa de Pós-Graduação em Engenharia da Computação da Escola Politécnica de Pernambuco, Universidade de Pernambuco, desde 2009. Tem experiência na área de Ciência da Computação, com ênfase em Processamento Gráfico (Graphics), atuando principalmente nos seguintes temas: processamento digital de imagens, reconhecimento de padrões, visão computacional, computação evolucionária, métodos numéricos de otimização, inteligência computacional, técnicas de formação de imagens, realidade virtual, game design e aplicações de Computação e Engenharia em Medicina e Biologia. É membro da Sociedade Brasileira de Engenharia Biomédica (SBEB), da Sociedade Brasileira de Inteligência Computacional (SBIC, ex-SBRN), e da International Federation of Medical and Biological Engineering (IFMBE).

Referências

Baca-Carrasco, D.; Velasco-Hernández, J. X. (2016). Sex, mosquitoes and epidemics: an evaluation of zika disease dynamics. Bulletin of Mathematical Biology, 78 (11), 2228–2242.

Baldi, A. (2010). Computational approaches for drug design and discovery: An overview. Systematic reviews in Pharmacy, 1 (1), 99.

Ballester, P. J.; Mitchell, J. B. (2010). A machine learning approach to predicting protein– ligand binding affinity with applications to molecular docking. Bioinformatics, 26 (9), 1169–1175.

Breiman, L. (2001). Random forests. Machine learning, 45 (1), 5–32.

Deng, J.; Dong, W.; Socher, R.; Li, L.-J.; Li, K.; Fei-Fei, L. (2009). Imagenet: A large-scale hierarchical image database. In 2009 ieee conference on computer vision and pattern recognition (p. 248-255).

Durrant, J. D.; McCammon, J. A. (2011). Nnscore 2.0: a neural-network receptor–ligand scoring function. Journal of chemical information and modeling, 51 (11), 2897–2903.

Gomes, J. C.; Masood, A. I.; Silva, L. H. d. S., da Cruz Ferreira, J. R. B., Júnior, A. A. F.; dos Santos Rocha, A. L.,; de Oliveira, L.C. P.; da Silva, N. R. C.; Fernandes, B. J. T.; Dos Santos, W. P. (2021). Covid-19 diagnosis by combining rt-pcr and pseudo-convolutional machines to characterize virus sequences. Scientific Reports,11 (1), 1–28.

Guedes, I. A.; Barreto, A. M. S.; Marinho, D.; Krempser, E.; Kuenemann, M. A.; Sperandio, O.; Dardenne, L. E.; Miteva, M. A. (2021). New machine learning and physics-based scoring functions for drug discovery. Scientific Reports, 11 (1), 3198.

Halgren, T. A. (1996). Merck molecular force field. i. basis, form, scope, parameterization, and performance of mmff94. Journal of Computational Chemistry, 17 (5-6), 490-519.

Hung, C.-L.; Chen, C.-C. (2014). Computational approaches for drug discovery. Drug development research, 75 (6), 412–418.

James, G.; Witten, D.; Hastie, T.; Tibshirani, R. (2013). An introduction to statistical learning (Vol. 112). Springer.

Katara, P. (2013). Role of bioinformatics and pharmacogenomics in drug discovery and development process. Network Modeling Analysis in Health Informatics and Bioinformatics, 2 (4), 225–230.

Khamis, M. A.; Gomaa, W.; Ahmed, W. F. (2015). Machine learning in computational docking. Artificial Intelligence in Medicine, 63 (3), 135–152.

Lai, T. L.; Robbins, H.; Wei, C. Z. (1978). Strong consistency of least squares estimates in multiple regression. Proceedings of the National Academy of Sciences of the United States of America, 75 (7), 3034.

Nicola, M.; Alsafi, Z.; Sohrabi, C.; Kerwan, A.; Al-Jabir, A.; Iosifidis, C.; Agha, M.; Agha, R. (2020). The socio-economic implications of the coronavirus pandemic (covid-19): A review. International journal of surgery, 78 , 185–193.

Ragoza, M.; Hochuli, J.; Idrobo, E.; Sunseri, J.; Koes, D. R. (2017). Protein–ligand scoring with convolutional neural networks. Journal of chemical information and modeling, 57 (4), 942–957.

Shevade, S.; Keerthi, S.; Bhattacharyya, C.; Murthy, K. (2000). Improvements to the smo algorithm for svm regression. IEEE Transactions on Neural Networks, 11 (5), 1188-1193.

Tian, H.; Hu, S.; Cazelles, B.; Chowell, G.; Gao, L.; Laine, M.; Li, Y.; Yang, H.; Li, Y.; Yang, Q.; Tong, X.; Huang, R.; Bjornstad, O. N.; Xiao H.; Stenseth, N. C. (2018). Urbanization prolongs hantavirus epidemics in cities. Proceedings of the National Academy of Sciences, 115 (18), 4707–4712.

Trott, O.; Olson, A. J. (2010). Autodock vina: improving the speed and accuracy of docking with a new scoring function, efficient optimization, and multithreading. Journal of computational chemistry, 31 (2), 455–461.

Vreven, T.; Moal, I. H.; Vangone, A.; Pierce, B. G.; Kastritis, P. L.; Torchala, M.; Chaleil, R.; Jiménez-García, B.; Bates, P. A.; Fernandez-Recio, J.; Bonvin, A. M. J. J.; Weng, Z. (2015). Updates to the integrated protein–protein interaction benchmarks: docking benchmark version 5 and affinity benchmark version 2. Journal of molecular biology, 427 (19), 3031–3041.

Wang, C.; Zhang, Y. (2017). Improving scoring-docking-screening powers of protein–ligand scoring functions using random forest. Journal of computational chemistry, 38 (3), 169–177.

Wójcikowski, M.; Ballester, P. J.; Siedlecki, P. (2017). Performance of machine-learning scoring functions in structure-based virtual screening. Scientific Reports, 7 (1), 1–10.

Zhang, Y.; Wang, Y.; Zhou, W.; Fan, Y.; Zhao, J.; Zhu, L.; Lu, S.; Lu, T.; Chen, Y.; Liu, H. (2019). A combined drug discovery strategy based on machine learning and molecular docking. Chemical Biology & Drug Design, 93 (5), 685–699.

Downloads

Publicado

24/06/2022

Como Citar

CAMPOS, L. B.; FERREIRA, J. R. B. da C.; SANTOS, W. P. dos. Modelos de estimativa de afinidade de proteínas para design inteligente de drogas com base em pseudoconvoluções e regressores não lineares. Research, Society and Development, [S. l.], v. 11, n. 8, p. e40311831222, 2022. DOI: 10.33448/rsd-v11i8.31222. Disponível em: https://rsdjournal.org/index.php/rsd/article/view/31222. Acesso em: 30 jun. 2024.

Edição

Seção

Ciências da Saúde