Modelos de estimación de afinidad de proteínas para el diseño inteligente de fármacos basados en pseudoconvoluciones y regresores no lineales
DOI:
https://doi.org/10.33448/rsd-v11i8.31222Palabras clave:
Marcadores de afinidad; Aminoácidos, Péptidos y Proteínas; Inteligencia artificial.Resumen
Propósito: La aparición de nuevos virus y, en consecuencia, de nuevas enfermedades hace cada vez más necesaria la producción rápida y precisa de nuevos fármacos. Con la disponibilidad de grandes bases de datos de proteínas y medidas de afinidad, es posible crear funciones de puntuación para predecir la afinidad molecular. Estas funciones son fundamentales para el desarrollo inteligente de fármacos. Objetivo: En este trabajo, proponemos una función de puntuación para predecir la afinidad entre dos proteínas. El método se basa en la extracción de características por transferencia de aprendizaje en secuencias representadas en pseudoconvulsiones. Método: Las pseudoconvulsiones organizan secuencias en distribuciones de vecindario base. Cada distribución se representa mediante una imagen. Luego, dos proteínas se transforman en dos imágenes que se concatenan, formando la tercera imagen. A través del aprendizaje de transferencia profundo, esta imagen resultante se representa en un vector de atributos, que he reducido dimensionalmente por Random Forest. Finalmente, el vector de atributos reducido se aplica a un algoritmo de regresión que devuelve el grado de afinidad de las dos proteínas. Resultados: Utilizamos la base de datos Affinity Benchmark Versión 2. Se utilizaron 145 complejos para entrenar el modelo y 35 para probar. Los resultados mostraron un desempeño igual o superior a los métodos de evaluación de afinidad de proteínas de última generación, considerando los coeficientes de correlación de Pearson, Spearman y Kendall. Los mejores resultados fueron 0.66, 0.70 y 0.52. Conclusión: El método propuesto puede caracterizar secuencias de proteínas de modo que se pueda estimar la afinidad de unión entre dos proteínas sin simular la estructura tridimensional del complejo.
Citas
Baca-Carrasco, D.; Velasco-Hernández, J. X. (2016). Sex, mosquitoes and epidemics: an evaluation of zika disease dynamics. Bulletin of Mathematical Biology, 78 (11), 2228–2242.
Baldi, A. (2010). Computational approaches for drug design and discovery: An overview. Systematic reviews in Pharmacy, 1 (1), 99.
Ballester, P. J.; Mitchell, J. B. (2010). A machine learning approach to predicting protein– ligand binding affinity with applications to molecular docking. Bioinformatics, 26 (9), 1169–1175.
Breiman, L. (2001). Random forests. Machine learning, 45 (1), 5–32.
Deng, J.; Dong, W.; Socher, R.; Li, L.-J.; Li, K.; Fei-Fei, L. (2009). Imagenet: A large-scale hierarchical image database. In 2009 ieee conference on computer vision and pattern recognition (p. 248-255).
Durrant, J. D.; McCammon, J. A. (2011). Nnscore 2.0: a neural-network receptor–ligand scoring function. Journal of chemical information and modeling, 51 (11), 2897–2903.
Gomes, J. C.; Masood, A. I.; Silva, L. H. d. S., da Cruz Ferreira, J. R. B., Júnior, A. A. F.; dos Santos Rocha, A. L.,; de Oliveira, L.C. P.; da Silva, N. R. C.; Fernandes, B. J. T.; Dos Santos, W. P. (2021). Covid-19 diagnosis by combining rt-pcr and pseudo-convolutional machines to characterize virus sequences. Scientific Reports,11 (1), 1–28.
Guedes, I. A.; Barreto, A. M. S.; Marinho, D.; Krempser, E.; Kuenemann, M. A.; Sperandio, O.; Dardenne, L. E.; Miteva, M. A. (2021). New machine learning and physics-based scoring functions for drug discovery. Scientific Reports, 11 (1), 3198.
Halgren, T. A. (1996). Merck molecular force field. i. basis, form, scope, parameterization, and performance of mmff94. Journal of Computational Chemistry, 17 (5-6), 490-519.
Hung, C.-L.; Chen, C.-C. (2014). Computational approaches for drug discovery. Drug development research, 75 (6), 412–418.
James, G.; Witten, D.; Hastie, T.; Tibshirani, R. (2013). An introduction to statistical learning (Vol. 112). Springer.
Katara, P. (2013). Role of bioinformatics and pharmacogenomics in drug discovery and development process. Network Modeling Analysis in Health Informatics and Bioinformatics, 2 (4), 225–230.
Khamis, M. A.; Gomaa, W.; Ahmed, W. F. (2015). Machine learning in computational docking. Artificial Intelligence in Medicine, 63 (3), 135–152.
Lai, T. L.; Robbins, H.; Wei, C. Z. (1978). Strong consistency of least squares estimates in multiple regression. Proceedings of the National Academy of Sciences of the United States of America, 75 (7), 3034.
Nicola, M.; Alsafi, Z.; Sohrabi, C.; Kerwan, A.; Al-Jabir, A.; Iosifidis, C.; Agha, M.; Agha, R. (2020). The socio-economic implications of the coronavirus pandemic (covid-19): A review. International journal of surgery, 78 , 185–193.
Ragoza, M.; Hochuli, J.; Idrobo, E.; Sunseri, J.; Koes, D. R. (2017). Protein–ligand scoring with convolutional neural networks. Journal of chemical information and modeling, 57 (4), 942–957.
Shevade, S.; Keerthi, S.; Bhattacharyya, C.; Murthy, K. (2000). Improvements to the smo algorithm for svm regression. IEEE Transactions on Neural Networks, 11 (5), 1188-1193.
Tian, H.; Hu, S.; Cazelles, B.; Chowell, G.; Gao, L.; Laine, M.; Li, Y.; Yang, H.; Li, Y.; Yang, Q.; Tong, X.; Huang, R.; Bjornstad, O. N.; Xiao H.; Stenseth, N. C. (2018). Urbanization prolongs hantavirus epidemics in cities. Proceedings of the National Academy of Sciences, 115 (18), 4707–4712.
Trott, O.; Olson, A. J. (2010). Autodock vina: improving the speed and accuracy of docking with a new scoring function, efficient optimization, and multithreading. Journal of computational chemistry, 31 (2), 455–461.
Vreven, T.; Moal, I. H.; Vangone, A.; Pierce, B. G.; Kastritis, P. L.; Torchala, M.; Chaleil, R.; Jiménez-García, B.; Bates, P. A.; Fernandez-Recio, J.; Bonvin, A. M. J. J.; Weng, Z. (2015). Updates to the integrated protein–protein interaction benchmarks: docking benchmark version 5 and affinity benchmark version 2. Journal of molecular biology, 427 (19), 3031–3041.
Wang, C.; Zhang, Y. (2017). Improving scoring-docking-screening powers of protein–ligand scoring functions using random forest. Journal of computational chemistry, 38 (3), 169–177.
Wójcikowski, M.; Ballester, P. J.; Siedlecki, P. (2017). Performance of machine-learning scoring functions in structure-based virtual screening. Scientific Reports, 7 (1), 1–10.
Zhang, Y.; Wang, Y.; Zhou, W.; Fan, Y.; Zhao, J.; Zhu, L.; Lu, S.; Lu, T.; Chen, Y.; Liu, H. (2019). A combined drug discovery strategy based on machine learning and molecular docking. Chemical Biology & Drug Design, 93 (5), 685–699.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2022 Laila Barros Campos; Janderson Romário Borges da Cruz Ferreira; Wellington Pinheiro dos Santos

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Los autores que publican en esta revista concuerdan con los siguientes términos:
1) Los autores mantienen los derechos de autor y conceden a la revista el derecho de primera publicación, con el trabajo simultáneamente licenciado bajo la Licencia Creative Commons Attribution que permite el compartir el trabajo con reconocimiento de la autoría y publicación inicial en esta revista.
2) Los autores tienen autorización para asumir contratos adicionales por separado, para distribución no exclusiva de la versión del trabajo publicada en esta revista (por ejemplo, publicar en repositorio institucional o como capítulo de libro), con reconocimiento de autoría y publicación inicial en esta revista.
3) Los autores tienen permiso y son estimulados a publicar y distribuir su trabajo en línea (por ejemplo, en repositorios institucionales o en su página personal) a cualquier punto antes o durante el proceso editorial, ya que esto puede generar cambios productivos, así como aumentar el impacto y la cita del trabajo publicado.