Quimioinformática: Um Olhar Sobre a Pesquisa de Fármacos
Os avanços científicos das últimas décadas transformaram significativamente a indústria farmacêutica. O setor foi estimulado a englobar de maneira crescente em seus processos de pesquisa e desenvolvimento (P&D) abordagens resultantes de progressos notáveis realizados nas áreas da genômica e biologia molecular.1 Estes campos do conhecimento, além de terem levado a avanços significativos na compreensão dos aspectos moleculares envolvidos no surgimento das doenças, fomentaram vigorosamente a expansão dos recursos tecnológicos disponíveis para a pesquisa farmacêutica. Outros fatores que impactaram o setor de forma significativa foram a automação dos processos, cujo melhor exemplo é a triagem automatizada em larga escala, aliada ao desenvolvimento de novos métodos de síntese orgânica, como a química combinatória.2 Se por um lado estes avanços resultaram na ampliação do poder de inovação da indústria, por outro, causaram um aumento expressivo na complexidade do processo de P&D. Outro resultado da incorporação destas tecnologias foi o crescimento exponencial da velocidade de geração de dados que, assim como em outras atividades econômicas, levaram ao fenômeno conhecido como explosão de dados ou big data. Neste contexto, o desenvolvimento de ferramentas capazes de extrair correlações e gerar modelos preditivos a partir de grandes volumes de informação se tornou uma questão central para o setor farmacêutico. Uma das soluções encontradas foi investir substancialmente no incremento, aperfeiçoamento e aplicação de abordagens computacionais para o gerenciamento e o tratamento de dados (Figura 1).3
Inteligência artificial é a expressão utilizada para designar sistemas computacionais concebidos para a extração de conhecimento de um conjunto de informações, almejando a solução de um problema.4 Especificamente, para dados químicos, usamos o termo quimioinformática. Entre suas muitas aplicações, incluem-se a geração de modelos de relações entre a estrutura e atividade e a estrutura e propriedade (respectivamente, QSAR e QSPR, nas siglas inglesas para Quantitative Structure-Activity e Structure-Property Relationships).5 As bases para o desenvolvimento da quimioinformática foram lançadas entre as décadas de 1950 e 1960.6 Progressos importantes ocorreram nos anos 1980 e 1990 e, a partir do século XXI, o seu uso em P&D de fármacos explodiu. Neste período, estabeleceram-se condições muito favoráveis para o uso em larga escala desta tecnologia na área farmacêutica. Ao longo deste processo, a introdução do fator big data demandou a evolução das ferramentas existentes rumo aos métodos mais robustos que atualmente são componentes fundamentais nas plataformas de P&D da indústria farmacêutica.7
Um dos conceitos em quimioinformática mais promissores da atualidade é o chamado aprendizado de máquinas.8 No sentido mais amplo da expressão, o aprendizado de máquinas visa o aperfeiçoamento da capacidade de sistemas computacionais de tomar decisões.9 As bases de sua arquitetura moderna foram desenvolvidas entre 1960 e 1980 e em muitas atividades econômicas esta abordagem vem sendo aplicada com muito êxito; um bom exemplo é o marketing.10 Dentre as categorias nas quais o aprendizado de máquinas se divide, destacam-se as redes neurais – algoritmos que buscam mimetizar a estrutura das conexões do cérebro humano para que computadores apreendam o mundo da maneira que nós o fazemos.11 Para isso, a rede neural é alimentada com um conjunto de eventos para que se torne capaz de tomar decisões e fazer predições acerca de eventos relacionados, porém novos. O algoritmo pode, por exemplo, ser treinado com um grupo de imagens e então reconhecer e classificar novas imagens de acordo com critérios predeterminados. A adição de sistemas de retroalimentação (feedback loops) possibilita o aprendizado da rede, ou seja, ao ser informado sobre os acertos e os erros de suas decisões, o sistema se adapta e modifica sua abordagem quando testado novamente.12
Um método avançado de aprendizado de máquinas é o chamado aprendizado profundo, uma evolução das redes neurais que está entre as tecnologias mais valorizadas do momento. Demonstrando performance superior a outros sistemas, esta inovação tem feito muito sucesso em áreas como o reconhecimento de voz e imagem e o processamento de linguagens naturais.13 No nosso cotidiano, o aprendizado profundo encontra-se presente nos aplicativos de busca e compras online, sugerindo novos produtos com base nas informações que fornecemos a todo momento ao acessar a internet. Aplicações em P&D de fármacos são recentes e têm sido exploradas na predição de propriedades moleculares (QSPR) e atividade farmacológica (QSAR), análise de rotas sintéticas, e planejamento de novos compostos.14
Porque os sistemas de aprendizado profundo estão sendo tratados com tanto entusiasmo e o que os distingue das outras redes neurais? Basicamente, o aprendizado profundo foi idealizado para resolver problemas que envolvam um volume muito elevado de dados, ou seja, para enfrentar o famigerado big data.15 Exemplo: classificar de acordo com tamanho, tipo, origem e conteúdo todos os arquivos de vídeo presentes no banco de dados do Google. Para gerenciar este universo de informações, a arquitetura das redes de aprendizado profundo é mais complexa e possui maior flexibilidade. De forma resumida, as redes neurais são formadas por várias camadas de processamento de dados que possuem funções diferentes: (1) camada de entrada de dados, (2) camadas ocultas e (3) camada de saída. Cada camada é constituída por centenas de nós, ou neurônios, que são as unidades básicas de processamento de dados. Os nós da camada de entrada recebem as informações que, a seguir, são transformadas nos neurônios das camadas ocultas. Por fim, a camada de saída gera a resposta ao problema proposto.16 Algoritmos de aprendizado profundo são mais complexos porque apresentam múltiplas camadas ocultas; as redes neurais convencionais apresentam no máximo duas camadas deste tipo. Além disso, um maior número de neurônios por camada e diversos aperfeiçoamentos que foram introduzidos nos algoritmos possibilitam que os sistemas de aprendizado profundo superem problemas comuns das redes convencionais, dentre eles o super-ajuste (overfitting).15,16
O uso de redes de aprendizado profundo em P&D de fármacos é um fenômeno recém-chegado e o seu potencial vem sendo explorado tanto no ambiente acadêmico quanto no corporativo. As pesquisas têm se concentrado em diversas áreas, com destaque para o desenvolvimento de novas abordagens para a construção de modelos de QSAR e QSPR. Com o uso de redes de aprendizado profundo, isso pode ser feito utilizando como dados de entrada representações estruturais primárias, tornando desnecessários procedimentos de derivação de descritores moleculares.17 Outro tópico que está no centro das atenções é a automatização do planejamento de novas moléculas, um processo laborioso e particularmente susceptível a erros. Os sistemas de aprendizado profundo têm apresentado resultados superiores a outras ferramentas, principalmente, por serem capazes de gerar moléculas quimicamente válidas, acessíveis sinteticamente e com propriedades adequadas para fins terapêuticos.18
As redes neurais baseadas em aprendizado profundo têm muito a oferecer e inúmeros setores da economia estão interessados no tema. A indústria farmacêutica, que suporta um custo de US$ 2,6 bilhões para desenvolver um único tratamento e uma taxa de insucesso de 90% entre a fase de desenvolvimento clínico e aprovação do produto, está particularmente atenta.19 Exemplos são a Pfizer e a Roche, na busca por novas terapias para o câncer. Estes líderes de mercado se aliaram a empresas especializadas como a IBM e a GNS Healthcare. A Sanofi e a GSK se associaram à britânica Exscientia, cuja especialidade é o design automatizado de moléculas. Dada natureza dessas parcerias, envolvendo companhias que dominam uma larga fatia do mercado farmacêutico, ainda é prematuro dizer como estas tecnologias impactarão a produtividade do setor. Os resultados obtidos nos próximos anos demonstrarão se os investimentos feitos darão retorno com novos fármacos mais eficazes e seguros, levando ao aumento de produtividade do setor.
Figura 1. Componentes-chave da estratégia contemporânea de pesquisa e desenvolvimento (P&D) de fármacos, a qual engloba abordagens como a genômica e biologia molecular, bem como métodos mais eficientes de química sintética, como a química combinatória. Em conjunto com a evolução das plataformas de testes in vitro para sistemas de triagens automatizadas em larga escala, estas tecnologias aumentaram significativamente o poder de geração de dados. O desenvolvimento de novos métodos em quimioinformática, como as redes neurais, têm sido fundamental para a conversão destes dados em informações úteis para o avanço do processo de P&D.
Referências
(1) Jones, L.H.; Bunnage, M.E. Applications of chemogenomic library screening in drug discovery. Nat. Rev. Drug Discov. 2017, 16, 285-296.
(2) Liu, R.; Li, X.; Lam, K.S. Combinatorial chemistry in drug discovery. Curr. Opin. Chem. Biol. 2017, 38, 117-126.
(3) Gasteiger, J. Chemoinformatics: Achievements and Challenges, a Personal View. Molecules 2016, 21, 151.
(4) Jordan, M.I; Mitchell, T.M. Machine learning: Trends, perspectives, and prospects. Science 2015, 349, 255-260.
(5) Pirhadi, S.; Sunseri, J.; Koes, D.R. Open source molecular modeling. J. Mol. Graph. Model. 2016, 69, 127-143.
(6) Willett, P. Chemoinformatics: a history. Wiley Interdiscip. Rev. Comput. Mol. Sci. 2011, 1, 46-56.
(7) Lombardo, F.; Desai, P.V.; Arimoto, R.; Desino, K.E.; Fischer, H.; Keefer, C.E.; Petersson, C.; Winiwarter, S.; Broccatelli, F. In Silico Absorption, Distribution, Metabolism, Excretion, and Pharmacokinetics (ADME-PK): Utility and Best Practices. An Industry Perspective from the International Consortium for Innovation through Quality in Pharmaceutical Development. J. Med. Chem. 2017, 60, 9097-9113.
(8) Zhang, L.; Tan, J.; Han, D.; Zhu, H. From machine learning to deep learning: progress in machine intelligence for rational drug discovery. Drug Discov. Today 2017, 22, 1680-1685.
(9) Obermeyer, Z.; Emanuel, E.J. Predicting the Future – Big Data, Machine Learning, and Clinical Medicine. N. Engl. J. Med. 2016, 375, 1216-1219.
(10) Sharma, A.; Syam, N. Sales and customer development: An agenda for inquiry. Ind. Market. Manag. 2018, 69, 133-134.
(11) Ding, S.; Li, H.; Su, C.; Yu, J.; Jin, F. Evolutionary artificial neural networks: a review. Artif. Intell. Rev. 2013, 39, 251-260.
(12) Denève, S.; Machens, C.K. Efficient codes and balanced networks. Nat. Neurosci. 2016, 19, 375-382.
(13) Chen, H.; Engkvist, O.; Wang, Y.; Olivecrona, M.; Blaschke, T. The rise of deep learning in drug discovery. Drug Discov. Today 2018, 23, 1241-1250.
(14) Coley, C.W.; Barzilay, R.; Jaakkola, T.S.; Green, W.H.; Jensen, K.F. Prediction of Organic Reaction Outcomes Using Machine Learning. ACS Cent. Sci. 2017, 3, 434-443.
(15) LeCun, Y.; Bengio, Y.; Hinton, G. Deep learning. Nature 2015, 521, 436-44.
(16) Chen, H.; Engkvist, O.; Wang, Y.; Olivecrona, M.; Blaschke, T. The rise of deep learning in drug discovery. Drug Discov. Today 2018, 23, 1241-1250.
(17) Kearnes, S.; McCloskey, K.; Berndl, M.; Pande. V.; Riley P. Molecular graph convolutions: moving beyond fingerprints. J. Comput. Aided Mol. Des. 2016, 30, 595-608.
(18) Blaschke, T.; Olivecrona, M.; Engkvist, O.; Bajorath, J.; Chen H. Application of Generative Autoencoder in De Novo Molecular Design. Mol. Inform. 2018, 37, 1700123.
(19) Fleming, N. How artificial intelligence is changing drug discovery. Nature 2018, 557, S55-S57.
Autores:
Leonardo L. G. Ferreira e Adriano D. Andricopulo


Os autores são afiliados ao Laboratório de Química Medicinal e Computacional, Centro de Pesquisa e Inovação em Biodiversidade e Fármacos, Instituto de Física de São Carlos, Universidade de São Paulo, Av. João Dagnone 1100, 13563-120, São Carlos, SP, Brazil, Tel.: + 55 16 3373-9874; Fax: + 55 16 3373-9881.