A quantidade de dados gerados pelos cientistas hoje é enorme, graças à queda nos custos da tecnologia de sequenciamento e à quantidade crescente de poder computacional disponível. Mas analisar todos esses dados para descobrir informações úteis é como procurar uma agulha molecular em um palheiro. O aprendizado de máquina (ML) e outras ferramentas de inteligência artificial (IA) podem acelerar drasticamente o processo de análise de dados, mas a maioria das ferramentas de ML é difícil de ser acessada e usada por especialistas que não são de ML. Recentemente, foram desenvolvidos métodos de aprendizado de máquina automatizados (AutoML) que podem automatizar o design e a implantação de ferramentas de ML, mas geralmente são muito complexos e exigem uma facilidade com ML que poucos cientistas fora do campo de IA possuem.
Um grupo de cientistas do Wyss Institute for Biologicamente Inspired Engineering da Universidade de Harvard e do MIT agora preencheu essa necessidade não atendida criando uma nova e abrangente plataforma AutoML projetada para biólogos com pouca ou nenhuma experiência em ML. Sua plataforma, chamada BioAutoMATED, pode usar sequências de ácidos nucléicos, peptídeos ou glicanos como dados de entrada, e seu desempenho é comparável a outras plataformas AutoML, exigindo entrada mínima do usuário. A plataforma é descrita em um novo artigo publicado na Sistemas celulares e está disponível para download no GitHub.
“Nossa ferramenta é para pessoas que não têm a capacidade de criar seus próprios modelos de ML personalizados, que se veem fazendo perguntas como: ‘Tenho este conjunto de dados interessante, o ML funcionará para ele? Como faço para colocá-lo em um Modelo de ML? A complexidade do ML é o que está me impedindo de ir mais longe com este conjunto de dados, então como posso superar isso? , Ph.D. “Queríamos facilitar para biólogos e especialistas em outros domínios o uso do poder do ML e do AutoML para responder a perguntas fundamentais e ajudar a descobrir a biologia que significa alguma coisa.”
AutoML para todos
Como muitas grandes ideias, a semente que se tornaria BioAutoMATED foi plantada não no laboratório, mas durante o almoço. Valeri e co-primeiros autores Luis Soenksen, Ph.D. e Katie Collins estavam comendo juntos em uma das mesas de jantar do Instituto Wyss quando perceberam que, apesar da reputação do Instituto como um destino de classe mundial para pesquisa biológica, apenas alguns dos principais especialistas que trabalhavam lá eram capazes de construir e treinar modelos de ML que poderia beneficiar muito o seu trabalho.
“Decidimos que precisávamos fazer algo sobre isso, porque queríamos que o Wyss estivesse na vanguarda da revolução biotecnológica da IA e também queríamos que o desenvolvimento dessas ferramentas fosse conduzido por biólogos, para biólogos”, disse Soenksen, um bolsista de pós-doutorado no Wyss Institute, que também é um empreendedor em série no espaço de ciência e tecnologia. “Agora, todos concordam que a IA é o futuro, mas quatro anos atrás, quando tivemos essa ideia, não era tão óbvio, principalmente para pesquisa biológica. Então, começou como uma ferramenta que queríamos construir para servir a nós mesmos e aos nossos colegas Wyss, mas agora sabemos que pode servir muito mais.”
Embora vários sistemas AutoML já tenham sido desenvolvidos para simplificar o processo de geração de modelos ML a partir de conjuntos de dados, eles geralmente apresentam desvantagens; entre eles, o fato de que cada ferramenta AutoML é projetada para olhar para apenas um tipo de modelo (por exemplo, redes neurais) ao procurar uma solução ideal. Isso limita o modelo resultante a um conjunto restrito de possibilidades, quando, na realidade, um tipo diferente de modelo pode ser mais ideal. Outro problema é que a maioria das ferramentas do AutoML não foi projetada especificamente para receber sequências biológicas como dados de entrada. Algumas ferramentas foram desenvolvidas que utilizam modelos de linguagem para análise de sequências biológicas, mas carecem de recursos de automação e são difíceis de usar.
Para criar um AutoML completo e robusto para biologia, a equipe modificou três ferramentas AutoML existentes, cada uma usando uma abordagem diferente para gerar modelos: AutoKeras, que procura redes neurais ideais; DeepSwarm, que usa algoritmos baseados em enxames para procurar redes neurais convolucionais; e TPOT, que pesquisa redes não neurais usando uma variedade de métodos, incluindo programação genética e autoaprendizagem. O BioAutoMATED produz resultados de saída padronizados para todas as três ferramentas, para que o usuário possa compará-las facilmente e determinar qual tipo produz os insights mais úteis de seus dados.
A equipe construiu o BioAutoMATED para poder receber como entradas sequências de DNA, RNA, aminoácidos e glicanos (moléculas de açúcar encontradas nas superfícies das células) de qualquer comprimento, tipo ou função biológica. O BioAutoMATED pré-processa automaticamente os dados de entrada e, em seguida, gera modelos que podem prever funções biológicas apenas a partir das informações da sequência.
A plataforma também possui vários recursos que ajudam os usuários a determinar se precisam coletar dados adicionais para melhorar a qualidade da saída, aprender quais recursos de uma sequência os modelos “prestaram mais atenção” (e, portanto, podem ser de maior interesse biológico ) e projetar novas sequências para experimentos futuros.
Nucleotídeos e peptídeos e glicanos, oh meu Deus!
Para testar sua nova estrutura, a equipe primeiro a usou para explorar como a alteração da sequência de um trecho de RNA chamado de sítio de ligação do ribossomo (RBS) afetou a eficiência com a qual um ribossomo poderia se ligar ao RNA e traduzi-lo em proteína em E. coli bactérias. Eles alimentaram seus dados de sequência no BioAutoMATED, que identificou um modelo gerado pelo algoritmo DeepSwarm que poderia prever com precisão a eficiência da tradução. Esse modelo teve um desempenho tão bom quanto os modelos criados por um especialista em ML profissional, mas foi gerado em apenas 26,5 minutos e exigiu apenas dez linhas de código de entrada do usuário (outros modelos podem exigir mais de 750). Eles também usaram o BioAutoMATED para identificar quais áreas da sequência pareciam ser as mais importantes na determinação da eficiência da tradução e para projetar novas sequências que poderiam ser testadas experimentalmente.
Eles então passaram para testes de alimentação de dados de sequência de peptídeos e glicanos no BioAutoMATED e usaram os resultados para responder a perguntas específicas sobre essas sequências. O sistema gerou informações altamente precisas sobre quais aminoácidos em uma sequência peptídica são mais importantes para determinar a capacidade de um anticorpo se ligar à droga ranibizumab (Lucentis) e também classificou diferentes tipos de glicanos em grupos imunogênicos e não imunogênicos com base em suas sequências . A equipe também o usou para otimizar as sequências de interruptores toehold baseados em RNA, informando o projeto de novos interruptores toehold para testes experimentais com codificação mínima de entrada do usuário.
“Por fim, fomos capazes de mostrar que o BioAutoMATED ajuda as pessoas a 1) reconhecer padrões em dados biológicos, 2) fazer perguntas melhores sobre esses dados e 3) responder a essas perguntas rapidamente, tudo em uma única estrutura – sem ter que se tornar um ML especialistas”, disse Katie Collins, que atualmente é estudante de pós-graduação na Universidade de Cambridge e trabalhou no projeto enquanto era graduada no MIT.
Quaisquer modelos previstos com a ajuda do BioAutoMATED, como com qualquer outra ferramenta de ML, precisam ser validados experimentalmente em laboratório sempre que possível. Mas a equipe espera que ele possa ser ainda mais integrado ao conjunto cada vez maior de ferramentas AutoML, um dia estendendo sua função além das sequências biológicas para qualquer objeto semelhante a uma sequência, como impressões digitais.
“As ferramentas de aprendizado de máquina e inteligência artificial já existem há algum tempo, mas foi apenas com o desenvolvimento recente de interfaces amigáveis que elas explodiram em popularidade, como no caso do ChatGPT”, disse Jim Collins, que também é o Termeer Professor of Medical Engineering & Science no MIT. “Esperamos que o BioAutoMATED possa permitir que a próxima geração de biólogos descubra com mais rapidez e facilidade os fundamentos da vida”.
“Permitir que não especialistas usem essas plataformas é fundamental para poder aproveitar todo o potencial das técnicas de ML para resolver problemas de longa data na biologia e além. Esse avanço da equipe de Collins é um grande passo para tornar a IA um colaborador-chave para biólogos e bioengenheiros”, disse o diretor fundador da Wyss, Don Ingber, MD, Ph.D., que também é o também Judah Folkman Professor de Biologia Vascular na Harvard Medical School e no Boston Children’s Hospital, e o Hansjörg Wyss Professor de Engenharia Bioinspirada na Harvard John A. Paulson School of Engineering and Applied Sciences (SEAS).
Outros autores do artigo incluem George Cai, do Wyss Institute e da Harvard Medical School; ex-membros do Instituto Wyss Pradeep Ramesh, Rani Powers, Nicolaas Angenent-Mari e Diogo Camacho; e Felix Wong e Timothy Lu do MIT.
Esta pesquisa foi apoiada pela Defense Threat Reduction Agency (concessão HDTRA-12210032), o programa DARPA SD2, o Paul G. Allen Frontiers Group, o Wyss Institute for Biologicamente Inspired Engineering, um MIT-Takeda Fellowship, CONACyT grant 342369/408970, e uma bolsa de estudos do MIT-TATA Center (2748460).