Notes

Notes - notes.io

Elementos transponíveis são seqüências de DNA que podem se mover de um lugar para outro dentro do genoma de uma célula. Eles são importantes para a variabilidade genética e podem modificar a funcionalidade dos genes. A classificação correta desses elementos é crucial para entender seu papel na evolução das espécies. Neste artigo, investigamos a classificação dos Elementos Transponíveis como um problema de Classificação Hierárquica usando Aprendizado de Máquina. Apresentamos novos conjuntos de dados hierárquicos adequados para serem utilizados pelos métodos de Aprendizado de Máquina, e também novas estratégias hierárquicas de classificação top-down usando redes neurais. Comparamos nossas estratégias com as existentes na literatura e as avaliamos utilizando medidas específicas para problemas hierárquicos.
Nossas principais contribuições são: (i) a construção de conjuntos de dados hierárquicos de TE, estruturados de acordo com a taxonomia proposta por Wicker et. al. [8] . Até onde sabemos, esta é a primeira tentativa de construir um conjunto de dados hierárquico da TE seguindo a taxonomia de Wicker, que é adequada para ser usada com qualquer método de aprendizado de máquina; (ii) a proposta de duas novas estratégias de classificação hierárquica de aprendizado de máquina, usando redes neurais como classificadores de base.
Neste trabalho, uma das estratégias locais propostas tenta evitar o problema de propagação de erros presente nas estratégias top-down. Desta forma, tentamos aproveitar as informações locais sem propagar erros através da hierarquia. A outra estratégia proposta modifica ligeiramente a hierarquia, a fim de permitir previsões de nó de folha não obrigatórias.
Um conjunto de classificadores locais foi proposto por Valentini [12] . Nesse método, cada classificador treinado estima a probabilidade local de um determinado objeto pertencer a uma determinada classe. Uma fase de combinação estima a probabilidade consensual global. Os mesmos autores [15] , [16] modificaram este método para modular a relação entre a predição de uma classe e a predição de suas subclasses.

Cesa-Bianchi et. al. [17] investigaram a sinergia entre diferentes estratégias locais relacionadas à tarefa de predição da função do gene. Eles integraram ferramentas de fusão de dados baseadas em kernel e algoritmos de agrupamento com métodos sensíveis ao custo [18] , [16] . Os autores definiram a sinergia como a melhoria na acurácia preditiva, considerando qualquer medida de avaliação, devido ao uso de estratégias de aprendizagem concorrente. A sinergia é detectada quando a ação combinada de duas estratégias alcança melhores taxas de classificação corretas do que a média da classificação correta das duas estratégias utilizadas separadamente [17] .

Borges e Nievola [19] propuseram uma rede neural competitiva de base global formada por uma camada de entrada e uma camada de saída. As distâncias entre os nós de hierarquia e cada instância de treinamento são calculadas, e os neurônios com as menores distâncias são considerados vencedores, influenciando seus ancestrais. Os pesos da rede neural são ajustados de acordo com as classes associadas aos neurônios vencedores.

O trabalho de Stojanova et. al [20] propõe um método global para considerar a autocorrelação, i. e ., as relações estatísticas entre a mesma variável em instâncias diferentes, mas relacionadas. Durante o treinamento, uma combinação de recursos e auto-correlações entre instâncias é usada. Uma rede modela auto-correlações. que são usados pelo método enquanto aprendem.

Sun et. al. [21] formularam a tarefa de classificação como um problema de seleção de caminhos, onde cada caminho começa na raiz e termina em uma folha ou nó interno. Eles usaram mínimos quadrados parciais para resolver o problema de previsão de rótulos como um problema de predição de caminho ótimo. Cada predição é um subgráfico conectado, que pode ser formado por um pequeno número de caminhos. O método proposto baseado no global então encontra os caminhos ótimos, e a previsão final é dada pela união desses caminhos.

A hierarquia de TEs tem algumas particularidades que permitem que a classificação pare em nós internos ou desça até os nós da folha. Esta situação é ilustrada na Figura 2, onde todos os nós internos são destacados com um quadrado tracejado. Para nós, vamos nos concentrar nos nós brancos da hierarquia, que representam sua forma original. Note que a classe 2.1 possui apenas uma subclasse (2.1.1). Assim, todas as instâncias classificadas na classe 2.1.1 também são classificadas na classe 2.1, respeitando as restrições da hierarquia. No entanto, podem existir instâncias classificadas na classe 2.1, mas não na classe 2.1.1. A solução mais comum para lidar com essa situação na literatura é usar a confiança do classificador na previsão para tomar a decisão de continuar indo para a hierarquia. Por exemplo, pode-se dizer que qualquer classificação com uma confiança ou probabilidade menor que 0,9 deve ser ignorada e a classe associada ao nó interno retornada como a classe da instância.

A utilização desse limite para decidir se a hierarquia deve ou não diminuir tem duas principais desvantagens: (i) determinar o valor do limite, que pode variar substancialmente de um conjunto de dados para outro e (ii) escolher essa métrica de confiança quando o classificador usado o nó interno não retorna necessariamente uma medida apropriada (por exemplo, o classificador Naive Bayes fornece valores muito altos de probabilidade para a classe que ele acredita ser os valores corretos e muito baixos para todos os outros). Propomos uma abordagem diferente e simples para lidar com essa situação: alterar a hierarquia para permitir a classificação de nó não-Folha.

Em seguida, a fase de treinamento nLLCPN segue o mesmo procedimento adotado pela estratégia LCPN, onde para cada nó tracejado na figura um classificador de várias classes é treinado. No entanto, quando casos como o ilustrado na Figura 2ocorrem na hierarquia - onde as instâncias podem ser classificadas na classe 2.1, mas não na classe 2.1.1 - nLLCPN replica o nó interno, e a classe 2.1 aparece como uma subclasse de si mesmo (veja nós cinzentos na figura). Assim, um classificador associado à classe original 2.1 pode ser treinado para distinguir entre si e a classe 2.1.1. As instâncias classificadas na classe 2.1 são usadas como entradas positivas para a classe 2.1, enquanto as outras instâncias são insumos positivos para a classe 2.1.1. Este mesmo procedimento é adotado para a classe interna 1.1 na figura. Desta forma, podemos ter uma classificação final como um nó interno da hierarquia.

Para a classificação de uma nova instância, uma estratégia top-down convencional é adotada. No entanto, se um classificador associado a uma classe interna se prever (mesmo caso da classe 2.1 na Figura 2 ), a classificação será interrompida no nó não-folha. No caso em que o problema requer uma classificação obrigatória de nó-folha, as estratégias LCPN e nLLCPN são equivalentes.

A variação adotata é de
B. Classificador Local por Nó Pai e Filial
L ocal C lassifier por P jacuzzy N ode e B rancho (LCPNB) utiliza o procedimento de formação proposto por nLLCPN. Portanto, a taxonomia é modificada para permitir a classificação de nó não-folha, e cada nó tracejado é associado a um classificador de várias classes.

No entanto, em vez de usar uma estratégia convencional de cima para baixo para classificar uma nova instância, o LCPNB faz o seguinte. A instância é fornecida como entrada para todos os classificadores internos (seis deles no caso da hierarquia na Figura 3 ) e as probabilidades de previsão são obtidas para todas as classes. Posteriormente, para cada caminho da raiz até os nós representando as classes (ou seja, todos os nós folha mais os nós internos que podem ser a classe final de uma instância), as probabilidades médias são calculadas considerando as probabilidades associadas a cada classe no caminho. A classificação final é dada pelo caminho com a maior probabilidade média. A lógica por trás dessa estratégia é que possíveis erros em níveis mais altos podem ser corrigidos por probabilidades mais profundas.

A Figura 3 ilustra o procedimento de classificação do LCPNB para uma determinada instância. Observe que, para cada nó, um valor de probabilidade atribuído pelo classificador associado ao pai tracejado é mostrado. Vamos nos concentrar nas instâncias da classe 1.1. Uma estratégia LCPN preveria classe 1.1 como a classe final se estivesse usando uma estratégia de redução de limiar, ou continuaria a classificação até que um nó folha fosse alcançado (classes 1.1.1 ou 1.1.2). Isso ocorre porque a estratégia top-down convencional segue o caminho com probabilidades mais altas, e a classificação final seguiria o caminho começando na classe 1 na Figura 3 . As probabilidades dos caminhos possíveis são mostradas abaixo:

Classificação de nó foliar não obrigatória: 1 ( 0,6 ) → 1,1 ( 0,6 ) → 1,1 ( 0,6 ) média = ( 0,6 + 0,6 + 0,6 ) / 3 = 0,6;

Classificação obrigatória dos nós foliares: 1 ( 0,6 ) → 1,1 ( 0,6 ) → 1,1,1 / 1,1,2 ( 0,2 ) média = ( 0,6 + 0,6 + 0,2 ) / 3 = 0,47.

No caso do LCPNB, considerando-se o máximo das probabilidades médias de todos os caminhos possíveis, a classificação final seria alterada. O LCPNB consideraria as probabilidades médias de todas as classificações finais possíveis, e a classificação final seria dada pelo caminho que leva à classe 2.1:

2 ( 0,4 ) → 2,1 ( 1,0 ) → 2,1 ( 0,8 ) mia = ( 0,4 + 1,0 + 0,8 ) / 3 = 0,73.

De acordo com Wicker et. al. [8] , os resultados do BLASTn são confiáveis quando os parâmetros de identidade e cobertura são definidos como 0,8. Assim, usamos esse mesmo valor de parâmetro em nossos experimentos. Quando o BLASTn não conseguiu encontrar um homólogo com identidade e cobertura acima de 0,8, a classe mais frequente foi usada como a previsão final.

Uma vez que a classificação de TEs é um problema de classificação de nós de folha não obrigatório, as estratégias LCL e LCPN precisam de algum procedimento para permitir classificações de nó-folha não obrigatórias. Seguindo a abordagem mais comum na literatura, adotamos um limiar de 80% para decidir se devemos confiar em uma previsão ou não. Esse procedimento remove todas as previsões cuja probabilidade é menor que 0,8. Acreditamos que 80% é um valor adequado porque o BLASTn também usa 80% de cobertura e identidade. As estratégias nLLCPN e LCPNB não necessitam de tal procedimento, uma vez que podem lidar naturalmente com previsões de nós de folha não obrigatórias.

Referencias: 8,12,15,16,17,18,19,20,21

Notes.io is a web-based application for taking notes. You can take your notes and share with others people. If you like taking long notes, notes.io is designed for you. To date, over 8,000,000,000 notes created and continuing...

With notes.io;

* You can take a note from anywhere and any device with internet connection.
* You can share the notes in social platforms (YouTube, Facebook, Twitter, instagram etc.).
* You can quickly share your contents without website, blog and e-mail.
* You don't need to create any Account to share a note. As you wish you can use quick, easy and best shortened notes with sms, websites, e-mail, or messaging services (WhatsApp, iMessage, Telegram, Signal).
* Notes.io has fabulous infrastructure design for a short link and allows you to share the note as an easy and understandable link.

Fast: Notes.io is built for speed and performance. You can take a notes quickly and browse your archive.

Easy: Notes.io doesn’t require installation. Just write and share note!

Short: Notes.io’s url just 8 character. You’ll get shorten link of your note when you want to share. (Ex: notes.io/q )

Free: Notes.io works for 12 years and has been free since the day it was started.

You immediately create your first note and start sharing with the ones you wish. If you want to contact us, you can use the following communication channels;

Email: [email protected]

Twitter: http://twitter.com/notesio

Instagram: http://instagram.com/notes.io

Facebook: http://facebook.com/notesio

Regards;
Notes.io Team

Notes

Notes - notes.io

Shortened Note Link

Long File

Notes