and

Versão em Português!

Introduction

The Difference between Scorpion and Formiga

Formiga is a compilation of the tools used to calculate the frequency of 3D contacts as well as frequency of occurrence of the amino acids at the interface formed by facing chains in a given PDB format file(s). At the same time, those tools allow to the user to visualize results in graphically convenient and easy to interpret way. The user provides information as requested on the entry page of FORMIGA. In case of calculating the frequency of occurrence of the amino acids at the interface, for example, it is required that the user provides following information: a) names of proteins (PDB file names) and b) chain names that will belong to facing subunits and that should be used during calculation. The program defines the interface between given subunits. The program operates with two subunits that will form the interface. Those two subunits can contain protein chains and those are grouped in a way that the user indicates. Once the interface and its closest vicinity is identified (by calculating lost surface area upon complex formation between two subunits), the program will count amino acids in that defined region and present them in graphically convenient way. In case of 3D contacts, the user should inform the radius of the sphere within which the contacts will be counted. In addition, the user should choose the central residue for which the contacts will be identified and counted, as well as the atom from which the distances will be counted (Alpha Carbon or Last Heavy Atom in the amino acid side chain). The user can also choose the secondary structure element to which the central residue belongs and from which the contacts will be counted.


How to choose PDB files to be processed?

In this example, we have chosen to elaborate data on following PDB files: 1cho.pdb 1bql.pdb 1kiq.pdb and 1nfd.pdb
The idea is to calculate 3D contacts and frequency of aminoacid occurrence in an ensemble of similar proteins (this case is formed from arbitrary PDB files, but the user is encouraged to try the ensemble of serine proteases or alpha amylases or any other protein family of interest). Following 4 letter PDB code is the space and then the single letter code(s) indicating the chain(s) that form the FIRST subunit. After the space, the user enters the single letter code(s) of the chain(s) that would form the SECOND subunit. So in this example, 1cho.pdb will be processed in such way so that the interface will be formed between chain E and chain I. For 1bql.pdb, the interface will be formed between the FIRST subunit formed by H and L chains and the second subunit formed by the Y chain. In pdb file 1kiq.pdb, the interface will be formed between the FIRST subunit (containing the chain A and B) and the SECOND subunit containing only the C chain. In case of 1nfd.pdb, the FIRST subunit is formed by the F and the E chain, while the SECOND subunit is formed by the A and B chain.
The user will receive from FORMIGA the data on each PDB file as well as on the TOTAL (sum of frequencies) in the ensemble of PDB files indicated.

How to calculate the frequency of 3D contacts a) within each subunit and b) at the interface of two subunits?

After choosing properly PDB files for 3D contacts and amino acid frequency calculation, Formiga will present the window as shown bellow:

To show calculated data on 3D contacts for specific PDB file, the user should click on that PDB item in the column: "Show 3D frequency graphic". If the user wants to see data for all chosen PDB files, than the user should click on "Total of 3D frequency".
However, before the actual data are shown, the user will be presented with the window as this bellow:

In this window, the user can choose appropriate parameters for the calculation of the 3D contacts. Radius Distance option will specify the maximum distance for the 3D contacts. The option Residue will fix the base residue from which the 3D contacts will be calculated. In another words, 3D contacts will be calculated only for the pairs where at least one amino acid is the base residue. The third option is for the choice of the atom from/to which the distances will be calculated: (CA-CA and LHA-LHA); CA is the Carbon Alpha atom e LHA is the Last Heavy Atom in the amino acid side chain. The option Secondary Structure Element will indicate to the program the restriction in terms of the conformation where the base residue should be located so that the calculation will take into account the encountered contact or not. The last option Degeneracy of Codon Usage is not available yet.

Once all options are chosen, it is necessary to click on go graph and the window as this one bellow will be generated.

In this example, "Glycine: 3.0" indicates that there are 3 contacts in 3D between glicine and the base residue (serine, in this example) in the 1bql.pdb file. "14.2%" indicates that those 3 contacts represent 14,2% of total contacts in 3D and , "||Alpha: 0.0 |Beta: 0.0 | Turn: 0.0 | Coil: 3.0 ||" indicates that 3 glycines that make the contact with the base residue, 0 are in the alpha helix conformation, 0 are in the beta conformation, 0 are in the turn conformation and 3 are within coil conformation. Similar information is available for any of the 20 amino acids. The user should "walk"the mouse above the graphical bars and information will appear on the status area. In case that the user did NOT choose the Secondary Structure Element, that is, indicating ALL secondary structure elements, FORMIGA will present non differentiated (cumulative) number, representing the frequency for all elements of SS. The user still has the option to click on the Frequency for residue classes and the graph will assume the form which sums hydrophobic, charged, polar residues and the glicine in cumulative graphic bars.

Calculating the frequency of 3D contacts at the Interface between two subunits

The user should first choose the group of PDB files (see How to choose PDB files to be processed?), and go to the column: "Show 3D frequency graphic separated by chains". Click on the PDB file name for which the frequency of 3D contacts on the interface is to be analyzed. The user can also see the data on "Total of 3D frequency by chains"; these are referring to the sum of frequencies from all chosen PDB files. The rest of the procedure is equivalent to the one described above in " How to calculate the frequency of 3D contacts a) within each subunit and b) at the interface of two subunits?"

Calculating the amino acid frequency of occurrence in listed PDB files.

The procedure in this case is similar to the two above cases. After selecting the group of PDB files (see How to choose PDB files to be processed?), the user should go to the column "Show frequency graphic" and click on the FIRST or the SECOND subunit. In case that the user needs to calculate the frequency of occurrence for the amino acids for ALL chosen PDB files, the user should click on "1st half", to calculate the frequency in the FIRST subunit, or click on "2nd half", to calculate the frequency in the SECOND subunit.
        The result is presented in the histogram as shown bellow:

         In this example, "Aspartic Acid: 4.0" indicates that there are 4 aspartic acids in subunit HL of the PDB file 1bql.pdb, and "13.7%" indicates that this number represents 13.7% of the total number of residues in this subunit. Positioning the mouse above any of the graphic bars, FORMIGA will show exact quantity of amino acid residue in this particular subunit. The option "Frequency for residue classes" will show reduced graph, grouping amino acids in their respective classes.

 

Versão de Ajuda em Português

Introdução

Diferenças Entre Scorpion e Formiga

         Formiga é um conjunto de ferramentas utilizado para fazer o cálculo da frequência de contatos 3D e da frequência de resíduos na região de interface de arquivos pdb, bem como proporcionar uma visualização gráfica dos resultados obtidos. O cálculo é feito com base em informações obtidas do usuário que deverá fornecê-las conforme requisitado pelo programa. No caso da frequência de resíduos, por exemplo, é necessário que o usuário informe os nomes das proteínas (pdb's) e as regiões (subunidades) dentro de cada proteína que deverão ser consideradas nos cálculos. O programa então define uma região de interface, que é simplesmente a região envolvendo a fronteira entre essas subunidades e suas imediações, e conta os resíduos presentes nessa região, exibindo um gráfico com o resultado. No caso da frequência de contatos 3D, além dos nomes das proteínas e das subunidades, o usuário deve informar o raio de contato, o resíduo central da esfera de contato, a conformação desse resíduo e também o átomo que será utilizado no cálculo das distâncias (Carbono Alpha, etc). O usuário deverá ainda informar em quais das subunidades definidas (primeira, segunda ou ambas) o cálculo será feito, ou se apenas a interface entre uma subunidade e outra deve ser considerada.


Conteúdo




 

Escolhendo o Conjunto de Arquivos Pdb a Serem Processados
 

        O usuário deverá entrar com o nome de cada arquivo pdb na caixa de informações, seguido pela primeira e segunda subunidades (um subunidade é uma sequência de identificadores de cadeia (ex: ABC,E,I,LH) predefinida pelo usuário) separadas por um espaço, como no exemplo abaixo :

        Caso o usuário queira consultar arquivos pdb e suas respectivas cadeias, pode-se utilizar ferramentas como o STING ou STINGpaint. Alternativamente, o usuário poderá clicar em "see sample file" para obter alguns exemplos de arquivos pdb com subunidades predefinidas.
        Quando tudo estiver pronto, basta clicar no botão "Go Calculate". Para limpar a caixa de informações clique no botão "Clear".
 

Calculando a Frequência Total de Contatos 3D (dentro de cada subunidade em separado e na interface entre as duas subunidades)
 

        Após haver selecionado o grupo de arquivos para os cálculos (ver Escolhendo o Conjunto de Arquivos Pdb A Serem Processados) aparecerá uma tela como a que se segue :

        Para então calcular a frequência de contatos 3D de um arquivo pdb específico, basta ir na coluna "Show 3D frequency graphic" e clicar no arquivo pdb adequado. Caso o usuário queira calcular a frequência para todos os arquivos listados, basta clicar em "Total of 3D frequency". Antes que o resultado seja exibido, aparecerá uma tela de opções onde o usuário fornecerá as informações necessárias para que o cálculo seja efetuado, como no exemplo abaixo :

        A opção Radius Distance especifica a distância máxima para os contatos 3D, isto é, só serão considerados os contatos 3D entre os resíduos cuja distância entre si nao ultrapasse essa distância máxima.
        A opção Residue especifica o resíduo base para o cálculo dos contatos 3D, isto é, serão considerados apenas os contatos 3D em que um dos resíduos seja o resíduo base.
        A terceira opção permite que o usuário escolha quais átomos dos resíduos serão usados no cálculo das distâncias, se o átomo CA (Carbono Alpha) ou o átomo LHA (Last Heave Atom).
        A opção Secondary Structure permite que o usuário escolha a conformação do resíduo base : Alpha(Helix), Beta (Sheet), Turn, Coil, All (Qualquer conformação).
        A opção Degeneracy of Codon Usage ainda não está disponível.

        Quando todas as opções estiverem devidamente preenchidas , basta clicar em "go Graph" e o gráfico resultante será mostrado logo abaixo, como no exemplo a seguir :

         Neste exemplo, "Glycine: 3.0" indica que há 3 contatos 3D entre a glicina e o resíduo base (serina, neste exemplo) no arquivo 1bql.pdb, "14.2%" indica que isso representa 14,2% do total de contatos 3D e, "||Alpha: 0.0 |Beta: 0.0 | Turn: 0.0 | Coil: 3.0 ||" indica que das 3 treoninas que fazem contato com o resíduo base, 0 tem conformação alpha, 0 tem conformação beta, 0 tem conformação turn e 3 têm conformação coil. Pode-se obter essas informações para qualquer resíduo posicionando-se o cursor sobre a barra do gráfico correspondente a esse resíduo. Se o usuário nao tiver definido uma conformação específica para o resíduo base, isto é, a opção "Secondary Structure Element" está marcada com "All", só serão mostradas a quantidade de contatos 3D para aquele resíduo e a porcentagem em relação ao total de contatos. Se ao invés da frequência de contatos 3D entre resíduos individuais, deseja-se apenas as classes às quais os resíduos pertencem, basta clicar na opção "Frequency for residue classes".

Calculando a Frequência de Contatos 3D na Interface Entre as Duas Subunidades
 

        Primeiro seleciona-se um grupo de arquivos pdb (ver Escolhendo o Grupo de Arquivos Pdb A Serem Processados), depois é só ir na coluna "Show 3D frequency graphic separated by chains" e clicar no arquivo pdb cuja frequência deseja-se calcular, ou clicar em "Total of 3D frequency by chains" para calcular-se a frequência para todos os arquivos pdb listados. Daí para frente, o processo é análogo ao cálculo da frequência total de contatos 3D (item anterior), qualquer dúvida consultar Calculando a frequência Total de Contatos 3D.
 

Calculando a frequência de resíduos dos Arquivos Listados
 

        O procedimento é semelhante ao utilizado nos dois itens anteriores, depois de selecionar um grupo de arquivos pdb para os cálculos (ver Escolhendo o Grupo de Arquivos Pdb A Serem Processados), basta ir na coluna "Show frequency graphic" e clicar na primeira subunidade (par de colchetes à esquerda) ou na segunda subunidade (par de colchetes à direita) de qualquer arquivo pdb da coluna para calcular a frequência de resíduos na primeira ou na segunda subunidade desse arquivo. Caso o usuário deseje determinar a frequência de resíduos em todos os arquivos pdb listados, basta clicar em "1st half", para calcular a frequência na primeira subunidade, ou clicar em "2nd half", para calcular a frequência na segunda subunidade.
        O resultado é exibido em forma de histograma, como no exemplo que se segue :

         Neste exemplo, "Aspartic Acid: 4.0" indica que há 4 ácidos aspárticos na subunidade HL do arquivo 1bql.pdb, e "13.7%" indica que isso representa 13.7% do total de resíduos dessa subunidade. Posicionando-se o cursor sobre qualquer barra do gráfico acima, será mostrada a quantidade exata do resíduo correspondente àquela barra e a porcentagem de ocorrências em relação aos demais resíduos, como no caso da glicina. Se ao invés da frequência de resíduos individuais, deseja-se apenas as classes às quais os resíduos pertencem, basta clicar na opção "Frequency for residue classes".