Muchas veces al hablar un poco de BioInformática con muchos estudiantes de posgrado en ciencias químicas, la mayoría al momento de la platica gira la cabeza como intentado evadir la conversación, o mostrar su falta de conocimiento o poco interés sobre el tema. Aclaro no me siento ser un experto sobre Matlab y mucho menos sobre BioInformática.
Ala primera pregunta que me dirijo cuando me empiezo a sumergir en el tema es ¿Dónde encuentro Datos e información?, la segunda ¿Necesito saber Programar? Son dos preguntas principales que siempre nos invaden en el momento que nos interesamos en este fascinante mundo.
Hoy responderemos la primera interrogante ¿Dónde encontramos Datos e Información?
Casi el toda la información sobre el tema esta en ingles, muchas veces esto es una limitante muy importante, al hablar de bases de datos tengo hacer referencia al National Center for Biotechnology Information (NCBI). Para mas información pueden visitar
http://www.ncbi.nlm.nih.gov/genbank/
Ahora analizaremos un comando importante en Matlab que nos sirve para poder descargar los valores que necesitamos para practicar o procesar.
La sintaxis del comando es la siguiente
– Data = getgenbank('AccessionNumber', 'PropertyName',PropertyValue...)
– getgenbank(..., 'ToFile', ToFileValue)
– getgenbank(..., 'FileFormat', FileFormatValue)
– getgenbank(..., 'SequenceOnly', SequenceOnlyValue)
AccessionNumber: identificador único para cada secuencia.
ToFile: identificador de ubicación.
FileFormat: Especifica el formato del archivo.
SecuenceOnly: nos da la capacidad de controlar una o mas veces la secuencia. False o True
Ahora usare en comando getgenbank para descargar la secuencia del cromosoma 19 encargado de codificar el receptor de insulina.
S=getgenbank('M10051');
%lo guardamos en la variable S
Procederemos a mostrar los Dato que contiene nuestra variable S
>> S
S =
LocusName: 'HUMINSR'
LocusSequenceLength: '4723'
LocusNumberofStrands: ''
LocusTopology: 'linear'
LocusMoleculeType: 'mRNA'
LocusGenBankDivision: 'PRI'
LocusModificationDate: '06-JAN-1995'
Definition: [1x42 char]
Accession: 'M10051'
Version: 'M10051.1'
GI: '186439'
Project: []
DBLink: []
Keywords: 'insulin receptor; tyrosine kinase.'
Segment: []
Source: 'Homo sapiens (human)'
SourceOrganism: [4x65 char]
Reference: {[1x1 struct]}
Comment: [14x67 char]
Features: [51x74 char]
CDS: [1x1 struct]
Sequence: [1x4723 char]
SearchURL: [1x67 char]
RetrieveURL: [1x101 char]
Como ven el uso del comando getgenbank es muy útil y fácil de usar.
para que cada uno practique le dejo los siguientes códigos.
Espero sus comentarios
NC_000117 Chlamydia
NC_002179 Chlamydophila pneumoniae