Análisis y cotejamiento de emisiones lingüísticas en  
idiomas inglés-español con el sistema AVIS+F para  
identificar hechos delictivos  
Analysis and comparison of linguistic emissions in English-  
Spanish languages with the AVIS+F system to identify criminal acts  
Carlos Francisco Osorio Vega1  
Roberth Smith Talavera Ayala2  
Christian Fabián Carrazco Cali3  
Recibido: 5 de marzo de 2021  
Aceptado: 20 de mayo de 2021  
Publicado: 28 de junio de 2021  
Resumen  
El análisis y cotejamiento de las emisiones lingüísticas es una de las experticias más importantes den-  
tro del campo criminalístico ya que permite identificar de manera indubitable la identidad de una per-  
sona por medio de su voz (huella vocal). La presente investigación conlleva a la obtención de resulta-  
dos fehacientes y técnicamente demostrables. Dicho análisis se realiza aplicando, primero, el método  
auditivo mediante el cual el perito escucha los archivos de audio. Posterior a esto, se aplica el método  
instrumental en la cual la técnica es la comparación espectrográfica de formantes. El trabajo desplega-  
do en el presente proyecto, de índole técnico, amerita la utilización de equipos forenses especializados  
para la obtención de los resultados esperados. De este modo, se emite una conclusión determinante en  
lo que respecta a la identificación de una persona a través de su voz.  
Palabras claves: análisis, comparación, cotejamiento, determinante, formantes, método, fonación  
Abstract  
e analysis and comparison of linguistic emissions is one of the most important expertise within the  
criminalistics field,since it allows us to undoubtedly identify the identity of a person through their voice  
(voice print).e present investigation in itself leads us to obtain reliable and technically demonstrable  
results. For the analysis and comparison of linguistic emissions, an objective methodology is applied,  
likewise the auditory method is used by which the expert listens to the audio files and after this the  
instrumental method is applied where the technique is the spectrographic comparison of formants.e  
1
2
3
Teniente de la Policía Nacional del Ecuador, ingeniero en Informática y Ciencias de la Computación, carlos.osorio@policia.gob.ec  
Sargento Primero de la Policía Nacional del Ecuador, tecnólogo en Criminalística, rstalavera@hotmail.com  
Cabo Primero de la Policía Nacional del Ecuador, tecnólogo en Criminalística, christian.carrazco@hotmail.com  
61  
ISTPN, Revista de Investigación en Seguridad Ciudadana y Orden Público  
Nº 2 junio 2021 • pp 61-67 • ISSN 2528-8032  
Análisis y cotejamiento de emisiones lingüísticas en idiomas inglés-español  
con el sistema AVIS+F para identificar hechos delictivos  
Carlos Francisco Osorio Vega, Roberth Smith Talavera Ayala  
y Christian Fabián Carrazco Cali  
work carried out within this investigative project Multimodal de Identificación de Voz e Imagen  
is technical, which warrants the use of specialized Facial (AVIS+F) mediante el software SIS II, se  
forensic teams to obtain the expected results realiza el análisis espectral del sonido, demos-  
and thus be able to issue a decisive conclusion trando de una manera técnica la identidad de  
regarding the identification of a person through una persona mediante su voz. Para lograrlo, el  
their voice.  
perito debe seguir un proceso minucioso desde  
el momento que obtiene la evidencia y hasta el  
instante que expone sus conclusiones. Si omite  
algún paso los resultados obtenidos no tendrán  
validez técnica. Por tal razón, el experto debe  
obtener los doce espectrogramas resultantes de  
los fonemas vocálicos de los archivos dubitado e  
indubitado para tener la certeza de que se trata  
de la misma persona.  
Las pericias de análisis y cotejamiento de  
voces en los últimos años han sido muy impor-  
tantes para los administradores de justica ya que  
les permite tener elementos de convicción para  
dictaminar sus sentencias. En consecuencia, los  
peritos requieren la actualización permanente  
para elevar sus conocimientos y que su aplicación  
sea satisfactoria ante cualquier evento delictivo.  
Es necesario que los peritos conozcan el alcance  
de los equipos forenses que se utilizan para este  
tipo de pericias.  
Keywords: Analysis, comparison, collation, de-  
terminant, formants, method, phonation  
Introducción  
Con el avance de las tecnologías digitales (telé-  
fonos celulares, redes sociales) han proliferado  
las actividades delincuenciales que utilizan estos  
medios para perpetrar amenazas, extorsiones, se-  
cuestros y otros delitos. Para la administración  
de justicia es fundamental la identificación de las  
personas que realizan este tipo de actos atenta-  
torios. No obstante, existen personas que come-  
ten actos ilícitos empleando el idioma inglés para  
comunicarse, pero, al momento de ser investi-  
gados emplean el idioma español para así con-  
fundir a los administradores de justicia y evadir  
responsabilidades.  
Metodología  
Dentro del trabajo técnico científico que  
realiza la Dirección Nacional de Investigación  
Técnica Científica de la Policía Nacional del  
Ecuador (Dinitec), no ha existido, aún, un ante-  
cedente de análisis y cotejamiento de voz de una  
misma persona que domina dos idiomas diferen-  
tes, inglés-español. Es por ello que, la presente  
investigación implementa el cotejamiento de  
voces en los idiomas inglés-español, aplicando el  
método auditivo y espectrográfico para la identi-  
ficación de interlocutores y considerando ciertos  
factores importantes que intervienen en este tipo  
de cotejos. Se debe tener en cuenta que el análisis  
auditivo de un archivo de audio es imprescindible,  
ya que por medio del oído el perito detecta ciertas  
características importantes de la voz como el  
tono, el timbre, la intensidad, la rapidez y otros.  
Estos aspectos hacen que la voz de una persona  
sea única.  
El objetivo de este estudio es realizar el análisis  
y cotejamiento de emisiones lingüísticas en los  
idiomas inglés-español con el sistema AVIS+F el  
cual se apoya en el método científico a partir de la  
experimentación controlada, la identificación de  
las características de la voz y la búsqueda de ge-  
neralizaciones por medio de la técnica de la en-  
trevista para obtener las muestras biométricas de  
voz (elementos indubitados). Esto se realiza en  
un ambiente controlado y con los equipos técni-  
cos acordes que permitan receptar una muestra  
de voz óptima. Posteriormente, se aplica el méto-  
do auditivo y de comparación espectrográfica de  
formantes. Abordados los principales parámetros  
de la metodología es necesario tener en cuenta las  
siguientes definiciones:  
Sonido  
El análisis instrumental es el complemento  
del análisis auditivo ya que con la utilización  
de las herramientas del Sistema Biométrico  
Sensación producida en el órgano del oído por  
medio de los movimientos vibratorios de los  
62  
ISTPN, Revista de Investigación en Seguridad Ciudadana y Orden Público  
Nº 2 junio 2021 • pp 61-67 • ISSN 2528-8032  
Análisis y cotejamiento de emisiones lingüísticas en idiomas inglés-español  
con el sistema AVIS+F para identificar hechos delictivos  
Carlos Francisco Osorio Vega, Roberth Smith Talavera Ayala  
y Christian Fabián Carrazco Cali  
cuerpos, transmitido por un medio elástico co-  
Voz  
4
mo el aire.  
Es el resultado de la función que realiza el con-  
junto de órganos del cuerpo humano, conocido  
Frecuencia  
9
como aparato fonador.  
Número de oscilaciones o variaciones de la presión  
por segundo. La frecuencia es una magnitud  
objetiva y mensurable referida a formas de onda  
periódicas.Tiene que ver con el número de ciclos  
por segundo que tiene que dar la onda e indican-  
Producción de la voz  
La voz humana es producida en la laringe cuya  
parte esencial, la glotis, constituye el verdadero  
órgano de fonación humano. El aire procedente  
de los pulmones es forzado durante la espiración  
a través de la glotis haciendo vibrar los dos pa-  
res de cuerdas vocales las cuales se asemejan a dos  
lengüetas dobles membranáceas. Las cavidades  
de la cabeza, relacionadas con el sistema respira-  
5
do la idea de rapidez con que se producen.  
Amplitud  
El sonido se mueve a través del aire en forma de  
ondas. La amplitud es la distancia entre el punto  
más alto y el más bajo de una onda. La amplitud  
del sonido es la intensidad (lo que comúnmente  
10  
torio y nasofaríngeo, actúan como resonadores.  
6
llamamos “el volumen”).  
Fonología y fonética  
La fonología es el estudio de los sonidos de la  
lengua en cuanto a su carácter simbólico o de re-  
presentación mental. Por su parte, la fonética se  
refiere a los sonidos en el habla lo cual incluye su  
producción acústica y los procesos físicos y fisio-  
Tiempo  
El tiempo es una dimensión que puede referirse a  
un momento determinado, una época o estación  
del año, incluso, al clima de un lugar en relación  
11  
7
lógicos de emisión y articulación involucrados.  
al estado atmosférico.  
La transcripción del idioma inglés es la  
representación sistemática de una forma oral me-  
diante signos escritos. Una transcripción es una  
adaptación mediante caracteres gráficos de una  
expresión de otra lengua o de un habla peculiar  
no estándar usando la ortografía y convenciones  
gráficas de una lengua o la lengua estándar. Es  
decir, la transcripción trata de representar fiel-  
mente los sonidos de una lengua con la ortografía  
de otra lengua.  
Aparato fonador  
Conjunto de órganos del cuerpo humano encarga-  
do de generar y ampliar el sonido que se produce al  
hablar. El aparato fonador está conformado por los  
órganos de respiración, fonación y articulación. Se  
debe tomar en cuenta que el sonido puede salir por  
8
dos vías tanto por vía oral o por vía nasal.  
La principal función del AVIS+F es la  
identificación de locutores a través de su voz la  
cual permite realizar el análisis y cotejamiento de  
emisiones lingüísticas mediante la utilización del  
software SIS II.  
4
5
6
7
8
Significados, Qué es el Sonido?, https://www.significados.  
com/sonido/  
P. W. López, La frecuencia. https://es.slideshare.net/pattrilo-  
pezulloa/frecuencia-patt  
S. García Gago, Amplitud, (2018), https://www.analfatecni-  
cos.net/pregunta.php?id=5  
9
nol/musica/vohues/vohues.html  
com/tiempo/significados.com  
10 Ibíd.  
Diccionario Actual, El aparato fonado, (2018), https://diccio-  
11 Concepto Definición, Fonología, (2021), https://concepto-  
narioactual.com/aparato-fonador/  
definicion.de/fonologia/  
63  
ISTPN, Revista de Investigación en Seguridad Ciudadana y Orden Público  
Nº 2 junio 2021 • pp 61-67 • ISSN 2528-8032  
Análisis y cotejamiento de emisiones lingüísticas en idiomas inglés-español  
con el sistema AVIS+F para identificar hechos delictivos  
Carlos Francisco Osorio Vega, Roberth Smith Talavera Ayala  
y Christian Fabián Carrazco Cali  
tiempo (eje horizontal). En este método el ex-  
perto (perito) analiza y compara de manera visual  
los espectrogramas resultantes de las muestras  
dubitadas e indubitadas. Para ello se vale de cua-  
tro formantes en las cuales las dos primeras van  
a representar el fonema vocálico que está siendo  
comparado, mientras que la tercera y cuarta for-  
mante indican de manera indubitable la identi-  
dad de las personas a partir de las características  
únicas de la voz. Se debe tener en cuenta que el  
software forense (SIS II) que permite visualizar  
los espectrogramas de manera dinámica se basa  
en la aplicación de la transformada de Fourier.  
Transformada de Fourier  
La transformada de Fourier es un análisis fre-  
cuencial de las señales. Es la suma de ondas sim-  
ples mediante la aplicación de una fórmula ma-  
temática que descompone la frecuencia de un  
sonido en relaciona a la amplitud y el tiempo lo  
cual permite ubicar todas las ondas simples en un  
gráfico. Es decir, permite distribuir en función de  
la frecuencia la energía o la potencia de una señal  
12  
dando por resultado el espectro.  
Cotejamiento de voces  
Es el análisis técnico científico mediante el cual se  
compara una voz conocida con una voz descono-  
cida, como una tentativa de determinar la identi-  
dad de la persona mediante su voz o, quizás, como  
medio para eliminar la voz de una persona como  
sospechoso de algún acto ilícito. Esto implica el  
estudio de la frecuencia, tiempo y amplitud de un  
Gráfico 1  
Espectrograma resultante obtenido del software  
SIS II perteneciente al sistema AVIS+F  
13  
espectrograma (la huella vocal).  
Método de análisis auditivo  
En este método el experto escucha los archivos  
(al oído) para determinar ciertas características  
del archivo de audio como son el sexo del locu-  
tor, la altura de la voz, caracteres generales del so-  
nido de la voz, fuerza, entonación, tiempo, ritmo,  
articulación, intermitencia del habla, maneras del  
lenguaje, pausas de vacilación, trastornos del len-  
guaje, respiración verbal y respiración del habla.  
Con el fin de familiarizarse con la voz y sus carac-  
terísticas es aconsejable realizar este análisis una  
y otra vez.  
Fuente: sistema AVIS+F, software SIS II  
Elaboración: por los autores.  
Espectrogramas resultantes de la  
comparación espectrográfica de  
formantes  
Para demostrar la validez del análisis mencionado  
se realiza a continuación el cotejamiento de voces  
de los idiomas inglés/español aplicando el méto-  
do auditivo y de comparación espectrográfica de  
formantes y utilizando el sistema AVIS+F y sus  
componentes.  
Método de comparación  
espectrográfica de formantes  
El espectrograma es la representación de las va-  
riaciones de la frecuencia (eje vertical) y amplitud  
(nivel de grises) de la señal sonora a lo largo del  
12 Marco Martínez (12 de mayo de 2021). ¿Qué es la transfor-  
mada de Fourier y para qué sirve? Obtenido de www.nobbot.  
formada-de-fourier-y-para-que-sirve/  
13 Cicres, J. (2014). Cotejamiento de Voces. Obtenido de scielo.co-  
64  
ISTPN, Revista de Investigación en Seguridad Ciudadana y Orden Público  
Nº 2 junio 2021 • pp 61-67 • ISSN 2528-8032  
Análisis y cotejamiento de emisiones lingüísticas en idiomas inglés-español  
con el sistema AVIS+F para identificar hechos delictivos  
Carlos Francisco Osorio Vega, Roberth Smith Talavera Ayala  
y Christian Fabián Carrazco Cali  
Método espectrográfico de formantes  
Tabla 1  
Características de la voz  
El resultado obtenido del análisis visual de los es-  
pectrogramas resultantes de los archivos de audio  
es el siguiente: dubitado en el idioma inglés e in-  
dubitado en el idioma español.  
Parámetro  
Evidencia  
Archivo indubitado  
Voz  
Resultado  
Archivo dubitado 1 (inglés)  
Muestra de voz 1 (español)  
Masculina  
Gráfico 2  
Intensidad  
Fuerte  
Espectrogramas de los resultados obtenidos de un  
cotejamiento realizado en el software SIS II del  
sistema AVIS+F  
Tono o frecuencia de la  
Grave  
voz  
Respiración  
Ritmo  
Normal  
Normal  
Normal  
Articulación, cómo el ser  
humano produce los soni-  
dos del habla  
Fuente: análisis auditivo.  
Existe coincidencia espectrográ-  
fica entre el fonema en idioma  
Existe coincidencia espectrográ-  
fica entre el fonema en idioma  
Elaboración: por los autores.  
inglés “ai” y el fonema en español inglés “disaired” y el fonema en  
“natural”.  
español “natural”.  
Carácter simbólico  
Existe coincidencia espectrográ-  
fica entre el fonema en idioma  
inglés “taim” y el fonema en  
español “natural”.  
Existe coincidencia espectrográ-  
fica entre el fonema en idioma  
inglés “dat” y el fonema en  
español “natural”.  
Transcripción del archivo dubitado 1  
(inglés)  
Tiempo: 00:00:51  
P1:Co mi Andrés Son yer ego ai disaired it was taim  
tu go bak tode si yes ai niret tu dere go of de erdly  
guorris dat brought mai enger and pein and bi en in  
de guarer uonsmor livin on de land wos estarting to  
teik to teik its to on mi der guer iven tai olmos jad to  
stop fairing songuan on de stret den laik meni men  
in de past ai uon egein turd toweird de si olso der it  
te caind of magi in de werer and it can bi sin iven  
de works al reires artis ad not going to explor dis gie  
and de seint tat wil at o at som point aurselvs guosh  
aut to si (fin de la transcription).  
Existe coincidencia espectrográ-  
fica entre el fonema en idioma  
inglés “land” y el fonema en  
español “natural”.  
Existe coincidencia espectrográ-  
fica entre el fonema en idioma  
inglés “disaired” y el fonema en  
español “naturaleza”.  
Existe coincidencia espectrográ- Existe coincidencia espectrográ-  
fica entre el fonema en idioma  
inglés “yes” y el fonema en  
español “naturaleza”.  
fica entre el fonema en idioma  
inglés “niret” y el fonema en  
español “naturaleza”.  
Método de análisis auditivo  
Luego de realizar el análisis auditivo (escuchar e  
identificar el contenido de las grabaciones de au-  
dio) se considera que existe similitud en la voz  
masculina signada como persona 1 (P1) en la  
transcripción del archivo dubitado 1 (inglés) con  
la muestra de voz 1 (español) que fue otorgada de  
manera libre y voluntaria.  
Existe coincidencia espectrográ-  
fica entre el fonema en idioma  
inglés “de” y el fonema en  
español “naturaleza”.  
Existe coincidencia espectrográ-  
fica entre el fonema en idioma  
inglés “pein” y el fonema en  
español “naturaleza”.  
65  
ISTPN, Revista de Investigación en Seguridad Ciudadana y Orden Público  
Nº 2 junio 2021 • pp 61-67 • ISSN 2528-8032  
Análisis y cotejamiento de emisiones lingüísticas en idiomas inglés-español  
con el sistema AVIS+F para identificar hechos delictivos  
Carlos Francisco Osorio Vega, Roberth Smith Talavera Ayala  
y Christian Fabián Carrazco Cali  
y realiza una identificación automática, aplicando  
un análisis estadístico de las características de la  
voz obtenidas por el sistema; para lo cual utiliza  
fórmulas matemáticas basadas en la transformada  
de Fourier.  
Existe coincidencia espec-  
trográfica entre el fonema en  
Existe coincidencia espectrográ-  
fica entre el fonema en idioma  
El análisis y cotejamiento de voces está for-  
mado por la aplicación del método auditivo y este  
es complementado con la utilización del método  
de comparación espectrográfica de formantes,  
el cual consiste en un análisis visual y auditivo  
de las emisiones lingüísticas de una persona,  
específicamente de fonemas vocálicos. Luego de  
realizar dicho análisis,y de considerar lo expuesto,  
se demuestra que si es posible realizar un análisis  
y cotejamiento de emisiones lingüísticas en idio-  
mas inglés-español con el sistema AVIS+F ya que  
el sistema permite la visualización de fonemas  
vocálicos, los cuales son procesados por el oído  
humano, al considerar la pronunciación de cada  
persona en un idioma determinado.  
idioma inglés “bi” y el fonema en inglés “go” y el fonema en español  
español “garantizar”.  
“formación”.  
Fuente: sistema AVIS+F, software SIS II.  
Elaboración: por los autores.  
Luego de haber realizado el análisis auditivo y de  
comparación espectrográfica de formantes se de-  
termina que la voz masculina signada como per-  
sona 1 (P1), en la transcripción del archivo dubi-  
tado 1 en el idioma inglés, corresponde auditiva  
y espectrográficamente con la muestra biométri-  
ca de voz 1 archivo indubitado en idioma español,  
otorgada de manera libre y voluntaria, es decir, se  
trata de la misma persona.  
Discusión  
Conclusiones  
En la Jefatura Zonal de Criminalística no exis-  
te un antecedente en el que se haya realizado un  
análisis y cotejamiento de emisiones lingüísticas  
en idiomas inglés-español con el sistema AVIS+F.  
Esto motivó a realizar la presente investigación  
considerando que el idioma inglés es una las len-  
guas más habladas del mundo y que su ortogra-  
fía no es una guía segura para la pronunciación  
del mismo. La pronunciación del idioma inglés  
refleja la forma en la que la palabra es hablada  
y, por tanto, la manera en que una persona escu-  
cha esa palabra. De allí tenemos que la trascrip-  
ción es la representación sistemática de una for-  
ma oral mediante signos escritos. Por eso, cuando  
se realiza la transcripción se debe representar los  
sonidos con la ortografía de la otra lengua, es de-  
cir, se debe transcribir tal como se escucha en el  
idioma español.  
El sistema AVIS+F, mediante la estación  
IKAR-Lab, y con la utilización del software SIS  
II, realiza la identificación de locutores, ya que  
este software posibilita la visualización de las  
señales del sonido para su análisis. El archivo de  
audio a ser cargado debe cumplir con ciertos pa-  
rámetros técnicos: el software procesa los archivos  
Se realizó la toma de muestras biométricas de voz  
en un ambiente controlado, disminuyendo soni-  
dos externos (personas hablando, música, natu-  
raleza, transito, entre otros) y saturación de ban-  
da ancha (producidos por sistemas informáticos).  
Esto permitió la obtención de una muestra de voz  
adecuada para su análisis.  
Mediante la utilización del sistema AVIS+F y  
aplicación del método auditivo y de comparación  
espectrográfica de formantes, se identificó de  
manera técnica a una persona a través de su voz,  
la cual domina dos idiomas diferentes como son  
el inglés y español.  
La identificación de personas a través de la  
voz tiene un porcentaje del 98 % de efectividad,  
detrás de los análisis de ADN y de huellas dac-  
tilares, Pero, la voz de una persona es única y es  
considerada la huella vocal.  
66  
ISTPN, Revista de Investigación en Seguridad Ciudadana y Orden Público  
Nº 2 junio 2021 • pp 61-67 • ISSN 2528-8032  
Análisis y cotejamiento de emisiones lingüísticas en idiomas inglés-español  
con el sistema AVIS+F para identificar hechos delictivos  
Carlos Francisco Osorio Vega, Roberth Smith Talavera Ayala  
y Christian Fabián Carrazco Cali  
García Gago, S. Amplitud. analfatecnicos.net. ht-  
ta.php?id=5 (consultado el 9/9/2021).  
López, P. W. La frecuencia. es.slideshare.net. ht-  
tps://es.slideshare.net/pattrilopezu-  
lloa/frecuencia-patt (consultado el  
9/9/2021).  
Martínez, Marco. ¿Qué es la transformada de  
Fourier y para qué sirve? nobbot.com.  
cion/que-es-la-transformada-de-fou-  
rier-y-para-que-sirve/ (consultado el  
12/5/2021).  
Porporatto, M. El tiempo. quesignificado.com.  
(consultado el 9/9/2021).  
significados.com. Qué es el Sonido? significados.  
sonido/ (consultado el 9/9/2021).  
Referencias bibliográficas  
Asociación Española de Disfonia Espasmódica.  
Aparato fonador. Wikipedia.org. ht-  
tps://es.wikipedia.org/wiki/Aparato_  
fonador (consultado el 9/9/2021).  
acustica/espanol/musica/vohues/vo-  
hues.html (consultado el 9/9/2021).  
Cicres, J. Cotejamiento de voces. scielo.conicyt.  
cl.  
nos/v47n86/a02.pdf (consultado el  
9/9/2021).  
ConceptoDefinición. Fonología. conceptodefini-  
fonologia/ (consultado el 7/2/2021).  
Diccionario Actual. El aparato fonador. dicciona-  
tual.com/aparato-fonador/ (consulta-  
do el 9/9/2021).  
67  
ISTPN, Revista de Investigación en Seguridad Ciudadana y Orden Público  
Nº 2 junio 2021 • pp 61-67 • ISSN 2528-8032