Speaker diarization and speech recognition in the semi-automatization of audio description : an exploratory study on future possibilities?

Delgado Flores, Héctor; Matamala, Anna; Serrano García, Javier

doi:10.5007/2175-7968.2015v35n2p308

Cita bibliográfica -- Enlace permanente: https://ddd.uab.cat/record/144880

Web of Science: 3 citas, Google Scholar: citas

Speaker diarization and speech recognition in the semi-automatization of audio description : an exploratory study on future possibilities?
Delgado Flores, Héctor (Universitat Autònoma de Barcelona)
Matamala, Anna

(Universitat Autònoma de Barcelona)
Serrano García, Javier 1964-

(Universitat Autònoma de Barcelona)

Título variante:	Diarización y reconocimiento de habla en la semiautomatización de la audiodescripción : un estudio exploratorio sobre posibilidades futuras
Fecha:	2015
Resumen:	This article presents an overview of the technological components used in the process of audio description, and suggests a new scenario in which speech recognition, machine translation, and text-to-speech, with the corresponding human revision, could be used to increase audio description provision. The article focuses on a process in which both speaker diarization and speech recognition are used in order to obtain a semi-automatic transcription of the audio description track. The technical process is presented and experimental results are summarized.
Resumen:	Este artículo presenta una visión panorámica de los componentes tecnológicos usados en el proceso de audiodescripción y propone un nuevo escenario en el que se aplicarían el reconocimiento de habla, la traducción automática y la síntesis de habla, con su correspondiente revisión humana, para incrementar la cantidad de audiodescripciones disponibles. El artículo describe un proceso en el que la diarización y el reconocimiento de habla permiten obtener una transcripción semiautomática de la audiodescripción. El artículo presenta detalladamente el proceso técnico así como un resumen de los resultados experimentales. - In a second language.
Derechos:	Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, fins i tot amb finalitats comercials, sempre i quan es reconegui l'autoria de l'obra original.
Lengua:	Anglès
Documento:	Article ; recerca ; Versió publicada
Materia:	Audio description ; Accessibility ; Speaker diarization ; Speech recognition ; Technology ; Audiodescripción ; Accesibilidad ; Diarización ; Reconocimiento de habla ; Tecnología
Publicado en:	Cadernos de Traduçao, Vol. 35, núm. 2 (2015) , p. 308-324, ISSN 2594-9055

DOI: 10.5007/2175-7968.2015v35n2p308

17 p, 323.3 KB

El registro aparece en las colecciones:
Documentos de investigación > Documentos de los grupos de investigación de la UAB > Centros y grupos de investigación (producción científica) > Artes y humanidades > TransMedia Catalonia
Artículos > Artículos de investigación
Artículos > Artículos publicados

Registro creado el 2015-12-21, última modificación el 2022-11-28

Registros similares

Añadir a la cesta personal
Exportar como Citation, BibTeX, MARC, MARCXML, DC, EDM OpenAire4