Tag Archives: voz

Método desarrollado en la UN mejora análisis de la voz.

 
Facebooktwittergoogle_plusmail
21 de Diciembre del 2012
Investigadores de la UN realizaron aportes tendientes a desarrollar un sistema con capacidad de inferir el movimiento de los articuladores de la voz de forma personalizada, un gran avance en esta área.
La inversión articulatoria es un campo dentro del procesamiento de señales de voz que tiene por objeto determinar la posición y el movimiento de los articuladores (ápice, cuerpo y dorso de la lengua, velo del paladar, labios superior e inferior, y mandíbula) a partir de los registros acústicos obtenidos mediante micrófonos.
Este aspecto representa un reto dentro del análisis de la voz porque en el mundo aún no se cuenta con un sistema que permita resolver esta tarea de forma satisfactoria.
Para tal fin, el proyecto del Doctorado en Ingeniería – Línea Automática, del investigador Franklin Alexander Sepúlveda de la Sede Manizales realizó dos importantes contribuciones.
La primera consiste en un método que permite la estimación de la posición de los articuladores críticos (por ejemplo los labios en el caso de las consonantes /p/, /b/ y /m/), con menor incertidumbre respecto a otras técnicas también desarrolladas recientemente.
En segunda instancia, con la inversión articulatoria que se desarrolla en la actualidad se obtienen modelos que funcionan de manera personal y sin la posibilidad de extrapolar el mismo modelo a otros hablantes; sin embargo, el método del ingeniero Sepúlveda permite estimar el movimiento de los articuladores críticos involucrados en la producción de fonemas como /f/, /v/ y /s/ en forma independiente del emisor, es decir, este sistema proporciona un patrón general.
A futuro, esta innovación podría aplicarse en campos como la medicina para mejorar las terapias de la voz, ya que al contar con un medio que permita a quien genera el registro observar el movimiento de sus propios articuladores al mismo tiempo que el especialista, dará mayores herramientas para tomar los correctivos necesarios.
De forma similar, la misma capacidad de observar la propia la actividad articulatoria podrá ser de utilidad para sistemas de aprendizaje de idiomas.
Asimismo, la tecnología de la inversión articulatoria podría mejorar el desempeño de los sistemas de traslación de voz a texto, en particular en aquellos ambientes ruidosos; igualmente, permitiría ahorrar recursos en los sistemas de telefonía debido a su potencial utilidad desde el punto de vista de codificación de la voz.
La primera contribución ha sido aceptada para publicación en la revista Speech Communication y la segunda se encuentra en proceso de publicación.
Créditos: http://www.agenciadenoticias.unal.edu.co/inicio.html
Se aplicaría en campos como la medicina para mejorar las terapias de la voz.

Se aplicaría en campos como la medicina para mejorar las terapias de la voz.

21 de Diciembre del 2012

Investigadores de la UN realizaron aportes tendientes a desarrollar un sistema con capacidad de inferir el movimiento de los articuladores de la voz de forma personalizada, un gran avance en esta área.

La inversión articulatoria es un campo dentro del procesamiento de señales de voz que tiene por objeto determinar la posición y el movimiento de los articuladores (ápice, cuerpo y dorso de la lengua, velo del paladar, labios superior e inferior, y mandíbula) a partir de los registros acústicos obtenidos mediante micrófonos.

Este aspecto representa un reto dentro del análisis de la voz porque en el mundo aún no se cuenta con un sistema que permita resolver esta tarea de forma satisfactoria.

Para tal fin, el proyecto del Doctorado en Ingeniería – Línea Automática, del investigador Franklin Alexander Sepúlveda de la Sede Manizales realizó dos importantes contribuciones.

La primera consiste en un método que permite la estimación de la posición de los articuladores críticos (por ejemplo los labios en el caso de las consonantes /p/, /b/ y /m/), con menor incertidumbre respecto a otras técnicas también desarrolladas recientemente.

En segunda instancia, con la inversión articulatoria que se desarrolla en la actualidad se obtienen modelos que funcionan de manera personal y sin la posibilidad de extrapolar el mismo modelo a otros hablantes; sin embargo, el método del ingeniero Sepúlveda permite estimar el movimiento de los articuladores críticos involucrados en la producción de fonemas como /f/, /v/ y /s/ en forma independiente del emisor, es decir, este sistema proporciona un patrón general.

A futuro, esta innovación podría aplicarse en campos como la medicina para mejorar las terapias de la voz, ya que al contar con un medio que permita a quien genera el registro observar el movimiento de sus propios articuladores al mismo tiempo que el especialista, dará mayores herramientas para tomar los correctivos necesarios.

De forma similar, la misma capacidad de observar la propia la actividad articulatoria podrá ser de utilidad para sistemas de aprendizaje de idiomas.

Asimismo, la tecnología de la inversión articulatoria podría mejorar el desempeño de los sistemas de traslación de voz a texto, en particular en aquellos ambientes ruidosos; igualmente, permitiría ahorrar recursos en los sistemas de telefonía debido a su potencial utilidad desde el punto de vista de codificación de la voz.

La primera contribución ha sido aceptada para publicación en la revista Speech Communication y la segunda se encuentra en proceso de publicación.

Créditos: http://www.agenciadenoticias.unal.edu.co/inicio.html

Presentarán nuevas aplicaciones para móviles creadas en la UNAM.

 
Facebooktwittergoogle_plusmail

Del 3 al 7 de septiembre se realizará, en el Auditorio Javier Barrios Sierra de la Facultad de Ingeniería, el Congreso Universitario Móvil Telcel 2012, que se calcula reunirá a 10 mil asistentes.
Del 3 al 7 de septiembre se realizará, en el Auditorio Javier Barrios Sierra de la Facultad de Ingeniería, el Congreso Universitario Móvil Telcel 2012, que se calcula reunirá a 10 mil asistentes.

2 de Septiembre del 2012

“Para crear las herramientas que requieren nuestros celulares debemos partir de un hecho: los teléfonos inteligentes no son tan inteligentes como nos han hecho creer”, comenta Alejandro García Romero, coordinador de UNAM Mobile, grupo conformado por jóvenes universitarios dedicado a desarrollar aplicaciones para dispositivos portátiles (apps), pero no a partir de copiar lo existente, sino de imaginar qué queda por hacer.

“¿Qué dirías si tu teléfono leyera tu Facebook o Twitter y, a partir de lo tecleado, te hiciera sugerencias? ¿O convirtiera tu cuarto en una galería de arte? ¿O alertara a tus familiares si estás en peligro? Ésas son apenas algunas de las apps que estamos por dar a conocer y que, creemos, cambiarán la manera de concebir estos productos”.

Hoy, UNAM Mobile es una agrupación reconocida que cada vez integra más gente a sus filas, aunque su nacimiento, hace siete años, se dio en condiciones improbables. “Se nos ocurrió crear una tienda de aplicaciones en un momento en que éstas no existían, y antes de que una empresa líder mundial lanzara el primer iPhone; para muchos, estos factores combinados eran garantía de fracaso, pero pese a esto nuestra primera experiencia fue exitosa”.

UNAM Mobile nació en 2005, año memorable para los aficionados nacionales al futbol, pues la Sub 17 ganaba para México su primer Mundial y el entusiasmo por este deporte cobraba nuevos bríos. “En ese entonces pusimos en el mercado nuestro primer programa para celulares, que permitía ver en video los mejores goles de la temporada. Inmediatamente recibimos apoyo de diversas compañías y de los usuarios. Habíamos hallado algo novedoso y así encontramos la clave para las aplicaciones que vendrían después: detectar un aspecto atractivo, pero no explotado, desarrollarlo y llevarlo a sus últimas consecuencias”.

Encuentros para replantear el futuro

La tecnología cambia a velocidades tan vertiginosas que es difícil pronosticar qué marcará tendencia; ejemplo de ello es que hace un par de años nadie sospechaba que la popularidad de las PC menguaría en favor de los celulares, y sin embargo esto sucedió, y de manera tan notoria que hoy las ganancias de Apple por uno sólo de sus aparatos, el iPhone, superan las obtenidas por todos los productos de Microsoft juntos.

“Esto nos da una idea del enorme campo que tenemos enfrente y evidencia la necesidad de promover desarrollos en ese terreno. Por eso estamos por inaugurar el Congreso Universitario Móvil Telcel 2012, que tendrá lugar del 3 al 7 de septiembre en el Auditorio Javier Barrios Sierra de la Facultad de Ingeniería; calculamos tener 10 mil asistentes”.

A lo largo de una semana, expertos, emprendedores y representantes de compañías transnacionales se reunirán con los visitantes para compartir experiencias y hablar de la importancia de las tecnologías de la información y cómo pueden ser comercializadas con éxito.

El equipo busca que el encuentro se convierta en un referente, como ya lo son Aldea Digital y Campus Party, “y creemos que lo lograremos, pues hasta ahora no había un punto de reunión para quienes se dedican al desarrollo de este tipo de programas. Es un espacio que apenas nace y que curiosamente también ha evolucionado vertiginosamente, como las nuevas tecnologías”.

Cambio de paradigmas

En 1973, en la ciudad de Nueva York, un hombre estuvo a punto de ser atropellado por hablar a través de una extraña caja y no poner atención al tránsito ni a los semáforos; su nombre era Martin Cooper y en estas accidentadas circunstancias hacía la primera llamada por celular de la historia. Poco después, diría que siempre supo que su invento provocaría impacto, aunque por distracción éste casi fue contra un automóvil.

“La gente quiere hablar con más gente, no con una casa o una oficina. Si tuvieran oportunidad, pedirían libertad de comunicarse donde fuese, sin depender del infame cable de cobre, y justo eso era lo que buscábamos en los 70”, señaló el fundador de ArrayComm.

A sus 84 años, Cooper es de los pocos que han visto sus vaticinios hechos realidad, pues según el Banco Mundial, hoy tres cuartas partes de la humanidad tienen acceso a un móvil. En México, hay 63 millones de celulares, y de éstos, 23 millones son smartphones, lo que brinda una idea de lo amplio del campo de trabajo en el país.

Para Cooper, la clave de la innovación es imaginar el futuro; de hecho, la idea de crear un teléfono sin hilos le vino tras ver los aparatos usados en el serial televisivo Star Trek, y García Romero es de opinión similar, pues señala que para destacar en una arena tan competida como la del desarrollo de apps es fundamental imaginar, desde hoy, el mañana.

“La comunicación humano-teléfono será por voz, rostro, patrones y realidad aumentada. A partir de esto hemos creado nuestras aplicaciones, algunas de las cuales daremos a conocer en el congreso”. El ingeniero añade que poner a consideración sus productos retroalimenta y que ponerse al día sobre lo que hacen los demás es igualmente enriquecedor.

“Debemos estar al pendiente de qué sale al mercado y cuáles son las nuevas plataformas. En otras palabras, requerimos centrar nuestra atención en todo lo que se hace en el área”, expone el ingeniero en sistemas, aunque aclara que hay que hacerlo sin dejar de voltear de vez en vez a nuestro costado, no vaya a ser que algún vehículo nos embista.

Pensar desde hoy el mañana

Transcurría el siglo XIX y Jules Verne escribía sobre automóviles, submarinos, dirigibles e incluso la Internet, y al ser interrogado sobre su capacidad de anticiparse a lo que traería la tecnología solía responder, “no tiene mérito alguno más que hablar, como si fueran reales, de cosas ya inventadas a medias”.

Las ideas del francés y las de UNAM Mobile no distan mucho, pues los jóvenes aseguran que su estrategia radica en analizar dispositivos móviles, detectar características no explotadas lo suficiente, y desarrollarlas al punto de hacerlas llegar a donde nadie más había intentado.

Como ejemplo, en el congreso presentarán diversas apps que, dicen, “serán un asomo al futuro, porque tener un aparato que quepa en la mano y al que podamos hablarle, reconozca nuestro rostro y se anticipe a nuestros deseos no es literatura de ficción, sino algo a la vuelta de la esquina”.

Una señal de auxilio

“Imagina que un temblor sacude al DF y estás en tu trabajo. Debes informar a familiares tu paradero y que estás bien, y sabes que en cuestión de minutos colapsará toda red de comunicación. Enviar mensajes de texto es muy tardado y marcar aún más, así que, ¿por qué no crear una app que en cinco segundos, lance una alerta y avise cuál es tu ubicación”.

Con este escenario en mente, UNAM Mobile diseñó una aplicación en la que, con tres clicks, se manda aviso a una lista previamente seleccionada tanto de la localización vía GPS como de si el afectado está o no en capacidad de moverse. Para demostrar el funcionamiento, García Romero toma su smartphone y muestra una pantalla con menús de opción múltiple en los que, con sólo rozar la pantalla, redacta inmediatamente: “Hola, me encuentro en peligro. Estoy en el trabajo. Me quedo aquí. Llámame”.

“Lo que hice fue, en segundos, estructurar un mensaje de máximo 140 caracteres que se envió a mis personas cercanas, con todo y plano de localización. La utilidad de este desarrollo es tanta que la Secretaría de Gobernación ha mostrado interés en usarlo en caso de siniestro”.

Rostros familiares

En el cuento “Aladino”, el protagonista frotaba una lámpara de la cual aparecía un genio dispuesto a conceder deseos. En el siglo XXI, la idea de un candil que satisfaga antojos suena obsoleta, para eso usamos los smartphones, “pero ¿y si tu teléfono pudiera anticiparse a tus anhelos sin necesidad de frotar la pantalla, por más touch que sea?”.

De entrada, cada dispositivo inteligente tiene una cámara frontal para videoconferencias, lo que es limitado porque podría usarse para muchas cosas más, como reconocer el rostro del usuario, explica García Romero.

A partir de esta idea, los universitarios han trabajado en una interfase que, al distinguir los rasgos faciales de una persona, se encienda, haga contacto con la agenda del usuario e incluso revise lo publicado en sus redes sociales para llevar un registro, todo sin necesidad de presionar un botón o de deslizar el dedo por la pantalla para desbloquear el aparato.

“Supongamos que vas a La Paz. Con sólo ver tu cara, la app sabrá que eres tú, te informará el clima en el lugar y el costo del viaje, y no sólo eso, imaginemos que en Facebook has posteado que quieres ver la nueva cinta de Woody Allen, el programa leerá esto, esperará la fecha de estreno para enviarte una alerta y te dirá cuál es la sala de cine más próxima a ti”.

García Romero señala que avances intuitivos como éste serán comunes, y no sólo en lo que se refiere a viajes y entretenimiento, sino en todos los ámbitos del quehacer humano, pues limitar la capacidad de cumplir deseos a tres, como en los cuentos de hadas, el día de hoy también suena demasiado obsoleto.

Reconocimiento de patrones

Probablemente la Biblioteca Central sea el edificio más emblemático de CU y, al mismo tiempo, uno de los menos comprendidos por la multiplicidad de imágenes que adornan sus cuatro muros.

“Al plantarnos frente al edificio no hay duda de qué estamos ante una obra de arte, ¿pero qué nos quiere decir? Para saberlo es posible aprovechar la capacidad de estos dispositivos para reconocer formas, apuntar el aparato al inmueble y ver qué está ahí representado”.

Ésta será otra de las aplicaciones a presentarse, pues durante los últimos meses UNAM Mobile se ha dedicado a perfeccionar una aplicación que narrará, paso a paso, lo que Juan O’Gorman plasmó en esta edificación, desde el muro norte, correspondiente a la época prehispánica, hasta el poniente, en el que buscó escenificar el presente de la vida en México.

“Así, nuestro dispositivo nos hablará de Ptolomeo y Copérnico, de los movimientos sociales mexicanos e incluso de nuestra universidad. Es una forma de hacer realidad lo que se propuso el artista, aunque él nunca soñara con la posibilidad de que un mural cupiera en nuestros bolsillos”.

Realidad aumentada

El año pasado, Mark Lugo fue apresado en EU por robar seis obras de arte, entre las que se incluían un Picasso y un Basquiat, aunque el hurto no fue para lucrar con ellas, sino para exhibirlas en su departamento neoyorquino.

Al respecto, García Romero se preguntó, ¿quién no ha soñado con tener en casa una galería y disfrutar en los muros domésticos cuadros de Klimt, Monet o Miró? Seguramente todos, y para ello no es necesario delinquir.

Como una manera de complacer a los amantes de la plástica, UNAM Mobile diseñó una aplicación capaz de reconocer las dimensiones de una habitación y, virtualmente, añadirle pinturas, cada una con vínculos que conducen a mayor información sobre la pieza y el autor.

“Tener un museo en casa es una fantasía que dentro de pronto será posible”, explicó el ingeniero, quien sabe que mientras muchos usuarios esperan la aparición de una aplicación con estas características, Mark Lugo aguarda algo muy distinto: una condena de 22 años de prisión.

Reconocimiento de voz

La mayor novedad del iPhone 4s es la inclusión de Siri, un asistente personal capaz de entender lo que le dice el usuario y actuar en consecuencia; sin embargo, esta modalidad no puede ser manipulada por un programador y, por lo tanto, resulta limitada.

Hoy, esta función comete errores, malinterpreta palabras y suscita bromas que circulan por Internet; sin embargo, se perfecciona constantemente y este tipo de tecnología resultará, en breve, sumamente útil no sólo para un conductor, sino para invidentes, por dar tan sólo un par de ejemplos.

“El problema es que se trata de un entorno cerrado ¿y qué pasa si, como desarrollador, quieres crear una aplicación que funcione con órdenes verbales? Debes crear los motores lingüísticos, de reconocimiento y de procesamiento de señales desde la nada. Eso es lo que hacemos ahora”.

Para García Romero está claro que “el teléfono debe entender todo lo que le ordenes, por ello desarrollamos una plataforma propia que presentaremos en su primera etapa. El objetivo es perfeccionarla para que la UNAM tenga una base sobre la cual trabajar reconocimiento de voz, área en la que, aunque suene a juego de palabras, aún resta mucho por decir”.

Boletín UNAM-DGCS-541
Ciudad Universitaria.

Disfonía ocupacional, problema de salud común en los docentes

 
Facebooktwittergoogle_plusmail

Los riesgos de patología vocal han sido asociados al uso de la voz en ambientes ruidosos, en condiciones de estrés o en circunstancias no favorables.
Los riesgos de patología vocal han sido asociados al uso de la voz en ambientes ruidosos, en condiciones de estrés o en circunstancias no favorables.

15 de Agosto de 2012

Un estudio con profesores de la UN evidenció las dificultades que afrontan para dictar clases cuando padecen disfonía, por causa del sobreesfuerzo que deben hacer con sus voces.

La pesquisa la adelantó Lady Catherine Cantor, de la Maestría en Salud y Seguridad en el Trabajo. Ella estableció que la disfonía constituye uno de los problemas de salud más extendidos en el personal docente y que más los perjudica, pero es poco estudiado en el país.

Y es que las largas jornadas de enseñanza les implican a los profesores horas y horas de uso de la voz. Así, encontró, por ejemplo, que entre las personas evaluadas existe una carga laboral que abarca un rango entre dos y quince horas diarias de clase, con un promedio de cuatro horas al día, aunque hay profes cuya carga no es uniforme durante la semana.

Dentro de los principales resultados halló que, de los 38 docentes evaluados, la mayoría reportó exposición a ruido y el 39,5% presentó problema vocal en alguno de los aspectos medidos por la escala GRABS  (índice de severidad de la disfonía). Además, el 42,1% manifestó tener antecedentes de problemas comunicativos y de alergias. Incluso, un porcentaje considerable reportó conductas nocivas para el cuidado de la voz, como ingesta de café, de bebidas cítricas, carraspeo y gritar con frecuencia.

Por otra parte, los docentes evaluados expresaron que, en promedio, tenían entre 12 y 98 estudiantes en actividades de cátedra, siendo la media unos 30 asistentes a clase. Adicionalmente, el 10,5% consideró estar expuesto a sustancias químicas (medicamentos) en su trabajo; el 18,4% afirmó que su lugar de trabajo es más frío o más caliente que el ambiente externo; el 47,4% dijo estar expuesto a polvos en su ambiente laboral; y, finalmente, el 89,5% indicó estar expuesto a ruido, lo que les implica alzar la voz para hacerse escuchar.

Sobre este último aspecto, Lady Catherine les preguntó a los profesores sobre su percepción de la necesidad de incrementar el volumen de la voz durante el desarrollo de las clases para mantener atento al grupo o con otros fines académicos. El 94,7% contestó que sí debe subir el volumen en algún momento, mientras que el 5,3% restante aseguró que no.

Como antecedentes de este trabajo, se destaca un estudio llevado a cabo con 240 profesores del departamento de Risaralda. En este se encontró que el 2,96% había presentado patología vocal, lo que posicionó a esta afección en el octavo lugar del listado de enfermedades profesionales. Además, el 9% calificó el ruido como un factor de riesgo (lo que lo ubicó en el segundo lugar).

Por el impacto que tiene la voz en la identidad personal, la expresión de las emociones, la comunicación con los demás y, en el caso de los profesores, en el desarrollo de sus labores profesionales, la magíster explica que es fundamental hacer un análisis fonoergonómico de la disfonía que permita ampliar en el futuro el campo de estudio, la reflexión y la acción del individuo, para intervenir aquellas causas externas que influyen directamente en su producción vocal.

Este tipo de estudios pueden repetirse en otros contextos, como en colegios o escuelas, en donde los profesores sufren por la precariedad de los espacios físicos en los que desarrollan su actividad. No poner atención a estos problemas ocupacionales puntuales redundará en más dificultades para el normal desarrollo de la actividad educativa de los profesores.

Créditos: agenciadenoticias.unal.edu.co