mozilla common voice

Common Voice es un proyecto colaborativo de Mozilla para enseñar a las máquinas cómo hablamos los seres humanos. Y para ello estamos creando una base de datos de dominio público (CC-0) y multidioma, que cualquiera pueda usar. Además Mozilla esta creando un motor de reconocimiento de voz libre (licencia: MPL 2.0) llamado Deep Speech.

«Queremos dar la posibilidad a los desarrolladores de crear aplicaciones de reconocimiento de voz increíbles, como traductores a tiempo real o asistentes manejados por voz. Pero hoy en día, la mayoría de los datos de voz que se necesitan para desarrollar este tipo de aplicaciones son caros y privados.»

¿Cómo funciona?

Para seguir adelante con el proyecto, necesitamos ayuda en estos 3 pasos principalmente:

  1. Recopilar las frases que serán leídas.
  2. Si queremos enseñar a las máquinas necesitamos muestras de voz, y muchas; con todo tipo de acentos, tonos y dialectos. Es importante recalcar la necesidad de las voces femeninas, porque en la mayoría de los casos tienen una menor participación. Todo esto para que los servicios de reconocimiento de voz se puedan desenvolver bien con cualquier tipo voz y en cualquier situación.
  3. Luego tenemos que verificar que esas muestras de voz dicen lo que deberían o si es inteligible (el micro puede estar estropeado).

Finalmente, las que son correctas se añaden a la base de datos de Common Voice.

Más información acerca del funcionamiento.

Si te surgen dudas, puede que en la página de preguntas frecuentes encuentres lo que estas buscando. Si no; puedes leer, preguntar e interactuar en Discourse (foro) sobre las cuestiones que tengas y adentrarte un poco más en el proyecto.

Estado del proyecto

Mozilla Common Voice datasheet
Base de datos de Common Voice. Ahí pone 18 porque todavía no se han añadido todos los idiomas que están listos (los 28 que digo en el primer parrafo).

Por ahora, en total hay 28 idiomas listos para colaborar y 72 en proceso de preparación.

Sí hay muchos y si sabes un idioma que falta y quieres que esté puedes añadirlo tu mismx.

  • En esperanto tenemos 15 horas grabadas y 11 horas validadas.
  • En castellano tenemos 26 horas grabadas y 23 horas validadas.
  • En euskera tenemos 53 horas grabadas y 30 horas validadas.
  • En catalán tenemos 123 horas grabadas y 109 horas validadas.

Curioso.

Y entre todos los idiomas tenemos 2.500 horas grabadas y 2.000 validadas.

Progreso despues de un año Mozilla Common Voice
Progreso de las aportaciones mundiales a Common Voice.

El objetivo es tener 10.000 horas validadas porque «es aproximadamente el número de horas que se necesitan para formar un sistema de producción de voz a texto».

Puedes ayudar a Common Voice donando tu voz, validando grabaciones o recopilando las frases que serán leídas (que deben estar bajo dominio público, CC-0).

Mycroft AI

«Mycroft es un asistente virtual y navegador de conocimientos de software libre […]. Se dice que es, a nivel mundial, el primer asistente de IA de fuentes completamente abiertas.» Wikipedia.

Mycroft AI utilizará la base de datos de Common Voice para dar voz al asistente y reconocer automáticamente el habla.

Actualmente tienen en venta el asistente Mark 1, pero también puedes utilizarlo en tu Raspberry Pi o en tu distribución GNU/Linux (tiene hasta un Plasmoide para KDE Plasma).

Opinión

A mi personalmente me parece importante tener a nuestro alcance una base de datos libre y competente de reconocimiento de voz. Para no depender de las grandes tecnológicas (como Google, Siri de Apple, Amazon Alexa…), que se lucran con la voz que les donamos inconscientemente, y la información que esta genera cuando utilizamos, por ejemplo, los asistentes de voz de nuestro móvil. Estas empresas, no solo se enriquecen con esta información, también cooperan con gobiernos que luego la utilizan como herramienta de control social. Toda esta información sobre nuestros gustos, aficiones, preferencias, rutinas, círculos sociales, ideología política, geolocalización, nuestro estado anímico, etc. es esencial para la dominación psicológica que ejercen sobre nosotras.

También me gustaría recalcar que Common Voice, nos brinda la posibilidad de utilizar la tecnología utilizando nuestras lenguas minoritarias, al contrario que las alternativas privativas actuales, que las excluyen y dan prioridad a las lenguas más habladas.

Y vosotrxs, ¿que opinión tenéis acerca de este proyecto?

Deja una respuesta

avatar
  Suscribirse  
Notificarme las