Aug 05, 2023
Los 2 mejores softwares de dictado de 2023
El software de dictado facilita la navegación por su computadora y la comunicación
El software de dictado facilita la navegación por su computadora y la comunicación sin escribir una sola frase.
Esta flexibilidad es excelente si simplemente necesita un descanso de su teclado, pero es especialmente importante para las personas con trastornos del procesamiento del lenguaje o discapacidades físicas. Enviar un mensaje de texto rápido o escribir una nota puede ser difícil, o incluso totalmente inviable, si tiene una destreza manual limitada o dolor crónico, pero este tipo de software puede hacer que esas tareas sean relativamente sencillas.
Después de considerar 18 opciones, descubrimos que Apple Voice Control y Nuance Dragon Home 15 son más precisos, eficientes y utilizables que cualquier otra herramienta de dictado que hayamos probado.
Pero la tecnología detrás del software de dictado (también llamado software de voz a texto o de reconocimiento de voz) tiene algunas fallas. Estas aplicaciones tienen curvas de aprendizaje difíciles, y el sesgo inherente que los humanos programan en ellas significa que su precisión puede variar, especialmente para personas con varios acentos, sociolectos y dialectos como el inglés vernáculo afroamericano o impedimentos del habla. Aún así, para aquellos que pueden trabajar dentro de las limitaciones de la tecnología, nuestras selecciones son las mejores opciones disponibles para muchas personas que necesitan ayuda para usar una herramienta de procesamiento de texto.
Voice Control de Apple es más fácil de usar y produce transcripciones precisas con más frecuencia que la competencia. También ofrece un sólido centro de comando que hace que las correcciones sean muy sencillas.
El control por voz de Apple viene instalado con macOS, iOS y iPadOS, por lo que es gratis para cualquiera que tenga un dispositivo Apple. En nuestras pruebas, produjo transcripciones precisas la mayor parte del tiempo, especialmente para hablantes con acento estadounidense estándar. Las herramientas de la competencia de Google, Microsoft y Windows promediaron 15 puntos menos que el software de Apple en nuestras pruebas de precisión. Entre nuestro panel de evaluadores, a aquellos con destreza manual limitada les encantaron las funciones de tecnología de asistencia de Voice Control, que facilitaban la navegación por el sistema operativo y la edición de mensajes con las manos libres. Pero si bien la experiencia que brinda Voice Control fue la mejor que encontramos para los dispositivos Apple, a menudo malinterpretaba palabras o frases completas pronunciadas por evaluadores con acentos regionales o estadounidenses o impedimentos del habla como tartamudeo. Si bien se esperan tales problemas de precisión para el modelado de reconocimiento de voz que históricamente se ha basado en fuentes de datos homogéneas, otras herramientas (específicamente, Nuance Dragon Home 15, que está disponible solo para Windows) funcionaron un poco mejor en este sentido. La herramienta de Apple también puede retrasarse un poco si está ejecutando varios programas que requieren un uso intensivo del procesador a la vez, lo que, según nuestros panelistas, ralentiza su productividad.
Anuncio
Dragon Home 15 es la herramienta de dictado más precisa que probamos para cualquier sistema operativo, pero su alto precio es demasiado para tragar.
A $200, Nuance Dragon Home 15 es la herramienta de reconocimiento de voz más costosa que probamos, pero es la mejor opción para las personas que poseen PC con Windows. Al igual que con todos los software de dictado que probamos, usar Dragon Home implica una curva de aprendizaje al principio, pero el tutorial de Dragon hace un gran trabajo para ayudarlo a comenzar. Nuestro panelista con discapacidades de procesamiento del lenguaje dijo que Dragon Home fue una de las opciones de dictado más precisas que probaron, y las sólidas funciones de comando les permitieron navegar rápidamente por su máquina. Al igual que nuestra selección de Apple, Dragon Home tuvo problemas con varios dialectos estadounidenses y acentos internacionales; funcionó mejor para aquellos evaluadores con acentos estadounidenses "neutrales". También tuvo problemas para eliminar todo el ruido de fondo, aunque puede mitigar esos problemas usando un micrófono externo o auriculares. Aunque Dragon Home produjo las transcripciones más rápidas de todas las herramientas que probamos, esto no fue un resultado positivo absoluto: la mitad de nuestros panelistas dijeron que preferían transcripciones más lentas en tiempo real al método de transcripción oración por oración de Dragon Home porque encontraron sus pausas más largas. entre la aparición de oraciones en su pantalla para distraer.
Voice Control de Apple es más fácil de usar y produce transcripciones precisas con más frecuencia que la competencia. También ofrece un sólido centro de comando que hace que las correcciones sean muy sencillas.
Dragon Home 15 es la herramienta de dictado más precisa que probamos para cualquier sistema operativo, pero su alto precio es demasiado para tragar.
Como redactor sénior de Wirecutter, pasé cinco años cubriendo temas complejos, escribiendo artículos centrados en temas como pruebas de ADN de perros, anteojos que bloquean la luz azul, herramientas para darse de baja de correo electrónico y tácticas de manipulación tecnológica utilizadas por abusadores domésticos. Fui uno de los primeros en adoptar el software de dictado en los primeros años, con una versión mucho menos pulida del software Dragon de Nuance. Al igual que otras personas a las que entrevisté para esta guía, abandoné rápidamente el software debido a su bajo rendimiento y su difícil curva de aprendizaje. Desde entonces, ocasionalmente he usado herramientas de dictado y accesibilidad en mis dispositivos para enviar mensajes rápidos cuando mis manos están pegajosas por las golosinas horneadas o cubiertas con productos para el cabello de mi rutina matutina. Mientras escribía esta guía, dicté alrededor de un tercio del texto usando las herramientas que recomendamos.
Pero no soy alguien que dependa de las herramientas de dictado para comunicarse, así que consulté a una variedad de expertos en las comunidades de IA y discapacidad para comprender mejor el papel que desempeña este tipo de software para hacer que el mundo sea más accesible para las personas con discapacidad. Leí artículos y estudios revisados por pares, busqué en los foros de discapacidad que frecuento para obtener consejos sobre mi dolor crónico y solicité información de organizaciones afines para aprender qué es una excelente herramienta de dictado. Y repasé las últimas investigaciones en tecnología de IA y sesgo de reconocimiento de voz de Harvard Business Review, el Instituto de Inteligencia Artificial Centrado en el Ser Humano de la Universidad de Stanford y el Proyecto de Accesibilidad del Habla Urbana-Champaign de la Universidad de Illinois, entre otros.
También conversé con Meenakshi Das, defensora de la discapacidad e ingeniera de software en Microsoft, y Diego Mariscal, director ejecutivo de la aceleradora de empresas emergentes de fundadores discapacitados 2Gether-International, sobre las limitaciones de las herramientas de dictado para personas con diversas discapacidades. Hablé sobre la ética de la inteligencia artificial con el candidato a doctorado de la Universidad de Princeton, Sayash Kapoor. Asistí a una conferencia del asesor de Kapoor, Arvind Narayanan, PhD, titulada "Los límites del enfoque cuantitativo de la discriminación". Hablé con Christopher Manning, codirector del Instituto Stanford para la Inteligencia Artificial centrada en el ser humano de la Universidad de Stanford, sobre la evolución del software de dictado. Y consulté con la editora de cobertura de accesibilidad de Wirecutter, Claire Perlman, para garantizar que mi enfoque de esta guía siguiera siendo accesible, matizado y reflejando las necesidades de la comunidad de personas con discapacidad.
Por último, reuní un panel de prueba de nueve personas con diversos grados de experiencia en el uso de software de dictado, incluidas varias con discapacidades que van desde impedimentos del habla hasta destreza manual limitada y traumatismo cerebral grave. Nuestros evaluadores también informaron acentos que van desde el estadounidense "neutral" hasta el "vago" de Luisiana y el indio "perceptible".
La tecnología de asistencia, como las herramientas de voz a texto, puede ayudarlo a hacer de todo, desde enviar mensajes de texto con manos libres mientras conduce hasta escribir un trabajo sin siquiera tocar el teclado.
Escribimos esta guía con dos tipos de usuarios en mente: personas con discapacidades que dependen del software de dictado para comunicarse y personas con uso libre de sus manos que ocasionalmente usan estas herramientas cuando necesitan trabajar sin ataduras a su teclado. Sin embargo, nos enfocamos más en las personas con discapacidad porque el software de dictado puede servir mejor a esa población y, en última instancia, puede facilitarles el acceso al mundo y la comunicación.
Los usuarios con destreza manual limitada o nula, diferencias en las extremidades o problemas de procesamiento del lenguaje pueden encontrar útil el software de reconocimiento de voz porque les brinda la libertad de comunicarse en su entorno preferido. Por ejemplo, nuestros panelistas con problemas de aprendizaje dijeron que les gustaba divagar mentalmente o "descargar el cerebro" mientras usaban el software de reconocimiento de voz para completar proyectos, y sintieron menos presión para escribir todo perfectamente la primera vez.
Aún así, nuestro enfoque tenía límites: nos enfocamos en la capacidad de cada herramienta para integrarse y editar documentos de texto, en lugar de navegar verbalmente por una pantalla de computadora completa, que es una característica que algunas personas con parálisis cerebral, enfermedad de Parkinson, cuadriplejía y otras enfermedades neurológicas. necesitan discapacidades, especialmente si no tienen problemas para hablar y control motor limitado o nulo. Nuestras selecciones ofrecen algunas funciones de accesibilidad, como la navegación en cuadrícula, la edición de texto y los comandos de voz, que facilitan el uso de los dispositivos, pero no todos los que probaron el software para nosotros usaron esas funciones ampliamente, y la mayoría del software de reconocimiento de voz que consideramos carece estas opciones premium.
Además de la ausencia de funciones de accesibilidad, existen otros obstáculos potenciales para la utilidad de estos programas de software, como lo bien que funcionan con una variedad de acentos.
El software de reconocimiento de voz estuvo cada vez más disponible en las décadas de 1980 y 1990, con la introducción de máquinas de escribir parlantes para personas con baja visión, software comercial de reconocimiento de voz y procesamiento de llamadas por cobrar, según Christopher Manning, codirector del Instituto Stanford. para la Inteligencia Artificial Centrada en el Hombre. Pero "el reconocimiento de voz solía ser realmente horrible", dijo. "Si hablabas inglés-indio, las posibilidades de que [te entendiera] solían ser de cero; ahora no es tan malo".
Como descubrimos en nuestras pruebas, la definición de "malo" de un individuo puede variar ampliamente según su acento y su capacidad para hablar. Y nuestros expertos en inteligencia artificial acordaron que las limitaciones de la tecnología de procesamiento de lenguaje natural (NLP) que se usa en el software de dictado quedan al descubierto cuando se enfrentan a varios acentos, dialectos y patrones de habla de todo el mundo.
Sayash Kapoor, un candidato a doctorado de segundo año que estudia ética de la IA en la Universidad de Princeton, dijo que las herramientas de PNL a menudo se entrenan en sitios web como Reddit y Wikipedia, lo que las hace sesgadas contra los géneros marginados y las personas negras, indígenas y otras comunidades de color. El resultado final es que la mayoría del software de dictado funciona mejor con acentos canónicos, dijo Manning, como el inglés británico y americano. Nuestros expertos nos dijeron que algunas herramientas de conversión de voz a texto no cuentan con modelos detallados para diferentes dialectos y sociolectos, y mucho menos para la identidad de género, la raza y la ubicación geográfica.
De hecho, un estudio encontró que las herramientas de voz a texto de Amazon, Apple, Google, IBM y Microsoft exhibían "disparidades raciales sustanciales", ya que la tasa promedio de errores de palabras para los hablantes negros era casi el doble que la de los hablantes blancos. Esta limitación afecta no solo la facilidad con la que los hablantes pueden dictar su trabajo, sino también la eficacia con la que pueden corregir frases y dar comandos de formato, lo que marca la diferencia entre una experiencia de usuario fluida o dolorosa.
El sesgo inherente en las herramientas de reconocimiento de voz también se extiende a los impedimentos del habla. Wirecutter se acercó a varias personas con tartamudeo u otros tipos de discapacidades del habla y del lenguaje, como las que resultan de la parálisis cerebral o la enfermedad de Parkinson, para que se unieran a nuestro panel de evaluadores. Pero la mayoría se negó, citando un historial de malas experiencias con herramientas de dictado. La defensora de la discapacidad Meenakshi Das, que tartamudea, dijo que no usa ninguna herramienta de voz a texto porque se necesita más trabajo en toda la industria para que el software sea verdaderamente accesible. (Das es ingeniero de software en Microsoft, propietario de Nuance, la compañía que produce nuestra elección para PC con Windows).
Tanto Das como Kapoor han notado una tendencia de aceleradores que trabajan para cerrar la brecha de sesgo para las personas con acentos, impedimentos del habla y discapacidades de procesamiento del lenguaje para que esos grupos puedan usar herramientas de dictado. En octubre de 2022, por ejemplo, la Universidad de Illinois anunció una asociación con Amazon, Apple, Google, Meta, Microsoft y organizaciones sin fines de lucro en el Proyecto de Accesibilidad del Habla para mejorar el reconocimiento de voz para personas con discapacidades y diversos patrones de habla.
Pero hasta que lleguen las herramientas de voz a texto verdaderamente inclusivas, las personas en esos grupos desatendidos pueden consultar nuestros consejos sobre cómo aprovechar al máximo el software que está disponible actualmente.
Solicitamos información sobre las herramientas de voz a texto de nuestros expertos y leímos reseñas de software, estudios revisados por pares, foros de discapacidad y sitios web de organizaciones para aprender qué es lo que hace que una herramienta de dictado sea excelente.
Identificamos 18 paquetes de software de dictado y comparamos sus características, compatibilidad de plataforma, políticas de privacidad, precio y reseñas de terceros. Entre las funciones que buscamos se encontraban una amplia variedad de comandos de voz útiles, facilidad de navegación, la presencia de comandos y vocabulario personalizables, compatibilidad con varios idiomas y herramientas de sugerencias o tutoriales incorporados. Los programas que ocuparon los primeros lugares en nuestros criterios, que generalmente ofrecen una combinación de características sólidas y una amplia disponibilidad de plataforma, formaron parte de nuestra lista corta para la prueba:
De forma predeterminada, estas herramientas tenían la configuración de inglés estadounidense y rotamos el uso de cada herramienta durante un par de horas en nuestras computadoras y dispositivos móviles. Luego, calificamos su desempeño en precisión, facilidad de uso, velocidad, interferencia de ruido y compatibilidad de aplicaciones. Pusimos énfasis en las tasas de precisión, realizando una serie de pruebas de control para ver qué tan bien las herramientas de dictado reconocían muestras de 150 a 200 palabras de habla informal, la letra de la canción "No One" de Alicia Keys y la jerga científica de un compañero. -estudio de vacuna revisado. A partir de ahí, avanzamos las herramientas de dictado con las calificaciones más altas a nuestra ronda de pruebas de panel.
Nueve panelistas probaron a nuestros semifinalistas en el transcurso de tres semanas. Nuestro diverso grupo de evaluadores incluía personas con discapacidades que iban desde impedimentos del habla hasta destreza manual limitada y traumatismo cerebral grave. Ellos mismos reportaron acentos que van desde americano hasta catalán e indio. Todos los panelistas tenían diversos grados de experiencia previa con software de dictado.
Conozca a nuestros probadores:
Los panelistas enviaron mensajes de texto, redactaron correos electrónicos y codificaron software utilizando las diversas herramientas de voz a texto, luego de lo cual proporcionaron notas extensas sobre sus experiencias e identificaron qué herramientas se sentirían cómodos usando regularmente o comprando por su cuenta.
Para llegar a nuestras selecciones, combinamos las experiencias de los panelistas con los resultados de nuestra ronda de control, así como las recomendaciones de nuestros expertos.
Voice Control de Apple es más fácil de usar y produce transcripciones precisas con más frecuencia que la competencia. También ofrece un sólido centro de comando que hace que las correcciones sean muy sencillas.
Precio:gratisSistema operativo:macOS, iOS, iPadOSIdiomas soportados:De 21 a 64 idiomas, según la configuración, incluidos hindi, tailandés y varios dialectos de inglés e italiano.
Apple Voice Control es fácil de usar, supera a los principales competidores de Google, Microsoft y Nuance, y ofrece docenas de indicaciones de comando para una experiencia más fluida, una función especialmente útil para personas con destreza manual limitada. Debido a que Voice Control está profundamente integrado en el ecosistema de Apple, es más accesible que muchas de las otras herramientas que probamos. Está disponible de forma gratuita en macOS, iOS y iPadOS; puedes activarlo yendo aAjustes > Accesibilidad en su dispositivo preferido. Una vez que lo active, puede notar que funciona de manera similar a las funciones de Dictado y Siri en su teléfono. Eso es porque usan los mismos algoritmos de reconocimiento de voz. Esto significa que la curva de aprendizaje inherente a todas las herramientas de conversión de voz a texto es marginalmente menos difícil con Control de voz, especialmente si ha usado Dictado o Siri anteriormente, ya que ya están familiarizados con sus patrones de voz. (Si se pregunta en qué se diferencian Dictado y Control de voz, Dictado es una herramienta de voz a texto que omite las diversas funciones de accesibilidad y navegación de Control de voz).
En nuestras pruebas, el control por voz produjo rutinariamente transcripciones más precisas que la competencia, incluido Nuance Dragon Home 15 (nuestra elección para PC con Windows), escritura por voz de Google Docs y reconocimiento de voz de Windows. En nuestras pruebas de control, tuvo una precisión del 87 % con un habla informal y sin acento. Comparativamente, Dragon Home tuvo una precisión del 82 %, mientras que el reconocimiento de voz de Windows solo tuvo una precisión del 64 %. Google Docs Voice Typing funcionó a la par con Voice Control, pero falló al transcribir contracciones, jerga y símbolos con mucha más frecuencia. La mayoría de las herramientas que probamos, incluido Voice Control, fueron un 10 % menos precisas durante nuestras pruebas de control ricas en jerga que incluían palabras científicas de un estudio de inmunología. (Una excepción notable en este sentido fue Dragon Home, que no mostró una caída notable con un lenguaje más técnico).
La mitad de nuestros evaluadores acordaron que usarían Voice Control regularmente y que incluso pagarían por ello si confiaran en el software de dictado. Las palabras específicas que usaron para describir el software incluyeron "preciso", "bueno" e "impresionante". Aun así, nuestras pruebas en el mundo real llevaron el control por voz a sus límites, y el software a menudo malinterpretaba palabras o frases de los evaluadores que tenían diversos acentos o tartamudeaban. Desafortunadamente, tales problemas de precisión son de esperar para el modelado de reconocimiento de voz que históricamente se ha basado en fuentes de datos homogéneas. Pero el rendimiento de Voice Control mejora cuanto más lo usas, así que no te rindas de inmediato si encuentras las imprecisiones frustrantes al principio.
La tecnología de asistencia de Apple fue una característica destacada para nuestros evaluadores con destreza manual limitada, ya que les permitió navegar por sus máquinas y editar sus mensajes con las manos libres. Estas indicaciones de comando tienen una curva de aprendizaje desafiante, por lo que es poco probable que tenga una experiencia impecable desde el principio. Pero preguntar "¿Qué puedo decir?" abre una biblioteca que filtra automáticamente los comandos contextualmente relevantes según sus acciones. Por ejemplo, seleccionar una carpeta del escritorio produce una breve lista de indicaciones relacionadas con el acceso a archivos (como "Abrir documento"), mientras que al mover el cursor a una herramienta de procesamiento de textos aparece "Tipo". La interfaz le permite ordenar rápidamente los comandos relevantes, una característica que algunos panelistas encontraron útil.
Nuestros panelistas con acentos experimentaron resultados de precisión mixtos con Apple Voice Control. Los evaluadores con acentos de inglés no estándar o impedimentos del habla dijeron que el rendimiento del software de Apple mejoró cuando hablaron despacio. "Al usarlo para escribir, a veces funcionaba bastante bien", señaló el panelista Franc, un hablante nativo de español y catalán que probó el software en inglés. De manera similar, mi propia experiencia al dictar esta guía resultó ser un desafío: descubrí que tenía que pronunciar demasiado mis palabras para evitar que Control por voz usara mayúsculas en palabras aleatorias y escribiera mal alguna frase ocasional.
Nuestros panelistas coincidieron en que Apple Voice Control fue la herramienta más lenta que probaron para transcribir texto, aunque la diferencia de velocidad fue cuestión de segundos, no de minutos. A veces, el software de reconocimiento de voz procesa una oración completa, en lugar de palabras sueltas, antes de mostrar el texto en la pantalla, una tendencia que aproximadamente la mitad de nuestros panelistas encontraron frustrante. "Fue realmente una distracción esperar para ver si [Control de voz] había captado lo que dije", señaló la evaluadora Vicki, quien tiene una lesión por estrés repetitivo que dificulta escribir.
La editora de cobertura de accesibilidad de Wirecutter, Claire Perlman, quien también formó parte de nuestro panel, se hizo eco de este sentimiento. Dijo que el tiempo de retraso era marginal al comienzo de su sesión, pero se volvió notablemente doloroso a medida que usaba el software. Claire también notó que su MacBook Pro 2019, equipada con un procesador Intel Core i5 de cuatro núcleos a 1,4 GHz, se sobrecalentó mientras ejecutaba Voice Control durante períodos prolongados. "El retraso que estoy experimentando ahora me distrae mucho y me hace sentir que tengo que ralentizar mi proceso de pensamiento para escribirlo correctamente", dijo. Intentamos replicar este problema con una MacBook Pro 2019 equipada con un procesador Intel Core i7 de seis núcleos a 2,6 GHz y, después de una hora de uso, descubrimos que el proceso de reconocimiento de voz de Apple fluctuó entre ocupar el 54 % y el 89 % de nuestra CPU y que El uso de Apple Dictation osciló entre el 1 % y el 35 %, lo que confirma que la sólida plataforma requiere mucha potencia de procesamiento. Dicho esto, es posible que el retraso desaparezca cuando cierre otros programas que hacen un uso intensivo de la CPU, como Chrome o un juego.
Como mencionamos anteriormente, manejar con éxito las indicaciones de comando de Voice Control requiere experiencia y delicadeza. Los probadores que leyeron la guía de inicio rápido y vieron los tutoriales de YouTube informaron la experiencia más fácil. "Hay una curva de aprendizaje", dijo el evaluador Chandana, que tiene acento indio. Pero el software "¿Qué puedo decir?" La pantalla fue de gran ayuda, Chandana dijo: "Pude usar muchas funciones que quería usar antes pero no sabía que podía".
Por último, Voice Control funciona mejor dentro de las propias aplicaciones de Apple, y algunas personas pueden encontrar esa limitación inherente desafiante o molesta. "Descubrí que es más preciso en Pages e iMessage que en Google Docs y WhatsApp", señaló Claire. En solo un ejemplo, aunque Voice Control capturó correctamente los comandos dictados como "Seleccionar línea" o "Eliminar" en Pages, no pudo ejecutarlos en Google Docs.
Dragon Home 15 es la herramienta de dictado más precisa que probamos para cualquier sistema operativo, pero su alto precio es demasiado para tragar.
Precio:$200 por licenciaSistema operativo:ventanasIdiomas soportados:Inglés, francés, alemán (dependiendo de la región de compra)
Nuance Dragon Home 15 es nuestra elección para los usuarios de PC con Windows porque supera a las herramientas de dictado de Microsoft Word y Windows en precisión, procesa y muestra rápidamente las transcripciones, y ofrece un módulo de capacitación útil y una selección de indicaciones de comando para que pueda ponerse al día rápidamente. A diferencia de la mayoría de los otros programas de dictado en nuestras pruebas, funcionó bien con lenguaje técnico y con mucha jerga, una ventaja que podría hacerlo útil para las personas que trabajan en las ciencias. (Si ha usado versiones anteriores de Dragon en el pasado, le alegrará saber que Dragon Home 15 representa una mejora significativa con respecto a las generaciones anteriores).
Nuestros panelistas dijeron que Dragon Home fue una de las herramientas de reconocimiento de voz más precisas que probaron y la describieron como "extremadamente precisa", "confiable" y, en al menos un caso, "impecable". Claire Perlman de Wirecutter, que tiene artrogriposis, dijo: "Realmente me quedé impresionado con la precisión de Dragon. Solo tuvo dos o tres errores todo el tiempo que lo usé". Nuestras pruebas de control encontraron resultados similares. Dragon Home tuvo una precisión del 82 % en la transcripción del habla informal (ligeramente por detrás de Apple Voice Control, que produjo una precisión del 87 %) y, en la transcripción del lenguaje técnico, no exhibió la pronunciada disminución en la precisión que vimos en otro software, incluido Voice de Apple. Herramientas de control y dictado.
Las transcripciones de Dragon Home aparecieron con un retraso mínimo en las pantallas de los evaluadores, mientras que herramientas como Otter y Windows Voice Recognition tardaron el doble en producir frases u oraciones. Pero los panelistas encontraron que la transcripción oración por oración de Dragon Home era una bolsa mixta. Algunos evaluadores prefirieron ver frases u oraciones completas que aparecían simultáneamente en la pantalla. "La velocidad combinada con la precisión significaba que no sentía que tenía que prestar atención constante a lo que sucedía en la pantalla y, en cambio, podía concentrarme en mis pensamientos y escribir", dijo Claire. Otros evaluadores prefirieron transcripciones palabra por palabra en tiempo real: "Definitivamente hubo momentos en los que estaba sentado allí tamborileando con los dedos y esperando", dijo el editor de Wirecutter, Ben Keough. Dragon Home le permite ajustar menos tiempo de retraso o una mayor precisión yendo aOpciones > Varios > Velocidad vs. Precisión.Pero no notamos una diferencia en el rendimiento cuando cambiamos esta configuración durante nuestras pruebas de control.
Como todo el software de dictado que probamos, Dragon Home requiere un poco de conocimiento para aprovechar al máximo sus funciones y lograr el mejor rendimiento, pero su multitud de comandos de voz de accesibilidad fue una característica favorita entre nuestros panelistas. A diferencia de la mayoría de las opciones que probamos, Dragon Home se inicia con un breve tutorial que lo guía a través de cómo usarlo, desde configurar la mejor posición del micrófono hasta dictar texto y usar indicaciones de puntuación.
Puede volver a visitar el tutorial en cualquier momento si necesita un repaso, que el panelista Juan encontró útil con su lesión cerebral traumática y problemas de memoria a corto plazo. "El tutorial le da un buen comienzo en su funcionalidad", dijo. Claire Perlman de Wirecutter señaló: "Usaba Dragon hace años y, en ese entonces, entrenar el sistema para que reconociera su voz era un proceso oneroso. Esta vez, encontré que todo el proceso de configuración y entrenamiento fue realmente útil y muy rápido. Y sentí como si realmente pudiera operarlo con las manos libres".
El mayor inconveniente de Dragon Home es que cuesta $200 por licencia. Los expertos con los que hablamos dijeron que esta barrera de entrada puede hacer que el uso de este software sea inviable para muchas personas discapacitadas, incluidas aquellas que tienen ingresos limitados porque no pueden encontrar un trabajo remoto que se adapte a sus discapacidades. Además, tener que descargar y habilitar el software puede ser una molestia que recuerda a las personas con discapacidades que su situación es una ocurrencia tardía en la era digital, especialmente en comparación con Apple Voice Control o incluso Windows Voice Recognition, que están integrados en los sistemas operativos de los dispositivos.
Este software es compatible solo con el sistema operativo de escritorio Windows; no puede instalarlo en Android, los sistemas operativos de Apple o ChromeOS. (Es decir, a menos que particione su disco duro, pero en ese caso corre el riesgo de ralentizar el sistema operativo, lo que experimentó un panelista con una partición del disco). Viene con una suscripción introductoria de un año a Dragon Anywhere ($ 150 después del primer año), que funciona con dispositivos iOS y Android, pero esa versión móvil del software solo se puede sincronizar con Dragon Professional ($500), no con la versión Home que recomendamos. Esta limitación hace que sea complicado entrenar tanto los dispositivos de escritorio como los móviles con el vocabulario personalizado y las idiosincrasias del habla de un usuario. Además, debido a que nuestros panelistas no probaron Dragon Anywhere, no podemos comentar sobre su usabilidad o precisión.
Dragon Home no es una herramienta de reconocimiento de voz que pueda usar inmediatamente: la primera vez que carga el software, le indica que complete una serie de breves tutoriales. Esto significa que es importante reservar algo de tiempo para familiarizarse con el programa antes de apresurarse a escribir, por ejemplo, un memorando o un trabajo atrasado. (Dicho esto, independientemente de la herramienta de voz a texto que elija, le recomendamos que se familiarice con ella antes de sumergirse en un proyecto con mucho texto).
Aunque Dragon Home fue el software de dictado compatible con Windows más accesible y preciso que probamos, aún fallaba en sus transcripciones a veces, especialmente para los evaluadores que no usaban un micrófono o auriculares dedicados. Nuance recomienda comprar sus auriculares Dragon USB ($35) o Dragon Bluetooth ($150) para obtener la mejor experiencia y dice que los usuarios pueden mejorar la tasa de precisión del programa haciendo correcciones en el texto a través de indicaciones de voz y ejecutando su función Accuracy Tuning para optimizar sus modelos de lenguaje. . A juzgar por nuestras pruebas, podemos decir que cualquier micrófono dedicado de alta calidad que esté colocado correctamente mejorará sus resultados. Aun así, un panelista que usó un auricular con cable notó que Dragon Home no podía capturar diversos nombres como "Yeiser", pero no tenía problemas con nombres tradicionalmente anglosajones como "Brady".
Finalmente, este software de dictado está disponible en solo tres idiomas: inglés, francés y alemán, un claro recordatorio de que la accesibilidad no siempre es accesible para todos. Dentro de esas restricciones, puede especificar una región de idioma para asegurarse de que la ortografía coincida con su región preferida, como inglés canadiense versus inglés americano. O puede gastar $500 en una licencia Dragon Professional Individual, que también brinda acceso a los idiomas holandés, italiano y español. (La capacidad de comprar una licencia de idioma preferido puede variar según el lugar donde viva).
Nuestros panelistas estuvieron de acuerdo en que ningún software de dictado es perfecto, pero en su mayor parte, la funcionalidad de dichos programas mejora cuanto más los usa. Aquí le mostramos cómo aprovechar al máximo su herramienta de voz a texto:
Renuncias a algo de privacidad cuando hablas por un micrófono para que una herramienta de voz a texto pueda transcribir tus palabras. Como es el caso cuando hablas por teléfono, cualquier persona cercana puede escuchar lo que dices. Y muchas herramientas de dictado introducen su audio en sus algoritmos de aprendizaje para mejorar su servicio o para venderle algo. En algunos casos, una empresa puede incluso entregar todas sus grabaciones y transcripciones de voz a texto a la policía. En última instancia, si está manejando datos confidenciales y tiene otro medio para comunicarse, lo cual sabemos que no es posible para muchas personas que necesitan estas herramientas, es mejor no compartir su información con un programa de voz a texto. Por supuesto, podríamos decir lo mismo sobre el envío de textos no seguros o la carga de documentos en la nube también.
Esto es lo que hacen los creadores de nuestras selecciones con sus datos:
El control por voz de Apple procesa los dictados y los comandos solo localmente, en su dispositivo, por lo que no se comparten ni guardan datos personales con terceros. Pero parte de la información que hablas en los programas hermanos Dictado y Siri puede transmitirse a los servidores de Apple. (Debido a que muchas personas, incluidos varios de nuestros panelistas, usan Dictado y Siri, llegamos a la conclusión de que vale la pena llamar la atención sobre las diferencias).
Por lo general, Apple no puede acceder a las grabaciones de audio de Dictado y Siri que usted compone en su dispositivo a menos que esté dictando en un cuadro de búsqueda o el servicio requiera acceso a una aplicación de terceros. Apple puede recopilar transcripciones de solicitudes de Siri, transcripciones de dictados, direcciones IP e información de contacto para realizar tareas de la aplicación, mejorar sus servicios y comercializar sus productos. Y cada vez que Apple interactúa con una aplicación de terceros, como un servicio de transcripción de notas de reuniones, los datos de voz pueden enviarse a Apple, o usted puede estar sujeto a los términos y condiciones y la política de privacidad de esa aplicación. Cuando opta por "Mejorar Siri y Dictado" de Apple, las grabaciones de audio y las transcripciones que Apple guarda son accesibles para sus empleados, y los datos se conservan durante dos años, aunque la empresa puede extender la retención más allá de ese período a su discreción.
Apple también usa su audio y transcripciones para comercializar productos y servicios. Puede optar por no permitir que Apple revise sus archivos de audio enAjustes del sistema(Ajustesen dispositivos móviles)> Privacidad y seguridad > Análisis y mejoras ; puede eliminar su historial de seis meses pasando porAjustes del sistema(Ajustesen dispositivos móviles)> Siri y búsqueda > Siri y el historial de dictados . Sin embargo, con iOS 14.6, según Gizmodo, Apple aún puede recopilar algunos datos analíticos incluso si opta por no participar.
En cuanto a la información compartida con terceros, ciertos proveedores deben eliminar la información personal al final de la transacción o tomar medidas no reveladas para proteger sus datos. Y Apple puede divulgar su información a los organismos encargados de hacer cumplir la ley según lo exija la ley.
Nuance, propietaria del software Dragon, recopila datos de dictado de forma rutinaria. El servicio puede acceder a cualquier información confidencial que usted dicte, incluidos registros médicos o información de propiedad exclusiva, y no siempre requiere su consentimiento directo para hacerlo. Por ejemplo, en su política de privacidad, Nuance dice: "Si estamos procesando datos personales en nombre de un tercero que tiene acceso directo al paciente, será responsabilidad del tercero obtener el consentimiento". Y los "fragmentos" de las grabaciones de audio son revisados por personas que transcriben manualmente los datos para mejorar los servicios de Nuance. Nuance retiene los datos durante tres años después de que deja de usar los servicios y puede solicitar que la empresa elimine su registro de datos.
Además, aunque Nuance recopila datos electrónicos como su dirección IP e información de registro para comercializar sus productos, la empresa dice que no vende datos de clientes a terceros. Sin embargo, los afiliados y socios de Nuance pueden tener acceso a los datos a través de su división de ventas o su división de servicio al cliente. Y al igual que Apple, Nuance puede compartir datos personales para cumplir con la ley.
Más allá de considerar el software de dictado en particular, asegúrese de examinar las políticas de retención de datos de cualquier software en el que esté dictando (ya sea Microsoft Word, Google Docs o cualquier otro), que se rigen por las prácticas de privacidad del fabricante.
Apple Dictation (macOS, iOS, iPadOS) funciona de manera similar a nuestra elección, Apple Voice Control, pero carece de las funciones sólidas que muchas personas desean en una herramienta de voz a texto, incluidas las funciones de comando clave.
No podemos recomendar Microsoft Word Dictate, Otter o Windows Voice Recognition debido a sus tiempos de retraso en la transcripción y tasas de precisión inferiores, que oscilaron entre el 54 % y el 76 %, muy por detrás del 87 % de Apple Voice Control y del 82 % de Dragon Home. Además, la plataforma de Otter no es una gran opción para el dictado de documentos, ya que no se integra bien con las herramientas de procesamiento de texto; es más adecuado para subtítulos ocultos de eventos en vivo.
La herramienta Braina Pro fue popular a mediados de los años, pero su sitio web está desactualizado y no ha recibido reseñas de usuarios en años.
La interfaz del Asistente de Google en Gboard solo funciona con dispositivos móviles compatibles con Gboard, lo que significa que es inútil para los usuarios de escritorio y cualquier persona que no tenga un teléfono inteligente con Android o iOS.
En nuestras pruebas, Google Docs Voice Typing no pudo capturar con precisión los sociolectos y el habla informal. Tampoco funciona bien para personas con impedimentos del habla, tiene funciones de formato deficientes y es casi imposible de usar para cualquiera que no pueda acceder a un mouse y teclado.
Watson Speech to Text de IBM es un servicio de transcripción que cobra por minuto después de los primeros 500 minutos. Y el plan gratuito elimina tu historial de transcripciones después de un mes de inactividad. Creemos que esas deficiencias son suficientes para descalificarlo.
Windows Voice Typing no es una herramienta tan robusta como Windows Voice Recognition, y encontramos que sus comandos de accesibilidad son limitantes.
Consideramos varias aplicaciones específicas de Chrome, incluidas Chromebook Dictation, Speechnotes y SpeechTexter, pero no las probamos debido a sus funciones limitadas y restricciones de uso que las hacían inaccesibles para la mayoría de las personas.
También consideramos las siguientes opciones, pero rápidamente aprendimos que están diseñadas para usos comerciales específicos:
Este artículo fue editado por Ben Keough y Erica Ogg.
Meenakshi Das, defensora de la discapacidad e ingeniera de software, Microsoft, entrevista de texto, 30 de septiembre de 2022
Sayash Kapoor, candidato a doctorado, Centro de Políticas de Tecnología de la Información, Universidad de Princeton, entrevista telefónica, 6 de octubre de 2022
Christopher Manning, codirector, Stanford Institute for Human-Centered Artificial Intelligence, Stanford University, entrevista de Zoom, 5 de octubre de 2022
Diego Mariscal, fundador, director ejecutivo y director de discapacidad, 2Gether-International, entrevista de Zoom, 26 de octubre de 2022
Steve Dent, Amazon, Apple, Microsoft, Meta y Google mejorarán el reconocimiento de voz para personas con discapacidades, Engadget, 3 de octubre de 2022
Su Lin Blodgett, Lisa Green, Brendan O'Connor, Variación dialectal demográfica en las redes sociales: un estudio de caso del inglés afroamericano (PDF), Actas de la Conferencia de 2016 sobre métodos empíricos en el procesamiento del lenguaje natural, 1 de noviembre de 2016
Prabha Kannan, ¿Ya es mi turno? Enseñar a un asistente de voz cuándo hablar, Instituto de Stanford para la inteligencia artificial centrada en el ser humano, Universidad de Stanford, 10 de octubre de 2022
Allison Koenecke, Andrew Nam, Emily Lake, Sharad Goel, Disparidades raciales en el reconocimiento de voz automatizado, Actas de la Academia Nacional de Ciencias, 23 de marzo de 2020
Speech Recognition for Learning, LD OnLine, informe "Tech Works" del Centro Nacional para la Innovación Tecnológica (NCTI), 1 de agosto de 2010
Arvind Narayanan, Los límites del enfoque cuantitativo de la discriminación, Serie de conferencias James Baldwin, Departamento de Estudios Afroamericanos, Universidad de Princeton, 11 de octubre de 2022
kaitlyn pozos
Kaitlyn Wells es una redactora sénior que aboga por una mayor flexibilidad laboral al mostrarle cómo trabajar de manera más inteligente de forma remota sin perderse a sí mismo. Anteriormente, cubrió mascotas y estilo para Wirecutter. Nunca conoció una mascota que no le gustara, aunque no puede decir lo mismo de las aplicaciones de productividad. Su primer libro ilustrado, A Family Looks Like Love, sigue a un cachorro que aprende que el amor, en lugar de cómo te ves, es lo que hace a una familia.
por Signe Brewster
Descubrimos que Temi, basado en IA, es el mejor servicio de transcripción para las personas que necesitan una transcripción legible y asequible como referencia general.
por Elisa Sanci
Una rotuladora puede restaurar el orden donde reina el caos y brindar contexto donde se necesita, y la mejor es la Brother P-touch Cube Plus.
por Ben Keough
Si usa software de videoconferencia para negocios, debería usar Zoom. ¿Quieres pasar el rato con la familia o los amigos? Busque Google Meet y Whereby.
por Ryan Whitwam
Los relojes inteligentes para teléfonos Android se sienten menos comprometidos que nunca, y tenemos excelentes opciones nuevas de Samsung y Google.
Precio: Sistema operativo: Idiomas admitidos: Configuración > Accesibilidad Precio: Sistema operativo: Idiomas admitidos: Opciones > Varios > Velocidad frente a precisión. Tome el tutorial. En serio. Establezca su idioma principal. Para una precisión inmediata, enuncie. Para el éxito a largo plazo, hable con naturalidad. Considere un micrófono dedicado. Preste atención al interruptor de encendido/apagado. Configuración del sistema Configuración > Privacidad y seguridad > Análisis y mejoras Configuración del sistema Configuración > Siri y búsqueda > Historial de Siri y dictado