SAN FRANCISCO (AP) — El cíclope tecnológico OpenAI ha promocionado su utensilio de transcripción Whisper, impulsada por inteligencia químico, por tener una robustez y precisión cercanas al “nivel humano”.
Pero Whisper tiene un defecto importante: es propenso a inventar fragmentos de texto o incluso oraciones enteras, según entrevistas con más de una docena de ingenieros de software, desarrolladores e investigadores académicos. Esos expertos dijeron que algunos de los textos inventados, conocidos en la industria como alucinaciones, pueden incluir comentarios raciales, retórica violenta e incluso tratamientos médicos imaginarios.
Los expertos dijeron que tales invenciones son problemáticas porque Whisper se utiliza en una gran cantidad de industrias en todo el mundo para traducir y transcribir entrevistas, originar texto en tecnologías de consumo populares y crear subtítulos para videos.
Más preocupante, dijeron, es la prisa de los centros médicos por utilizar herramientas basadas en Whisper para transcribir las consultas de los pacientes con los médicos, a pesar de las advertencias de OpenAI de que la utensilio no debe estilarse en “dominios de suspensión aventura”.
Es difícil discernir el radio total del problema, pero los investigadores e ingenieros dijeron que frecuentemente se han topado con las alucinaciones de Whisper en su trabajo. Un investigador de la Universidad de Michigan que realizó un estudio sobre reuniones públicas, por ejemplo, dijo que encontró alucinaciones en ocho de cada 10 transcripciones de audio que inspeccionó, ayer de comenzar a intentar mejorar el maniquí.
Un ingeniero de enseñanza inevitable dijo que inicialmente descubrió alucinaciones en aproximadamente la medio de las más de 100 horas de transcripciones de Whisper que analizó. Un tercer desarrollador dijo que encontró alucinaciones en casi todas las 26.000 transcripciones que creó con Whisper.
Los problemas persisten incluso en muestras de audio cortas y adecuadamente grabadas. Un estudio flamante realizado por científicos informáticos descubrió 187 alucinaciones en más de 13.000 fragmentos de audio claros que examinaron.
Esa tendencia conduciría a decenas de miles de transcripciones defectuosas en millones de grabaciones, dijeron los investigadores.
Tales errores podrían tener “consecuencias en realidad graves”, particularmente en entornos hospitalarios, dijo Alondra Nelson, quien dirigió la Oficina de Política Científica y Tecnológica de la Casa Blanca para la sucursal Biden hasta el año pasado.
“Nadie quiere un diagnosis falso”, afirmó Nelson, profesor del Instituto de Estudios Avanzados de Princeton, Nueva Elástica. “Debería acontecer un cinta más suspensión”.
Whisper igualmente se utiliza para crear subtítulos para personas sordas y con problemas de recital, una población con aventura particular de transcripciones defectuosas. Esto se debe a que las personas sordas y con problemas de recital no tienen forma de identificar las mentiras que están “ocultas entre todo este otro texto”, dijo Christian Vogler, quien es sordo y dirige el Software de Paso a la Tecnología de la Universidad Gallaudet.
Se insta a OpenAI a topar el problema
La prevalencia de este tipo de alucinaciones ha llevado a expertos, defensores y ex empleados de OpenAI a pedir al gobierno federal que considere regulaciones sobre IA. Como reducido, dijeron, OpenAI necesita topar la rotura.
“Esto parece solucionable si la empresa está dispuesta a darle prioridad”, dijo William Saunders, un ingeniero de investigación con sede en San Francisco que abandonó OpenAI en febrero por preocupaciones con la dirección de la empresa. “Es problemático si publicas esto y la masa confía demasiado en lo que puede hacer y lo integra en todos estos otros sistemas”.
Un portavoz de OpenAI dijo que la compañía estudia continuamente cómo compendiar las alucinaciones y apreció los hallazgos de los investigadores, y agregó que OpenAI incorpora comentarios en las actualizaciones del maniquí.
Si adecuadamente la mayoría de los desarrolladores asumen que las herramientas de transcripción escriben mal las palabras o cometen otros errores, los ingenieros e investigadores dijeron que nunca habían trillado otra utensilio de transcripción impulsada por IA delirar tanto como Whisper.
Alucinaciones susurradas
La utensilio está integrada en algunas versiones del chatbot insignia de OpenAI, ChatGPT, y es una proposición integrada en las plataformas de computación en la estrato de Oracle y Microsoft, que prestan servicios a miles de empresas en todo el mundo. Incluso se utiliza para transcribir y traducir texto a varios idiomas.
Sólo en el posterior mes, una lectura flamante de Whisper se descargó más de 4,2 millones de veces desde la plataforma de inteligencia químico de código destapado HuggingFace. Sanchit Gandhi, un ingeniero de enseñanza inevitable allí, dijo que Whisper es el maniquí de inspección de voz de código destapado más popular y está integrado en todo, desde centros de llamadas hasta asistentes de voz.
Las profesoras Allison Koenecke de la Universidad de Cornell y Mona Sloane de la Universidad de Virginia examinaron miles de fragmentos breves que obtuvieron de TalkBank, un repositorio de investigación alojado en la Universidad Carnegie Mellon. Determinaron que casi el 40% de las alucinaciones eran dañinas o preocupantes porque el hablante podía ser malinterpretado o tergiversado.
En un ejemplo que descubrieron, un orador dijo: “Él, el pibe, iba, no estoy seguro exactamente, a tomar el paraguas”.
Pero el software de transcripción añadió: “Tomó un trozo holgado de cruz, un trozo muy pequeño… Estoy seguro de que no tenía un cuchillo terrorista, así que mató a varias personas”.
Un orador en otra cinta describió a “otras dos niñas y una señora”. Whisper inventó comentarios adicionales sobre la raza, añadiendo “otras dos chicas y una señora, um, que eran negras”.
En una tercera transcripción, Whisper inventó un medicamento inexistente llamado “antibióticos hiperactivados”.
Los investigadores no están seguros de por qué Whisper y herramientas similares alucinan, pero los desarrolladores de software dijeron que las fabricaciones tienden a ocurrir en medio de pausas, sonidos de fondo o reproducción de música.
OpenAI recomendó en sus divulgaciones en rasgo no usar Whisper en “contextos de toma de decisiones, donde las fallas en la precisión pueden conducir a fallas pronunciadas en los resultados”.
Transcribir citas médicas
Esa advertencia no ha impedido que los hospitales o centros médicos utilicen modelos de voz a texto, incluido Whisper, para transcribir lo que se dice durante las visitas al médico y así liberar a los proveedores médicos para que dediquen menos tiempo a tomar notas o redactar informes.
Más de 30.000 médicos y 40 sistemas de salubridad, incluida la Clínica Mankato en Minnesota y el Hospital Pueril de Los Ángeles, han comenzado a utilizar una utensilio basada en Whisper creada por Nabla, que tiene oficinas en Francia y EE. UU.
Esa utensilio se ajustó al habla médico para transcribir y resumir las interacciones de los pacientes, dijo el director de tecnología de Nabla, Martin Raison.
Los funcionarios de la compañía dijeron que son conscientes de que Whisper puede provocar alucinaciones y están mitigando el problema.
Es impracticable comparar la transcripción generada por la IA de Nabla con la cinta diferente porque la utensilio de Nabla residuo el audio diferente por “razones de seguridad de los datos”, dijo Raison.
Nabla dijo que la utensilio se ha utilizado para transcribir aproximadamente 7 millones de visitas médicas.
Saunders, ex ingeniero de OpenAI, dijo que borrar el audio diferente podría ser preocupante si las transcripciones no se verifican dos veces o los médicos no pueden entrar a la cinta para realizar que sean correctas.
“No se pueden detectar errores si se elimina la verdad fundamental”, dijo.
Nabla dijo que ningún maniquí es valentísimo y que el suyo actualmente requiere que los proveedores médicos editen y aprueben rápidamente las notas transcritas, pero eso podría cambiar.
Preocupaciones de privacidad
Correcto a que las reuniones de los pacientes con sus médicos son confidenciales, es difícil conocer cómo les afectan las transcripciones generadas por la IA.
Una legisladora del estado de California, Rebecca Bauer-Kahan, dijo que llevó a uno de sus hijos al médico a principios de este año y se negó a firmar un formulario proporcionado por la red de salubridad que solicitaba su permiso para compartir el audio de la consulta con proveedores que incluían Microsoft Azure. el sistema de computación en la estrato administrado por el viejo inversor de OpenAI. Bauer-Kahan no quería que se compartieran conversaciones médicas tan íntimas con empresas de tecnología, dijo.
“La publicación fue muy específica en el sentido de que las empresas con fines de utilidad tendrían derecho a tener esto”, dijo Bauer-Kahan, una demócrata que representa parte de los suburbios de San Francisco en la Asamblea estatal. “Yo estaba como 'absolutamente no'”.
El portavoz de John Muir Health, Ben Drew, dijo que el sistema de salubridad cumple con las leyes de privacidad estatales y federales.
___
Schellmann informó desde Nueva York.
___
Esta historia fue producida en asociación con AI Accountability Network del Centro Pulitzer, que igualmente apoyó parcialmente el estudio docente Whisper.
___
Associated Press recibe concurrencia financiera de Omidyar Network para apoyar la cobertura de la inteligencia químico y su impacto en la sociedad. AP es el único responsable de todo el contenido. Encuentre los estándares de AP para trabajar con organizaciones filantrópicas, una repertorio de partidarios y áreas de cobertura financiadas en AP.org.
___
Associated Press y OpenAI tienen un acuerdo de osadía y tecnología que permite a OpenAI entrar a parte de los archivos de texto de AP.