Las publicaciones de Tumblr y WordPress se utilizarán para entrenar la IA
Los datos de Tumblr y WordPress.com se venderán para la formación en inteligencia artificial (IA). Automattic, propietario de las plataformas, está a punto de cerrar un contrato con OpenAI y Midjourney para ofrecer acceso a información que ayudaría a desarrollar nuevos modelos y mejorar las tecnologías existentes.
Los detalles fueron revelados por el sitio web 404 Media, que tuvo acceso a documentos internos sobre la transacción entre las empresas. Automattic también confirmó en su blog oficial que se asocia con empresas de inteligencia artificial, pero no mencionó nombres.
poder de elección
El enfoque sólo estará dirigido a los contenidos disponibles en las redes de blogs Tumblr y WordPress.com, sin llegar al programa WordPress para instalar en sus propios servidores. Por otro lado, todavía no hay información sobre el impacto del acuerdo con los sitios que utilizan el complemento Jetpack.
Con la asociación se recopilarán publicaciones disponibles en blogs creados en cualquiera de las dos herramientas para entrenar modelos de inteligencia artificial. Sin embargo, Automattic lanzó un botón para que los propietarios de páginas eviten que se comparta información con OpenAI, Midjourney y otros socios.
Esta decisión se convirtió en una cuestión interna cuando un empleado preguntó si había garantías de que los socios no recopilarían los datos si los usuarios se negaban. La respuesta vino del jefe de IA de Automattic, Andrew Spittle:
“Quiero que este sea un proceso continuo en el que abogamos regularmente por la eliminación de contenido anterior según las preferencias actuales. Le pediremos que el contenido se elimine de cualquier capacitación futura. Creo que los socios respetarán esto basándose en nuestras conversaciones con ellos hasta la fecha. No creo que ganen mucho manteniéndolo”, afirma el ejecutivo.
Controversias
A pesar de la opción de contener el intercambio de datos, quedan algunas dudas en el aire. En otro diálogo interno, el gerente de producto de Tumblr, Cyle Cage, cita una recopilación de datos controvertida que se incluyó en un paquete que se compartiría con nuevos socios.
Este es el caso de las publicaciones de blogs con contraseña, el contenido eliminado, suspendido o marcado como “explícito”, así como las respuestas privadas y publicaciones de socios importantes, como el antiguo blog de música de Apple. Sin embargo, los ingenieros prepararon una lista para excluir datos que no deberían incluirse en el paquete.
Sin embargo, no está claro si esta información se transmitió a las empresas responsables de los algoritmos de IA.
Automattic confirma asociaciones
En su sitio web, Automattic dijo que trabaja "directamente con empresas seleccionadas de IA, siempre que sus planes estén alineados con lo que le importa a nuestra comunidad: atribución, cancelación y control". Sus socios, a su vez, deben respetar la configuración para cancelar el intercambio de datos.
"También planeamos ir un paso más allá y actualizar periódicamente a todos los socios sobre las personas que recientemente optaron por no participar y solicitaron que su contenido se elimine de fuentes anteriores y de capacitaciones futuras", dice la publicación.
La compañía también destacó que solo compartirá contenido público de Tumblr y WordPress.com de usuarios que hayan dado su consentimiento en la configuración de la plataforma.
"Actualmente, no existe ninguna ley que obligue a los rastreadores a seguir estas preferencias, aunque esto podría cambiar pronto con la legislación pendiente en la Unión Europea", señala. "Dado que las empresas de renombre siguen estas configuraciones, son el mejor método para hacer cumplir la forma en que se rastrea el contenido en la web".
Fuente: 404 Medios