Considerando que la startup de I+D de IA Anthropic recaudó recientemente 13.000 millones de dólares en una ronda de financiación serie F, lo que aumentó su valoración a 183.000 millones de dólares, podría decirse que es una empresa que está en un buen momento.
Este “buen momento” también fue el contexto en el cual la empresa anunció que prohibirá el acceso a sus servicios a empresas controladas por China, Corea del Norte, Irán y Rusia, no sólo como parte de la carrera por la IA en la que el capital es tan importante como los procesos de I+D para crecer, sino también en el que se debe, por motivos competitivos y sobre todo de seguridad (como justificó Anthropic el bloqueo), reducir los riesgos para la seguridad nacional y prevenir el uso indebido de la tecnología de empresas como Anthropic con fines militares o de inteligencia.
Aunque es en medio de este crecimiento que la empresa se encontró en un proceso legal que, no por ser de los más comunes desde que las startup de IA generativa empezaron a usar materiales con derecho de autor para entrenar a sus chatbots deja de ser engorroso: Un grupo de autores y editores demandó a Anthropic de infringir sus derechos de autor al utilizar sus obras sin autorización para entrenar su sistema Claude, un modelo lingüístico extenso (o LLM).
Recomendamos: Brasil publica estudio sobre Patentes Esenciales Estándar y licencias FRAND
A raíz de esto, el 5 de septiembre (el mismo día que Anthropic anunció su bloqueo a estos países), el juez William Alsup, del Tribunal del Distrito Norte de California - División de San Francisco, resolvió la disputa imponiendo un acuerdo mediante el cual Anthropic pagará un mínimo de 1.500 millones de dólares a los autores Andrea Bartz, Charles Graeber y Kirk Wallace Johnson, quienes individualmente y en nombre de otras personas en situaciones, acusaron a la startup de usar libros electrónicos pirateados (descargados de bibliotecas como Library Genesis y Pirate Library Mirror) para usar sus obras sin autorización para entrenar a Claude.
Para llegar a este punto primero debió entenderse que este caso discutió cómo podrían las doctrinas tradicionales de derechos de autor aplicarse al entrenamiento de LLM. Sobre esto ya se tuvo un atisbo en junio, cuando Alsup emitió un fallo sumario ambivalente que determinó que usar libros adquiridos legalmente para el entrenamiento de IA (como hizo Anthropic con las librerías virtuales) era “esencialmente transformador” ergo estaba protegido por el uso legítimo; no obstante, señaló que la creación y mantenimiento de una biblioteca compuesta por dichas obras pirateadas constituía una infracción.
Este fallo convirtió la demanda de Bartz et al. en una victoria y derrota parcial para ambas partes, porque, como dijo como Arthur Gollwitzer, socio de Jackson Walker LLP, confirma que el entrenamiento de LLM con obras protegidas por derechos de autor puede considerarse uso legítimo bajo ciertos parámetros, sobre todo cuando el uso es transformador; a la vez que no todos los usos estarán permitidos, sobre todo si hay piratería. La resolución del juez también preparó el caso para un juicio de alto riesgo por daños y perjuicios por el uso infractor de obras pirateadas.
Para leer: Plan de Acción de IA de Trump: ¿Gana la carrera o redefine las reglas?
Aparte sienta un precedente sólido para futuros litigios y negociaciones de licencias relacionados con la IA, que debe vigilar todos los riesgos asociados con la obtención ilegal de datos, y estableció el pago de la que es considerada la compensación por infracción de derechos de autor conocida más grande hasta ahora. Anthropic también debe destruir todas las obras y datos pirateados.
Para los desarrolladores de IA, estas sentencias resaltan la importancia de un análisis jurídico minucioso y específico de los hechos, y la necesidad de considerar cómo se adquieren, utilizan y gestionan los datos de entrenamiento. Para los titulares de derechos de autor, las decisiones resaltan la necesidad de desarrollar pruebas exhaustivas del perjuicio para el mercado y comprender los matices del uso legítimo en el contexto de la IA, apuntó Gollwitzer.
En resumen, este juicio sumario reformuló la doctrina del uso legítimo para la era de la IA al crear una barrera legal entre dos actividades relacionadas con el tratamiento de datos y obras: Por un lado, reafirmó que el uso de libros de origen legal con el objetivo de entrenar LLM es un “uso transformador” y, por lo tanto, legítimo; mientras, por otro lado, dictaminó que usar obras pirateadas para construir una biblioteca permanente es un acto infractor y no transformador. De esta manera, se aisló la piratería del uso legítimo y se pasó a examinar todo el proceso de adquisición y almacenamiento de datos, en vez de solo centrarse en el producto final.
No te pierdas: Los Lafufu son un enorme desafío PI para los Labubu y su creador
Este caso establece, para los desarrolladores de IA, la necesidad de implementar prácticas sólidas de gobernanza de datos y de participar en la concesión de licencias, en un entorno en el que el acceso a contenido autorizado de alta calidad es un componente innegociable. También proporciona a los creadores de contenido y los titulares de derechos un nuevo parámetro de indemnización por daños y perjuicios y un precedente legal para exigir compensación y rendición de cuentas por el uso no autorizado de obras con copyright. Sin embargo, especialistas señalan que la exclusión explícita del acuerdo de los reclamos relacionados con la infracción podría significar que conflictos como éste continuarán a largo plazo, ya que el enfoque de los litigios podría pasar de centrarse en la procedencia de los datos al comportamiento de los modelos.
¿Qué pasó?
La demanda, iniciada en agosto de 2024, surgió a partir de las alegaciones de este grupo de autores, quienes aseguraron que Anthropic usó sus obras para capacitar a Claude. Los demandantes se centraron en las prácticas de obtención de datos de doble fuente, que no les generaron compensación alguna, no se hizo con autorización y, además, representaba una práctica, cuando menos, sombría: Anthropic compró legalmente libros impresos que escaneó, para crear versiones digitalizadas, para luego destruir los originales físicos. La empresa también creó bibliotecas paralelas pirateadas, mediante la adquisición y uso de millones de copias digitales de libros.
Como la biblioteca central se utilizó para crear una base de datos fija, con fines de investigación y formación, la discusión sobre su existencia se hizo central. Mientras Anthropic dijo que tenerla estaba protegida por la doctrina del fair use y era esencial para el desarrollo de su LLM, Bartz et al. exigieron una indemnización por la supuesta infracción y una medida cautelar para evitar futuros usos no autorizados. Este desacuerdo sobre la adquisición de datos y su propósito fue la discusión fundamental sobre la cual se basó el fallo de Alsup.
Clica aquí: SIC colombiana determina que “porcelanato” no puede usarse como marca genérica
Por esto, en junio de este año, el juez dictó la sentencia que se convirtió en la conclusión central del caso este mes. El juez analizó la conducta de Anthropic desde la perspectiva de los cuatro factores de uso justo: el propósito y carácter del uso, la naturaleza de la obra protegida por derechos de autor, la cantidad y sustancialidad de la parte utilizada y el efecto del uso en el mercado potencial o el valor de la obra protegida por derechos de autor.
Pero, y esto es importante para entender la resolución de Alsup, analizó los cuatro factores del fair use con base en las actividades e intenciones de Anthropic y los tres usos que hizo del material con copyright: el entrenamiento de Claude, la creación de una biblioteca digital a partir de los libros físicos adquiridos legalmente y la creación de una biblioteca digital a partir de libros pirateados. Esta es la razón por la que el tribunal falló tanto a favor de Anthropic como a favor de los demandantes, según fuese la cuestión analizada.
Esta distinción dicotómica entre la biblioteca permanente versus el entrenamiento/uso transformador trazó una nueva ruta para entender el entrenamiento de la IA generativa en virtud de las prácticas de obtención y almacenamiento de datos. Por tanto, si bien el uso de datos para entrenar un LLM es un acto transformador, la adquisición inicial de dichos datos debe seguir siendo legal y la posición de un desarrollador de IA no puede basarse únicamente en la naturaleza transformadora de su producto final para justificar la adquisición no autorizada y el almacenamiento de material protegido por derechos de autor y/o pirateado.







Add new comment