- Published on
ChatGPT: dos años después
date
Nov 25, 2024
tags
Inteligencia Artificial
LLM
IA Generativa
summary
El 30 de noviembre se cumplen 2 años del lanzamiento de ChatGPT, un evento que generó grandes ondas expansivas en el desarrollo tecnológico, la sociedad y la economía. En este espacio abierto donde no siempre es fácil (o tal vez siquiera posible) separar realidad de expectativas, este artículo aborda con una mirada reflexiva el impacto concreto y potencial de la IA generativa, haciendo un balance de los sucesos desde 2022 y revisando qué promesas se cumplieron, cuáles siguen en carrera para cumplirse y cuáles parecen haber quedado en el camino.
slug
chatgpt-2
status
Published
type
Post
author
Julián Peller
Explorando el impacto de la revolución de la IA generativa
Por Julián Peller
Happy birthday, Mr. Chatbot
Este 30 de noviembre se cumplen 2 años del lanzamiento de ChatGPT, un evento que generó grandes ondas expansivas en el desarrollo tecnológico, la sociedad y la economía. En el espacio que abrió este acontecimiento no siempre fue fácil (o tal vez siquiera posible) separar realidades de expectativas. Por ejemplo, este año, Nvidia llegó a ser la empresa pública más valiosa del mundo en un rally alcista impactante. La compañía, que fabrica el hardware que usan los modelos como ChatGPT, hoy vale 7 veces más que hace 2 años. Pero ¿lo vale realmente o estamos ante un delirio colectivo? Esta pregunta - y no su eventual respuesta - es la que representa el momento presente.
La IA está pisando fuerte más allá del mercado de valores. El mes pasado, por primera vez en la historia, figuras destacadas en el campo de la inteligencia artificial fueron galardonadas con Premios Nobel. John J. Hopfield y Geoffrey E. Hinton recibieron el Nobel de Física por sus contribuciones fundamentales al desarrollo de redes neuronales. En Química, Demis Hassabis y John Jumper fueron reconocidos por el avance que AlphaFold representó en el diseño de proteínas mediante inteligencia artificial. Estos reconocimientos generaron sorpresa por un lado y, por otro, una desilusión entendible en muchos científicos tradicionales al ver un foco tan marcado en métodos computacionales.
En este contexto, me propongo hacer un repaso de los sucesos desde aquél noviembre, reflexionando sobre el impacto concreto y potencial de la IA generativa hasta hoy, considerando qué promesas se cumplieron, cuáles siguen en carrera para cumplirse y cuáles parecen haber quedado en el camino.
El día D
Empecemos recordando el día del lanzamiento. ChatGPT 3.5 fue un chatbot ampliamente superior a todo lo conocido hasta entonces en términos de capacidades discursivas e inteligencia. La diferencia con lo que era posible entonces generó una fascinación enorme y el producto se viralizó muy velozmente: logró una base de 100 millones de usuarios en apenas 2 meses, superando por mucho a aplicaciones consideradas virales (Tiktok, Instagram, Pinterest, Spotify, etc). También llegó a los medios masivos de comunicación y al debate público: la IA desembarcó en el mainstream y de pronto todos hablaban de ChatGPT. Para colmo, apenas unos meses después, OpenAI lanzó GPT-4, una versión muy superior en inteligencia a la 3.5 y, además, capaz de entender imágenes.
La situación disparó debates sobre las múltiples posibilidades y problemas implícitos en esta tecnología concreta en lo que respecta a copyright, desinformación, productividad y mercado laboral, así como también sobre los riesgos que podría suponer el avance de la investigación en inteligencia artificial en el mediano y largo plazo. Destacaban las inquietudes por el riesgo existencial (el escenario “terminator”), la posibilidad del fin del trabajo y la posibilidad de una conciencia artificial, entre otros. En esta discusión amplia y apasionada escuchamos opiniones de lo más disímiles y, creo, con el correr de los meses el debate comenzó a madurar y templarse. Tomó un tiempo acomodarnos a este producto porque el avance que supuso ChatGPT nos dejó a todos un poco en offside. ¿Qué pasó desde aquél entonces hasta hoy?
Te quiero pero soy un Bard
En lo que respecta a las empresas de tecnología, estos dos años fueron una montaña rusa. La aparición en escena de OpenAI, con sus avances futuristas y su CEO con espíritu y look de “startupero” generaron dudas sobre el liderazgo tecnológico de Google, hasta ese momento indiscutido. Por su parte, Google hizo todo lo que pudo para confirmar estas dudas, humillándose públicamente en reiteradas oportunidades. Primero, con el bochorno del video de presentación de Bard, el chatbot pensado como competencia de ChatGPT. En este video, el chatbot comete un error factual: al pedirle información sobre el telescopio James Webb Space, el modelo responde que fue el primer telescopio en tomar fotos de planetas fuera del sistema solar, lo que es falso. Esto generó una caída de 9% en las acciones de Google durante la semana siguiente. Más adelante, con la presentación del nuevo modelo Gemini - otro competidor, esta vez de GPT-4-, Google volvió a perder credibilidad cuando se supo que las capacidades increíbles que este nuevo producto mostraba en la demo (y que lo hubieran colocado a la vanguardia de la investigación) eran en realidad montajes falsos creados sobre capacidades mucho menores.
En este proceso, Microsoft, la arcaica empresa de Bill Gates, esa que fabricaba los viejos Windows 95 y que los jóvenes odiábamos tanto como amabamos a Google, reapareció y se alió con el pequeño David, incorporando ChatGPT a Bing y mostrándose ágil y desafiante. “Quiero que la gente sepa que los hicimos bailar”, dijo Satya Nadella, el CEO de Microsoft, refiriéndose a Google. Durante 2023, Microsoft rejuveneció mientras Google envejecía.
Esta situación se prolongó y OpenAI permaneció por un tiempo como líder indiscutido tanto en evaluaciones técnicas como en los reportes subjetivos de las personas (conocidos como “vibe checks”), con GPT-4 a la cabeza. Pero con el tiempo esto cambió y así como GPT-4 ganó un liderazgo único a fines de 2022, a mediados de 2024 su sucesor no muy lejano (GPT-4o) estaba compitiendo con otros de su misma talla: Gemini 1.5 pro, de Google; Claude Sonnet 3.5, de Anthropic y Grok 2, de xAI. Lo que la innovación te da, la innovación te quita.
En la actualidad, este escenario podría estar cambiando nuevamente con el flamante anuncio de o1 por parte de OpenAI en septiembre de 2024 y con sospechas de nuevos lanzamientos para diciembre. Pero, por ahora, sea cuan bueno sea o1 (hablaremos de él en breve), no parece haber causado el mismo golpe de efecto que causó ChatGPT, ni la misma sensación de diferencia abismal con el resto del entorno competitivo.
Para completar la escena de golpes, caídas y comebacks épicos tenemos hablar del mundo del software libre. Esta nueva época de la IA empezó con dos crosses a la mandíbula al mundo del open source. En primer lugar, OpenAI, a pesar de lo que su nombre indica, fue pionera en dejar de hacer públicos los avances fundamentales de su tecnología. Antes de OpenAI, eran usos y costumbres de la investigación de inteligencia artificial, al menos durante la época dorada anterior al 2022, publicar al detalle los resultados de la investigación. Durante esa época, las grandes corporaciones generaron un ecosistema de retroalimentación positiva con la academia y produjeron papers, algo que no era común. Sin ir más lejos, ChatGPT y la revolución de la IA generativa en general se basan en un paper de 2017 publicado por Google, el célebre Attention is all you need, dónde se presenta la arquitectura de redes neuronales llamada Transformer. Esta arquitectura da origen a todos los modelos de lenguaje actuales y es la que pone la T en GPT. Pero en un plot twist apasionante, OpenAI se apalancó en este descubrimiento público para sacarle ventaja y comenzar con una investigación a puertas cerradas, siendo el lanzamiento de GPT-4 el momento bisagra entre ambas épocas: por primera vez, OpenAI no explicó nada sobre el funcionamiento interno de esta arquitectura de avanzada. A partir de ese momento comenzaron a aparecer muchos LLMs cerrados como Gemini 1.5 Pro y Claude Sonnet, modificando para mal el ecosistema de investigación.
El segundo golpe a la comunidad open source fue la escala de los nuevos modelos. Hasta GPT-2 bastaba una GPU modesta para entrenar modelos de deep learning. Desde GPT-3, el costo de infraestructura aumentó enormemente y entrenar modelos dejó de ser algo accesible a cualquier individuo o institución. Los avances fundamentales pasaron a estar en manos de grandes pesos pesados.
Pero después de estos golpes, y con todos esperando el knockout, el mundo del software libre dio batalla y demostró estar a la altura de la nueva era. Tuvo de su lado, para suerte de todos, a un paladín inesperado. Mark Zuckerberg, el androide reptiliano más odiado del planeta tierra dio un giro de imagen radical al posicionarse como el abanderado del open-source y de la libertad en el campo de la IA generativa. Meta, el conglomerado que domina gran parte del tejido de comunicaciones digitales de Occidente según su propio designio y voluntad, se hizo cargo de llevar el open source a la época de la IA generativa con su línea de modelos LLaMa. Definitivamente, es un mal momento para ser maniqueo. Los lanzamientos de LLaMa comenzaron con licencias abiertas tímidas y capacidades limitadas (aunque la comunidad hacía muchos esfuerzos por creer lo contrario), pero con las versiones recientes LLaMa 3.1 y 3.2 la brecha con las propuestas privadas comenzó a cerrarse fuertemente, permitiendo que el mundo del open source y de la investigación pública pueda continuar a la vanguardia de la investigación tecnológica.
Avances tecnológicos
En estos dos años, la investigación en modelos tipo ChatGPT, conocidos como grandes modelos de lenguaje (o LLM, por sus siglas en inglés), fue prolífica. El primer avance fundamental, hoy dado por hecho, fue que las empresas lograron aumentar las ventanas de contexto de los chatbots (cuántas palabras pueden leer como input y generar como output) y, a la vez, bajar los costos por palabra de una forma impresionante. Pero también vimos a los modelos volverse multimodales (aceptar como input no solo texto sino también imágenes, audios o videos), vimos cómo se le permitía a los LLM utilizar herramientas - destacablemente, buscar en internet - y vimos avances constantes en torno a la capacidad.
Por otro lado, aparecieron diferentes técnicas de cuantización y destilado, que permiten comprimir modelos de lenguaje gigantes en versiones más pequeñas hasta llegar a poder correrlos en computadoras de escritorio (aunque el precio a pagar haya sido una reducción a veces inadmisible en su capacidad). Todo parece indicar que esta optimización en el tamaño está en una curva de progreso positiva y que estamos cerca de modelos de lenguaje chicos (SLM, por sus siglas en inglés), buscando llegar al smartphone.
Por el lado negativo, no hubo avances significativos respecto al control de las famosas alucinaciones, los textos falsos que los modelos pueden generar con verosimilitud. Este problema, pintoresco al comienzo, parece quedar confirmado como una característica estructural de esta tecnología. Quienes la utilizamos en nuestro día a día laboral sabemos lo frustrante que es trabajar con una herramienta que parece experta y que en general se comporta como tal pero que, el 10% de las veces, comete un error grosero sin darse cuenta o directamente inventa cualquier cosa. De este modo, Yan Lecunn -líder de Meta AI y un peso pesado de la industria- se anota para sí un logro, considerando que sostuvo una postura más bien deflacionista sobre los LLM durante el pico de entusiasmo de 2023.
Pero marcar limitaciones en los LLMs no significa que se haya saldado el debate sobre de qué serán capaces y hasta dónde podrán llevarnos. Por ejemplo, Sam Altman cree que el actual programa de investigación todavía tiene mucho para dar antes de chocarse con una pared y el mercado, como veremos en breve, parece apoyarlo. Muchos de los avances de que vimos en estos dos años también. Hemos visto a OpenAI lanzar su asistente por voz y una versión mejorada que permite una interacción casi en tiempo real, con interrupciones (como entre humanos) y no por turnos. También vimos, recientemente, las primeras tentativas avanzadas de LLMs con acceso y control de la computadora de los usuarios, como fue el caso de la demo de 4o (aún no lanzado) y de Claude 3.5, que sí está disponible para el usuario final. Esta herramienta es muy primitiva aún, pero es una muestra de cómo podrá verse el futuro cercano con LLMs con mayor capacidad de agencia. En la misma línea, se dieron múltiples avances en lo que respecta a la automatización de la ingeniería de software, con hitos debatibles como el caso de Devin, el primer “ingeniero de software artificial”, cuya demo fue fuertemente criticada, pero muestra avances indiscutibles e impactantes. En el benchmark SWE-bench, utilizado para evaluar las capacidades de la IA de resolver problemas de ingeniería de software, los mejores modelos a principio de año salían airosos en menos de un 13% de los ejercicios, mientras que a la fecha este valor está por encima del 49%. Se justifica la confianza en el programa de investigación actual para lograr que los LLMs con accesorios desarollen mayor capacidad de planeamiento y resolución de tareas complejas.
En una línea similar, el anuncio reciente del modelo o1, que según sus creadores da los primeros pasos en el mundo del razonamiento, anticipa una línea de investigación con mucho potencial, a pensar de que la versión publicada (o1-preview) no este tan lejos de lo conocido. En efecto, o1 parte de una idea novedosa: apalancarse en el tiempo de inferencia - y no en el de entrenamiento- para mejorar la calidad de la respuesta generada. Entonces, el LLM no genera inmediatamente la primera palabra más probable, sino que tiene la capacidad de “detenerse a pensar” antes de empezar a hablar. Uno de los investigadores de la empresa sugirió que se apunta a que eventualmente estos modelos utilicen horas o días de cómputo antes de generar una respuesta. Los resultados preliminares mostrados despertaron expectativas, ya que el uso del tiempo de inferencia para optimizar la calidad no estaba sobre la mesa hasta ese momento. Quedamos a la espera de las subsiguientes versiones de esta línea (o2, o3, o4) para corroborar si la misma es tan prometedora como hoy parece.
Más allá de los modelos de lenguaje, estos dos años implicaron enormes avances en otros frentes. La primera mención debe ser a la generación de imágenes, los modelos text-to-image que empezaron a despegar incluso antes que los chatbots y continuaron desarrollándose a un ritmo acelerado hasta desbordar a la generación de video, que llegó a un punto alto con la presentación de Sora de OpenAI, capaz de generar videos de calidad altísima, si bien el producto no se hizo público aún. Quizás un poco menos conocidos pero con avances igualmente asombrosos son los campos de la generación de música, con plataformas como Suno y Udio. Finalmente, la generación de voz también atravesó una revolución y logró estándares de calidad altísimos, con Eleven Labs a la cabeza.
Fueron sin duda dos años intensos de grandes avances tecnológicos y novedades casi diarias para quienes estamos involucrados en el área.
El boom de mercado
Si llevamos nuestra mirada en el aspecto financiero del fenómeno, vamos a ver ingentes cantidades de capitales volcándose al mundo de la IA de forma sostenida y creciente. Actualmente estamos en plena fiebre del oro de la IA y nadie quiere quedarse afuera de una tecnología que sus inventores, modestos, presentaron como equivalente a la máquina de vapor, la imprenta o Internet.
Quizás sea sintomático que la empresa que más capitalizó esta fiebre no venda IA sino el hardware que ella utiliza de infraestructura, cumpliendo con aquél viejo saber popular que dice que durante la fiebre del oro una buena forma de hacerse rico era vender palas y picos. Como mencioné anteriormente, Nvidia se posicionó como la compañía más valiosa del mundo al alcanzar una capitalización de 3.5 “trillions” o millones de millones. Para dar un contexto, 3,500,000,000,000 USD es un número muy superior al PBI de Francia.
Por otro lado, mirando la lista de compañías públicas de mayor valor de mercado vamos a encontrar a las tecnológicas vinculadas parcial o totalmente a las promesas de la IA dominando el podio. Apple, Nvidia, Microsoft y Google son las primeras cuatro a la fecha en que escribo y entre las cuatro superan los 12T USD de capitalización. A modo de referencia, en noviembre de 2022 la capitalización combinada de estas 4 empresas era de menos de la mitad de este valor. Mientras tanto, startups de IA generativa en Silicon Valley recaudan inversiones récord. Como diría Maslatón, el mercado está bullish.
Mientras que la tecnología avanza sin frenos, el modelo de negocios de la IA generativa, más allá de aquél de los grandes proveedores de LLMs y algunos casos particulares, no parece estar claro. Mientras este frenesí alcista sigue su curso, algunas voces, entre ellas el reciente nobel de economía Daron Acemoglu, se muestran escépticas sobre la capacidad de la IA de pagar todo el dinero que se está volcando en ella. Por ejemplo, en esta entrevista con Bloomberg, Acemoglu sostiene que la IA generativa actual sólo podrá automatizar menos del 5% de las tareas existentes en la próxima década y eso mal podría ser la revolución productiva que las inversiones esperan.
¿Es esta la fiebre de la IA o más bien el delirio febril de la IA? Por ahora, el rally alcista no se detiene y como con cualquier burbuja, con el diario del lunes va a ser muy fácil verla explotar en retrospectiva. Pero mientras estamos aquí adentro no es obvio si habrá una corrección y, si la hubiera, cuando será. ¿Estamos en una burbuja pronta a reventar como cree Acemoglu o, como sugirió un inversor, Nvidia está en camino a ser una compañía de más de 50 millones de millones de USD en una década? Esta es la pregunta del millón y, lamentablemente querido lector, no sé la respuesta. Todo parece indicar que, así como en la burbuja dot com, saldremos de esta situación con algunas empresas surfeando la ola y muchas debajo del agua. Mis únicas sugerencias son las siguientes: desconfiar de cualquiera que transmita una sensación de certeza marcada y considerar siempre la posibilidad de una corrección de mercado fuerte si se quiere invertir en las grandes tecnológicas.
Impacto social
Hablemos ahora del impacto más amplio que tuvo el desembarco de la IA generativa a nivel social. El salto de calidad de ChatGPT respecto del horizonte tecnológico socialmente conocido hasta su lanzamiento generó mucho revuelo a nivel social, abriendo debates sobre las oportunidades y los riesgos de esa tecnología concreta, así como de las oportunidades y riesgos que podrían implicar desarrollos tecnológicos más avanzados.
El problema del futuro
La cuestión relacionada con la cercanía de una inteligencia artificial general (AGI), una IA que alcance capacidades humanas o sobrehumanas, comenzó a tomar relevancia pública cuando Geoffrey Hinton (el ahora premio Nobel de física) renunció a su cargo en Google para alertar sobre los riesgos que ese desarrollo podría suponer. El riesgo existencial -la posibilidad de que una IA de capacidades superiores se salga de control y nos aniquile o, al menos, someta- salió del orden de la ficción para convertirse en un asunto político concreto. Vimos a grandes personalidades, en general de perfiles moderados y poco alarmistas, mostrandose preocupadas en debates públicos y hasta en audiencias del senado norteamericano. Alertaron sobre la posibilidad de una Inteligencia Artificial General llegando en los próximos 10 años y sobre los grandes problemas que esto implicaría (para un panorama más amplio del problema del riesgo existencial refiero al lector a mi capítulo de [Ok, Pandora]).
La sensación de urgencia que tuvo ese debate parece haber quedado atrás y hoy la AGI parece, en perspectiva, más lejos que en 2023. Es normal que inmediatamente después de un logro se tienda a sobreestimarlo, así como es normal que pasado un tiempo se tienda a subestimarlo. De hecho, este último efecto tiene un nombre: el efecto IA, según el cual los grandes logros del campo quedan diluídos pasado un tiempo y dejan de ser considerados “verdaderamente inteligencia”. Que la capacidad de generar discurso, al igual que la capacidad de jugar al ajedrez, ya no resulte sorprendente, no debe apartarnos de la línea temporal de progresos de esta tecnología. En 1997 Deep Blue venció al campeón de ajedrez Garry Kasparov, en 2016 la IA AlphaGo venció al maestro del Go Lee Sedol y en 2022 ChatGPT produjo discurso articulado de alta calidad, llegando a poner en cuestión al mismísimo test de Turing, un famoso e histórico criterio que nos servía para decidir si una máquina era inteligente o no. Es importante sostener la relevancia de la discusión sobre riesgos futuros cuando estos dejan de verse como algo inminente y urgente. De otra manera, las oleadas de temor y calma impiden un debate maduro. Sea siguiendo la línea de investigación abierta por o1 o por nuevos caminos, es probable que de acá a unos pocos años veamos un avance con la jerarquía de acontecimiento que tuvo ChatGPT en 2022 y sería prudente dar las discusiones relevantes antes de que eso ocurra.
Un capítulo aparte sobre la AGI y la seguridad de la IA fue el culebrón corporativo de OpenAI. A fines de 2023 Sam Altman fue destituido abruptamente por la junta directiva. Aunque nunca se aclararon todos los detalles, los detractores de Altman señalaron una supuesta cultura de secretismo y desavenencias sobre cuestiones de seguridad en el desarrollo de la IA. La medida provocó una rebelión inmediata entre los empleados de la empresa y atrajo la atención de Microsoft, su mayor inversor. En un giro dramático, Altman fue restituido y la junta directiva que lo había echado fue destituida. Este conflicto dejó una grieta en OpenAI: Jan Leike, el investigador líder en seguridad, se unió a Anthropic, mientras que Ilya Sutskever, cofundador y figura central de la IA de OpenAI, partió para crear Safe Superintelligence Inc, confirmando de alguna manera que el conflicto original tenía que ver con la importancia dada a la seguridad. Para concluir, recientemente corrieron rumores sobre la eliminación de estatus de ONG de OpenAI y sobre el otorgamiento de acciones a Altman, generando otra ola de renuncias en la cúpula de la empresa que intensificaron la sensación de inestabilidad.
Desde una perspectiva técnica, vimos un avance muy importante en lo que respecta a la seguridad de la IA del lado de Anthropic. La empresa logró un hito fundamental de interpretabilidad respecto de los LLMs, permitiendo entender un poco mejor la caja negra que son estas arquitecturas. Con su descubrimiento sobre el carácter polisemántico de las neuronas y su método para extraer patrones de activaciones neuronales que representan conceptos, la principal barrera para controlar a los modelos transformers parece haber caído, al menos en lo que respecta a la capacidad potencial para engañarnos. La posibilidad de afectar los circuitos a voluntad torciendo la conducta observable de estos modelos también resulta prometedora y trajo un poco de tranquilidad respecto del gap entre capacidades de los LLMs y nuestra comprensión de los mismos.
Los problemas del presente
Dejando de lado el futuro de la IA y sus potencialidades, pasemos a hablar de los impactos concretos de la IA generativa. A diferencia de lo que fue la llegada de Internet y de las redes sociales, esta vez la sociedad pareció reaccionar rápidamente y mostrarse atenta y preocupada por las implicaciones y los desafíos que pudiera suponer esta nueva tecnología. Además del debate profundo sobre el riesgo existencial que acabamos de mencionar, relacionado con el desarrollo tecnológico futuro y con la pregunta por la velocidad del progreso, también se discutieron ampliamente los impactos de los modelos de lenguaje existentes. Los focos de problemas de la IA generativa son varios, pero quizás los tres más destacados sean: el temor a una potenciación de la desinformación y la contaminación digital, los grandes problemas con el copyright y el uso de datos privados y el impacto en la productividad y el mercado laboral.
Respecto de la desinformación, este trabajo sugiere que, al menos por ahora, no vimos incrementada de una manera significativa el nivel de desinformación al que estamos expuestos. Es difícil decirlo a ciencia cierta, pero mis impresiones personales son similares: si bien la desinformación es fuerte, y quizás se haya incrementado incluso en los últimos años, no atravesó ningún cambio de fase significativo que pueda ser atribuíble a la emergencia de la IA generativa. Con esto obviamente no se quiere sugerir que la desinformación no sea un problema gravísimo de hoy en día. La tesis es más débil: la IA generativa no parece haber tenido, al menos hasta ahora, un impacto significativo sobre ese problema.
Sí hemos visto deep fakes como es el caso de noticias recientes de producción y distribución de material pornográfico generado con IA utilizando rostros de personas reales y, más gravemente, varios casos en escuelas donde los sujetos afectados son niñas menores. Esto reviste la mayor gravedad y es necesario apuntalar los sistemas judiciales y policiales para abordarlo, pero parece a priori controlable y, en el gran esquema de las cosas, representa impactos relativamente menores comparado con una posible pesadilla de desinformación detonada por la IA generativa. Quizás los sistemas legales tarden más de lo que quisiéramos, pero hay indicios de que las instituciones quizás estén a la altura de las circunstancias al menos en lo que a deep fakes porno de menores se refiere, como ilustra la condena ejemplar de 18 años que recibió un personaje en el Reino Unido por crear y distribuir tal material.
Finalmente, respecto al impacto en el mercado laboral y la productividad -la otra cara del boom de mercado- el debate no parece estar saldado ni es claro el alcance que pueda tener, tanto en el incremento de la productividad de los trabajadores como en la reducción o el aumento de puestos de trabajo. Si uno ingresa a internet encontrará opiniones muy diversas sobre el impacto que tendrá esta tecnología. Escuchamos cosas como “la IA reemplaza tareas, no personas” o “no va a reemplazarte una IA sino una persona usando IA” dichas con mucha seguridad y sin ninguna fuente, algo que recuerda a las alucinaciones de un modelo de lenguaje. Es verdad que ChatGPT no puede realizar tareas complejas y, quienes lo usamos en nuestro día a día, sabemos todos los enormes y frustrantes límites que tiene. Pero también es verdad que tareas como redactar un email profesional o revisar cantidades grandes de texto en busca de alguna información puntual se volvieron muchísimo más rápidas. Hablando de lo que sé puedo decir que en el mundo de la programación y la ciencia de datos, la productividad aumentó enormemente con los entornos de programación asistidos por IA como Copilot o Cursor. En mi equipo, los perfiles de menor seniority lograron mayor autonomía y todos producimos código con más velocidad que antes. Sin embargo, esa misma velocidad podría ser un arma de doble filo y algunos estudios sugieren que el código generado con asistentes de IA generativa sería de peor calidad que el generado por humanos sin esta asistencia.
Si el impacto de los LLM existentes no está del todo claro, a eso debemos sumarle la incertidumbre aparejada a los grandes avances en tecnologías asociadas, como la línea de investigación que abre o1 o el control de escritorio que anticipa Claude 3.5. Y mientras el mercado apuesta fuerte a un boom de productividad marcado por la IA generativa, muchas voces serias minimizan el impacto potencial de esta tecnología en el mercado laboral, como mencionamos anteriormente al hablar del aspecto financiero del fenómeno. En principio, las limitaciones más fuertes (las alucinaciones) no sólo no fueron resueltas sino que cada vez parecen más irresolubles al tiempo que las instituciones humanas se mostraron menos ágiles y revolucionarias que la tecnología en sí misma, poniendo paños fríos a la conversación y bajando un poco los decibeles de quienes se imaginaba un impacto masivo e inmediato.
En todo caso, la promesa de una revolución masiva en el ámbito laboral si es que va a concretarse, al menos en estos dos años aún no se concretó. Considerando la acelerada adopción de esta tecnología (según este estudio, más del 24% de los trabajadores estadounidenses hoy usan IA generativa al menos una vez por semana) y suponiendo que los primeros en adoptarla sean quizás los que mayores beneficios encuentren, podemos pensar que ya hemos visto bastante del impacto potencial. En lo que respecta a mi día a día profesional y al de mi equipo de trabajo, el efecto sobre la productividad hasta la fecha, si bien fue notorio, importante y visible, también fue modesto.
Otro de los grandes desafíos que trajo consigo el surgimiento de la IA generativa fue los problemas en torno a los derechos de autor. Creadores de contenido -incluyendo artistas, escritores y empresas de medios- expresaron su descontento al ver que obras de su propiedad fueron utilizadas sin autorización para entrenar IAs generativas, lo cual consideran una violación a sus derechos de propiedad intelectual. La otra cara de la moneda la representan las empresas de IA, argumentando que el uso de material protegido para el entrenamiento de modelos está amparado bajo el concepto de "uso legítimo" (fair use) y que la producción de estos modelos no es una reproducción sino una transformación legítima y creativa de las obras.
Este conflicto derivó en una gran cantidad de juicios, como el caso de Getty Images contra Stability AI por el uso no autorizado de imágenes para entrenar modelos, o las demandas de artistas y autores, como la presentada por Sarah Silverman contra OpenAI, Meta y otras empresas de IA. Otro caso destacado es la demanda de compañías discográficas contra Suno y Udio, en la que se alega la infracción de derechos de autor al utilizar canciones protegidas para entrenar modelos de IA generativa de música.
En esta reedición futurista de la vieja diferencia entre la inspiración y el plagio, hasta ahora, los casos judiciales no inclinaron claramente la balanza hacia un lado u otro. Los tribunales permitieron que algunos aspectos de las demandas avancen, mientras que otros fueron desestimados, lo que sostiene un escenario de incertidumbre. Las recientes presentaciones judiciales y la postura de las empresas, incluyendo estrategias como la indemnización a clientes de Adobe, Google y OpenAI, demuestran que la cuestión sigue sin resolverse de manera definitiva.
El marco regulatorio de la IA también experimentó avances importantes, siendo el más destacado de este lado del globo la aprobación del AI Act por parte de la Unión Europea en marzo de 2024. Esta legislación posicionó a Europa como el primer bloque del mundo en adoptar un marco regulatorio integral para la IA, estableciendo un sistema de etapas para asegurar el cumplimiento, cuya implementación comenzará en febrero de 2025 y avanzará de forma escalonada.
El AI Act clasifica los riesgos de la IA, restringiendo los casos de “riesgo inaceptable” como el uso de la tecnología para engañar o realizar puntuaciones sociales. Aunque durante la discusión se lograron suavizar ciertas disposiciones, asegurando reglas básicas aplicables a todos los modelos y regulaciones más estrictas para aplicaciones en contextos sensibles, la industria ha manifestado inquietudes sobre la carga que esta normativa representa. Si bien el AI Act no fue una consecuencia de ChatGPT y estaba en discusión previamente, su aprobación fue acelerada por la repentina aparición y el impacto de la IA generativa.
Con estas tensiones, oportunidades y desafíos, queda claro que el impacto de la IA generativa marca el comienzo de una nueva etapa de transformaciones profundas en lo social, económico y legal, cuyos alcances aún estamos empezando a comprender.
Se vienen cositas
Me acerqué a este artículo pensando que el boom de ChatGPT había pasado y esa onda expansiva hoy estaba deteniéndose, calmándose. Pasar revista por los acontecimientos de los últimos dos años me convenció de lo contrario: fue un tiempo de muchos avances a mucha velocidad.
Vivimos un presente de excitación y de expectativas: una primavera de la IA con todas las letras, con avances impresionantes que no dejan de ocurrir y con líneas de investigación prometedoras listas para ser exploradas. Por otro lado, son tiempos de incertidumbre. La sospecha de estar en una burbuja y la expectativa de una corrección bursátil y emocional de magnitud es más que razonable. Pero como con cualquier corrección de mercado, lo importante no es predecir que ocurrirá, sino saber exactamente cuándo.
¿Qué pasará en 2025? ¿Colapsarán las acciones de Nvidia o, al contrario, la compañía seguirá su rally alcista bajo la promesa de convertirse en una empresa de más de 50 billones de dólares en 10 años? ¿Y qué pasará con el mercado bursátil de la IA en general? Por otro lado, ¿qué pasará con la línea de investigación de modelos que razonan abierta por o1? ¿Tocará un techo o comenzará a mostrar progresos, así como la línea GPT avanzó en sus versiones 1, 2, 3 y 4? ¿Cuánto mejorarán los hoy rústicos agentes basados en LLM que controlan escritorios y entornos digitales en general?
Lo sabremos más temprano que tarde, porque hacía allá es hacia dónde vamos.
Se puede acceder a una traducción en inglés de este artículo en Towards Data Science.