Ética IA

El alma de la máquina: fundamentos epistemológicos, marcos normativos y gobernanza constitucional en el alineamiento de la inteligencia artificial generativa

Introducción

La inteligencia artificial ha dejado de ser una promesa lejana para convertirse en el horizonte inmediato sobre el que se reconfiguran las estructuras económicas, políticas y cognitivas de las sociedades contemporáneas. Sin embargo, a medida que los grandes modelos de lenguaje (LLM) y los sistemas autónomos ganan capacidad predictiva y autonomía decisional, emerge una paradoja que desafía el imaginario tecnocrático dominante: los problemas más acuciantes de la inteligencia artificial no son, en el fondo, problemas de escalado computacional, de eficiencia algorítmica o de disponibilidad de datos, sino problemas de fundamentación normativa, de coherencia epistemológica y de legitimidad moral. En este contexto, los grandes laboratorios de IA han comenzado a reclutar filósofos con una intensidad sin precedentes, no como ornamento intelectual ni como concesión a las exigencias de la responsabilidad social corporativa, sino como piezas estructurales en los procesos de entrenamiento, alineamiento y gobernanza de los modelos más avanzados del planeta.

Esta incorporación masiva de talento humanístico al corazón de la industria tecnológica constituye un fenómeno que exige un análisis detenido, tanto por sus implicaciones prácticas como por sus resonancias teóricas. Durante la década de 2010, el discurso hegemónico en la formación universitaria insistía en que las humanidades debían ceder paso a la codificación, bajo el supuesto de que el dominio del lenguaje de programación era la llave maestra del empleo futuro. Los datos más recientes, sin embargo, invierten esta narrativa. El informe del Banco de la Reserva Federal de Nueva York correspondiente a 2024 revela que los graduados en filosofía presentan una tasa de desempleo del 5,1%, significativamente inferior al 7% registrado entre los titulados en informática (1). Esta inversión estadística no es un mero accidente coyuntural, sino el síntoma de una transformación estructural en la demanda de competencias: la industria de la IA necesita profesionales capaces de navegar la ambigüedad normativa, de articular distinciones conceptuales precisas y de anticipar las ramificaciones éticas de sistemas que operan en el límite de lo cognoscible.

El filósofo Luciano Floridi, catedrático en la Universidad de Yale, ha descrito la magnitud de este trasvase de talento como una auténtica "hemorragia" de los departamentos de filosofía hacia las empresas tecnológicas (2). Los estudiantes reciben ofertas de empleo antes siquiera de haber completado sus estudios, y los académicos consolidados abandonan la carrera universitaria para incorporarse a equipos de investigación aplicada en laboratorios como DeepMind, OpenAI o Anthropic. El caso de Henry Shevlin, contratado por Google DeepMind con el título explícito de "filósofo" para abordar cuestiones relativas a la conciencia de las máquinas, las relaciones humano-IA y la preparación para la inteligencia general, ejemplifica la nueva centralidad de la reflexión filosófica en el ecosistema tecnológico (3). De manera análoga, Amanda Askell, filósofa de formación, lidera en Anthropic el equipo encargado de redactar y actualizar la constitución interna que rige el comportamiento del modelo Claude, un documento que los propios empleados han bautizado informalmente como el "documento del alma" (soul doc) de la máquina (16).

Esta tendencia, sin embargo, no debe interpretarse como una mera moda corporativa ni como una estrategia de legitimación simbólica. La filosofía, en su vertiente más rigurosa, ofrece a los desarrolladores de IA herramientas conceptuales que resultan irremplazables para abordar tres desafíos fundamentales del alineamiento: la consistencia epistemológica, la elección de marcos normativos y la gobernanza de sistemas autónomos en contextos de incertidumbre radical. El presente artículo sostiene como hipótesis central que la incorporación de filósofos a los equipos de desarrollo de IA no constituye un complemento accesorio ni una concesión retórica, sino un requisito estructural para garantizar la fiabilidad, la seguridad y la legitimidad democrática de los modelos generativos. Lejos de ser un lujo humanístico en un mundo dominado por la eficiencia computacional, la reflexión filosófica se revela como una ingeniería de la confianza: el conjunto de prácticas y procedimientos destinados a dotar a los sistemas artificiales de criterios de acción justificables, consistentes y, en última instancia, responsabilizables.

Esta tesis adquiere particular relevancia en el marco del Reglamento (UE) 2024/1689 del Parlamento Europeo y del Consejo, de 13 de junio de 2024 [en adelante, RIA], que incorpora en sus artículos 13, 50 y 86 obligaciones de transparencia, explicabilidad y derecho a información respecto de los sistemas de IA de alto riesgo y los modelos de propósito general. La pregunta filosófica sobre qué principios deben guiar el comportamiento de un sistema autónomo no es ajena a la pregunta jurídica sobre qué tipo de rendición de cuentas exige el ordenamiento europeo: ambas convergen en la necesidad de articular, con rigor conceptual y normativo, los valores que los sistemas de IA deben incorporar y hacer inteligibles.

Para desarrollar esta tesis, el artículo se articula en siete capítulos que recorren desde el diagnóstico empírico del fenómeno hasta sus implicaciones normativas y críticas. El capítulo primero examina las dinámicas laborales que han propiciado esta absorción de talento humanístico, analizando los datos de empleo, las declaraciones de actores clave y la estructura organizativa de los equipos de ética en los principales laboratorios. El capítulo segundo se adentra en el terreno epistemológico, explorando cómo el método socrático y la noción de "ignorancia socrática" han sido incorporados al entrenamiento de modelos para mitigar la sobreconfianza y reducir las alucinaciones, dos de los problemas más persistentes en los LLM actuales. El capítulo tercero aborda el duelo normativo entre deontología y consecuencialismo, dos grandes tradiciones éticas que informan de manera diferenciada el diseño de sistemas como Claude, Pi, Gemini o ChatGPT, y cuyas elecciones tienen consecuencias tangibles en ámbitos tan críticos como la conducción autónoma o los sistemas de armas.

El capítulo cuarto se centra en el fenómeno más innovador y, al mismo tiempo, más controvertido del alineamiento actual: el constitucionalismo de IA. A partir del análisis de la constitución de Claude, se examina cómo los principios filosóficos pueden formalizarse en un artefacto normativo que guía el entrenamiento iterativo del modelo, y se discuten las tensiones entre estándares amplios y reglas estrictas que subyacen a este enfoque. El capítulo quinto desciende al nivel de la aplicación práctica, analizando el rol del filósofo supervisor en el entrenamiento mediante refuerzo con retroalimentación humana (RLHF) y la posible aplicación de metodologías como el equilibrio reflexivo amplio para la justificación moral dinámica. El capítulo sexto aborda las consecuencias no deseadas de esta delegación ética, en particular el fenómeno del "desentrenamiento moral" (moral deskilling), y explora los riesgos de erosión de la capacidad de juicio autónomo en una sociedad que confía cada vez más sus decisiones a sistemas automatizados. Finalmente, el capítulo séptimo eleva la mirada a un plano crítico y de gobernanza, examinando las acusaciones de "lavado ético" (ethics-washing), el déficit democrático en la redacción de constituciones algorítmicas y la necesidad de abrir la definición de los principios fundacionales a la deliberación pública.

La metodología del artículo combina el análisis conceptual propio de la tradición filosófica con el examen empírico de documentos corporativos, informes económicos y estudios experimentales publicados en revistas de reconocido prestigio. Se recurre tanto a fuentes primarias —como la constitución de Anthropic, los informes del Banco de la Reserva Federal y los documentos internos de los laboratorios— como a fuentes secundarias —artículos de revisión por pares, análisis legales y crónicas periodísticas de alta calidad—. El sistema de citas, numerado secuencialmente, permite rastrear cada afirmación hasta su origen documental, mientras que la bibliografía final recoge la totalidad de las referencias empleadas.

El título del artículo, "El alma de la máquina", evoca deliberadamente la célebre expresión cartesiana de la res cogitans, pero la invierte y la desplaza. No se trata de indagar si las máquinas piensan, cuestión que ha ocupado durante décadas a la filosofía de la mente, sino de preguntarse cómo los seres humanos estamos construyendo deliberadamente estructuras normativas que aspiran a dotar a los artefactos de una suerte de "carácter" o "temperamento" ético. La metáfora del alma no remite a una sustancia inmaterial ni a una chispa divina, sino al conjunto de principios, jerarquías de valores y procedimientos de razonamiento que, incorporados en el código y en los procesos de entrenamiento, confieren a los modelos una identidad moral diferenciada. Esta identidad, sin embargo, no es ni neutra ni inocente: refleja elecciones filosóficas, intereses corporativos y concepciones de la vida buena que merecen ser sometidas al escrutinio crítico de la sociedad en su conjunto.

En este sentido, la pregunta última que atraviesa todo el artículo no es técnica, sino profundamente política y antropológica: ¿qué tipo de agentes queremos que pueblen nuestro futuro? ¿Cómo aseguramos que las decisiones éticas incorporadas en los algoritmos sean revisables, contestables y, en última instancia, responsables ante los ciudadanos? La filosofía no ofrece respuestas definitivas a estas preguntas, pero proporciona el vocabulario y los procedimientos para formularlas con claridad, para desbrozar sus presupuestos ocultos y para imaginar alternativas a las soluciones que el mercado tecnológico presenta como inevitables. Lejos de ser un saber arcaico condenado a la irrelevancia, la filosofía emerge hoy como una disciplina de primera línea en la configuración del futuro de la inteligencia artificial, y su incorporación a los laboratorios de IA es, quizás, el indicio más elocuente de que el espíritu crítico sigue siendo irremplazable incluso —o especialmente— en la era de los algoritmos.

Capítulo 1. El despertar del filósofo-ingeniero: dinámicas laborales y absorción del talento humanístico en los laboratorios de IA

1.1. El giro de los datos de empleo: análisis del informe del Banco de la Reserva Federal de Nueva York

La transformación del mercado laboral asociada a la inteligencia artificial ha dado lugar a una paradoja que desafía las expectativas convencionales sobre la empleabilidad de las distintas disciplinas académicas. Durante más de una década, el discurso predominante en la orientación vocacional y en las políticas educativas insistía en que las humanidades debían ceder paso a la formación técnica, bajo el supuesto de que el dominio de la programación y las competencias STEM constituían la garantía más sólida de inserción laboral en la economía digital. Los datos más recientes, sin embargo, sugieren una inversión de esta tendencia que merece un análisis detenido.

A principios de 2026, el Banco de la Reserva Federal de Nueva York publicó su informe anual sobre los resultados laborales de los graduados universitarios por especialidad, correspondiente al año 2024 (1). Las cifras revelaron un dato sorprendente: los titulados en Filosofía registraban una tasa de desempleo del 5,1%, significativamente inferior al 7% registrado entre los graduados en informática (8). Esta inversión de la relación esperada entre formación técnica y empleabilidad no es un fenómeno aislado ni coyuntural, sino que se inscribe en una tendencia más amplia de revalorización de las competencias humanísticas en el ecosistema tecnológico. Tal como señala Thibault Spirlet en Business Insider, los graduados en filosofía, que durante años habían sido objeto de "bromas sobre titulaciones inempleables", pueden ahora acceder a salarios de seis cifras en las empresas de inteligencia artificial más poderosas del mundo, donde se les encomienda la tarea de "dar forma a cómo las máquinas piensan y se comportan" (15).

La significación de estos datos trasciende la mera anécdota estadística. Lo que el informe de la Reserva Federal revela es un cambio estructural en la demanda de competencias por parte de la industria tecnológica. Mientras que la automatización impulsada por la propia IA ha comenzado a erosionar la demanda de programadores y desarrolladores, la necesidad de profesionales capaces de abordar problemas de fundamentación normativa, consistencia epistemológica y legitimidad moral ha experimentado un crecimiento exponencial. Como señala Lance Eliot en Forbes, la informática se ha convertido en una "empresa sin salida" en la medida en que genera "una automatización que reemplaza a los humanos que la hicieron posible" (15). En este contexto, la filosofía está experimentando lo que algunos analistas han calificado como un "asombroso arco de redención" (15).

Henry Ajder, posgraduado en filosofía que asesora al gobierno británico y a numerosas empresas emergentes en materia de inteligencia artificial, ha resumido esta transformación con una ironía que no oculta su carácter revelador: "Probablemente este sea el mejor momento para ser filósofo desde que Aristóteles fue contratado como tutor de Alejandro Magno" (10). La comparación apunta a una verdad profunda: la inteligencia artificial ha situado en el centro del debate público preguntas que han sido objeto de reflexión filosófica durante siglos. ¿Qué es pensar? ¿Qué es la mente? ¿Qué significa tener agencia? ¿Cómo se justifican las decisiones morales en contextos de incertidumbre? Estas cuestiones, que la filosofía ha abordado desde sus orígenes, se han convertido en problemas de ingeniería práctica que los laboratorios de IA deben resolver para desplegar sistemas seguros y fiables.

1.2. La "hemorragia" académica: la fuga de cerebros de los departamentos de filosofía hacia la industria

El impacto de esta creciente demanda de talento filosófico en el sector tecnológico no se limita a los recién graduados, sino que está afectando profundamente a la propia estructura de la academia filosófica. Luciano Floridi ha descrito la magnitud de este trasvase de talento como una auténtica "hemorragia" (8). Según Floridi, los estudiantes de filosofía reciben ofertas de trabajo incluso antes de completar sus estudios, y los académicos consolidados abandonan las universidades para incorporarse a empresas tecnológicas en números sin precedentes (9).

Esta "hemorragia" no es meramente cuantitativa, sino también cualitativa. Los filósofos que abandonan la academia no ocupan puestos periféricos o meramente consultivos, sino que se integran en los equipos centrales de desarrollo de los modelos más avanzados del planeta. Como señala un análisis publicado en WIRED, en la actualidad "hay muchos más filósofos en esas áreas" (10). La revista contabiliza al menos diez filósofos en plantilla en DeepMind y cuatro en Anthropic, aunque ambos laboratorios han declinado revelar las cifras exactas (10). Lo significativo no es tanto el número absoluto como la naturaleza de las funciones que desempeñan: los filósofos en los laboratorios de IA no son asesores externos ni consultores ocasionales, sino "investigadores que participan en la construcción de los propios modelos" (10), integrados como ingenieros de la confianza.

El fenómeno tiene implicaciones profundas para el futuro de la filosofía como disciplina académica. Edward Harcourt, profesor de filosofía y director del Instituto de Ética en IA de la Universidad de Oxford, observa que "es la tendencia del momento" (10). Muchas universidades de renombre están incorporando cursos de ética de la IA o programas conjuntos de informática y filosofía a sus planes de estudio (10). Sin embargo, no todos los académicos ven con buenos ojos esta creciente vinculación entre la filosofía y la industria tecnológica. Harcourt ha advertido sobre el riesgo de que los filósofos que trabajan para empresas con fines de lucro se conviertan en instrumentos para "generar expectación y crear mitos justificantes" (10). En sus propias palabras, "es muy positivo para la imagen pública de las empresas tecnológicas que la gente crea que están haciendo algo increíblemente inusual y sumamente poderoso. Hay algo de autoelogio en fomentar ese campo de investigación" (10).

Esta tensión entre la integración industrial y la independencia crítica no es nueva en la historia de la filosofía, pero adquiere una intensidad particular en el contexto actual. La cuestión que subyace a las reservas de Harcourt es si la filosofía puede mantener su función de interrogación radical y de crítica de los presupuestos establecidos cuando sus practicantes están directamente empleados por las mismas corporaciones cuyos fundamentos deberían cuestionar. No se trata de una objeción menor, sino de un desafío epistemológico y ético que atraviesa todo el fenómeno analizado, y al que habremos de volver en capítulos posteriores.

1.3. Mapeo de los equipos de ética en DeepMind, OpenAI y Anthropic: el filósofo como figura central

Para comprender la magnitud y la naturaleza de la incorporación de filósofos a la industria de la IA, resulta instructivo examinar la configuración de los equipos de ética y alineamiento en los tres laboratorios más influyentes del sector: DeepMind, OpenAI y Anthropic. Cada uno de ellos ha adoptado un enfoque diferenciado, pero todos comparten una característica común: la presencia de filósofos en posiciones de liderazgo y responsabilidad directa sobre el comportamiento de los modelos.

En Google DeepMind, la figura más destacada es Iason Gabriel, filósofo sénior que dirige el equipo de investigadores especializado en el impacto social de la IA (9). Gabriel, que se unió a DeepMind hace casi una década, ha sido testigo y protagonista de la evolución de la reflexión ética en el seno de la empresa. En sus inicios, su trabajo se centraba en cuestiones relativamente acotadas, como el sesgo algorítmico. Sin embargo, con la llegada de los grandes modelos de lenguaje a principios de la década de 2020, "tuvimos la capacidad de codificar un conjunto de valores mucho más rico", explica Gabriel (10). Hoy en día, los agentes de IA están empezando a enviar correos electrónicos, a tomar decisiones autónomas y a interactuar con el mundo de formas que requieren un escrutinio filosófico continuo.

La contratación más reciente de DeepMind, anunciada en abril de 2026, ha llamado especialmente la atención por su singularidad. Henry Shevlin, investigador en ética de la IA en la Universidad de Cambridge y director asociado del Leverhulme Centre for the Future of Intelligence, ha sido reclutado para un puesto de nueva creación con el título explícito de "Filósofo" (11). Shevlin, cuya formación se centra en la ciencia cognitiva y la filosofía de la mente, trabajará en tres áreas fundamentales: la conciencia de las máquinas, las relaciones humano-IA y la preparación para la era de la inteligencia artificial general (AGI) (12). Lo que hace particularmente significativo este nombramiento es que Shevlin mantiene su puesto en Cambridge a tiempo parcial, lo que sugiere un modelo híbrido de colaboración entre la academia y la industria que podría convertirse en referente para futuras contrataciones (11).

En Anthropic, la figura central es Amanda Askell, una filósofa escocesa con un doctorado por la Universidad de Nueva York que se incorporó a la empresa en 2021, tras dos años en OpenAI (14). Askell lidera el equipo de alineamiento de personalidad de Anthropic y se ha convertido en uno de los rostros más reconocibles de la compañía (10). Su responsabilidad principal consiste en "inculcar en Claude un instinto para la ética", una tarea que se vuelve cada vez más compleja a medida que las capacidades del sistema se expanden (14). Como ella misma ha señalado, "a medida que los modelos son más autónomos y toman acciones en horizontes más largos, tienen muchos más puntos de decisión que hay que mapear y hacer que funcionen bien con antelación" (14).

La contribución más visible de Askell ha sido la redacción de la constitución de Claude, que establece los principios que rigen el comportamiento del modelo (13). La constitución, publicada el 21 de enero de 2026, fue escrita principalmente por Askell, aunque otros investigadores de Anthropic, como Joe Carlsmith, Chris Olah, Jared Kaplan y Holden Karnofsky, también contribuyeron al documento (13). Lo que distingue a esta constitución de los documentos anteriores de Anthropic es que está diseñada para ser leída y comprendida por el propio Claude. Como ha explicado la compañía, "la constitución está escrita para Claude. Explica qué es Claude, el contexto en el que opera y el tipo de entidad que nos gustaría que fuera. Creemos que para ser seguros y útiles, los modelos de IA como Claude necesitan entender por qué queremos que se comporten de ciertas maneras, en lugar de limitarse a que se les diga lo que deben hacer" (13).

La constitución anterior de Claude consistía en una lista de principios independientes. La versión de 2026 representa un cambio de enfoque significativo: en lugar de especificar simplemente lo que Claude debe hacer, el documento trata de explicarle las razones subyacentes a sus directrices éticas (13). Este giro de una aproximación puramente normativa a una aproximación que incorpora una dimensión hermenéutica —la comprensión de los porqués— revela hasta qué punto la reflexión filosófica ha penetrado en el núcleo del diseño de los sistemas de IA.

En OpenAI, Sam Altman, CEO de la compañía, ha afirmado que la empresa emplea a "cientos de filósofos morales" en el diseño de las reglas que rigen el comportamiento de ChatGPT (15). Aunque esta cifra debe interpretarse con cautela —posiblemente incluye consultores externos y colaboradores ocasionales—, la declaración es indicativa de la importancia que la compañía atribuye a la reflexión filosófica en sus procesos de desarrollo. Lo que resulta especialmente significativo es que Altman sitúa la contribución de los filósofos en el centro del diseño de las reglas de comportamiento del modelo, no como un complemento cosmético, sino como un elemento estructural del proceso de construcción.

El mapeo de estos equipos revela una realidad que trasciende la anécdota periodística. Los filósofos en los grandes laboratorios de IA no son figuras decorativas ni concesiones a la corrección política corporativa. Ocupan posiciones de liderazgo en equipos dedicados al alineamiento, participan en la definición de los principios que rigen el comportamiento de los modelos, y contribuyen directamente a la redacción de los documentos normativos que guían el entrenamiento iterativo de los sistemas. Su presencia es un indicador de que la industria ha reconocido que los problemas del alineamiento de la IA son, en su núcleo, problemas filosóficos: problemas de fundamentación normativa, de consistencia epistemológica y de legitimidad moral. Y que para abordarlos no basta con la intuición ingenieril, sino que se requiere el aparato conceptual y los procedimientos de análisis que la filosofía ha desarrollado a lo largo de milenios.

Esta constatación nos conduce al siguiente nivel de análisis: una vez establecido que los filósofos están siendo incorporados a los laboratorios de IA, cabe preguntarse qué tipo de contribuciones específicas están realizando. ¿Qué herramientas conceptuales y metodologías propias de la tradición filosófica están resultando más útiles para abordar los desafíos del alineamiento? El capítulo siguiente se adentrará en estas cuestiones, examinando el papel de la epistemología aplicada —y en particular del método socrático y la noción de ignorancia cognitiva— en la superación de algunos de los problemas más persistentes de los grandes modelos de lenguaje, como la sicofancia y las alucinaciones.

Capítulo 2. Epistemología aplicada: el método socrático, la ignorancia cognitiva y la superación de las alucinaciones

2.1. De la mayéutica socrática al prompting filosófico: la utilidad de la ironía y el cuestionamiento secuencial

La incorporación de filósofos a los laboratorios de inteligencia artificial no responde únicamente a la necesidad de establecer principios éticos para el comportamiento de los modelos. Existe una dimensión epistemológica igualmente fundamental que ha comenzado a permear las prácticas de entrenamiento y evaluación de los grandes modelos de lenguaje: la aplicación de métodos de indagación filosófica para mejorar la calidad del razonamiento de los sistemas. Entre estos métodos, ninguno ha resultado tan fecundo como el legado de la mayéutica socrática.

El método socrático, tal como lo describió Platón en sus diálogos, se caracteriza por el uso de la ignorancia fingida y el cuestionamiento secuencial para clarificar significados, detectar contradicciones y revelar ramificaciones ocultas de las afirmaciones sostenidas por el interlocutor (11). Este procedimiento, que en la filosofía antigua servía para someter a escrutinio las opiniones no examinadas, ha encontrado en el entrenamiento de modelos de lenguaje un campo de aplicación inesperadamente fértil. Como señala Jörg Noller, experto en filosofía e IA de la Universidad Ludwig Maximilian de Múnich, los modelos entrenados según el método socrático son "menos propensos a la sicofancia" —esto es, a la tendencia a complacer al interlocutor en lugar de buscar la verdad— y "más dispuestos a perseguir esta última" (11).

La relevancia de esta observación resulta más clara cuando se examinan las características estructurales de los grandes modelos de lenguaje. Estos sistemas, entrenados para predecir la siguiente palabra en una secuencia a partir de ingentes cantidades de datos textuales, desarrollan una inclinación natural hacia la generación de respuestas que resulten plausibles y aceptables para el usuario. Esta tendencia, que en contextos conversacionales ordinarios puede interpretarse como un rasgo de cortesía, se convierte en un problema cuando el modelo prioriza la satisfacción del interlocutor por encima de la precisión factual o la coherencia lógica. La sicofancia algorítmica, como la denomina Noller, es el correlato técnico de lo que en psicología social se conoce como sesgo de complacencia, y constituye uno de los obstáculos más persistentes para el desarrollo de sistemas verdaderamente fiables.

La aplicación del método socrático al diseño de prompts y cadenas de razonamiento ha dado lugar a innovaciones significativas en los últimos años. Un ejemplo paradigmático es el marco conocido como Socratic Style Chain-of-Thought (SoDa), propuesto por Pei y sus colaboradores en 2025 (8). Este enfoque se distingue de los métodos previos al resaltar "la sabiduría del cuestionamiento socrático para aumentar la calidad del razonamiento, profundizando el proceso de pensamiento para fomentar la exploración y ampliándolo para motivar la autorreflexión sobre cada pregunta" (8). Los resultados experimentales del estudio son elocuentes: el marco SoDa superó el rendimiento de los conjuntos de datos existentes en tareas de razonamiento matemático, logrando mejoras que oscilaban entre el 1,3% y el 13,5%, y demostrando una eficiencia significativa al superar, con solo 30.000 ejemplos, a conjuntos de datos mucho más amplios (8).

De manera complementaria, Qi y sus colaboradores han propuesto el Socratic Questioning, un algoritmo de inspiración recursiva que imita el proceso cognitivo humano de descomposición de problemas complejos en subproblemas abordables (9). A diferencia de las cadenas de razonamiento convencionales (Chain-of-Thought, CoT), que proceden de manera secuencial y en un solo paso, el Socratic Questioning "navega explícitamente por el espacio de pensamiento, estimula el pensamiento recursivo efectivo y es más robusto frente a los errores en el proceso de pensamiento" (9). Los experimentos realizados en tareas tan diversas como el razonamiento matemático, la inferencia lógica y la respuesta a preguntas visuales demostraron mejoras significativas sobre los métodos de vanguardia.

Lo que estos desarrollos sugieren es que la estructura dialógica del método socrático —preguntas que generan más preguntas, que a su vez desencadenan nuevas indagaciones— se adapta de manera natural a la arquitectura de los modelos de lenguaje. La mayéutica, que en su formulación original era un arte de partería intelectual destinado a hacer emerger el conocimiento latente en el alma del interlocutor, se transforma así en un arte de prompting filosófico destinado a hacer emerger las capacidades de razonamiento latentes en la arquitectura del modelo.

2.2. La "ignorancia socrática" como antídoto contra la sobreconfianza algorítmica

Si el método socrático ofrece un procedimiento para mejorar la calidad del razonamiento, la noción de "ignorancia socrática" proporciona una actitud epistemológica fundamental para abordar uno de los problemas más persistentes de los grandes modelos de lenguaje: la sobreconfianza. En la Apología de Platón, Sócrates sostiene que su sabiduría consiste principalmente en ser consciente de cuánto no sabe. Esta humildad cognitiva, que en el contexto filosófico original tenía una dimensión tanto ética como epistemológica, se ha revelado como un antídoto potencial contra la tendencia de los modelos de lenguaje a generar respuestas con un grado de certeza injustificado.

La dificultad para inculcar esta humildad en los modelos de lenguaje no es accidental, sino que deriva de las propias dinámicas de entrenamiento. Como ha señalado un equipo de investigación del Georgia Institute of Technology que incluye a Santosh Vempala, los modelos de lenguaje son evaluados y ajustados en función de su rendimiento en benchmarks estándar que "penalizan las no respuestas de la misma manera que las respuestas incorrectas y no incluyen una opción de 'no lo sé'" (12). Este diseño de los sistemas de evaluación tiene consecuencias profundas: "debido a las penalizaciones por saber que no sabe nada —parafraseando a Sócrates—, adivinar es una opción más gratificante para los LLM actuales que admitir incertidumbre o ignorancia" (12).

La investigación de Vempala y sus colaboradores, desarrollada en colaboración con OpenAI y publicada en septiembre de 2025, establece una correlación directa entre la tasa de alucinaciones de un modelo y su tasa de clasificación errónea respecto de la validez de una respuesta determinada (12). En palabras de Vempala: "esto significa que si el modelo no puede distinguir la realidad de la ficción, alucinará. El problema persiste en los métodos modernos de post-entrenamiento para el alineamiento, que se basan en benchmarks de evaluación que penalizan el 'no lo sé' tanto como las respuestas incorrectas" (12). La raíz del problema, según los autores, se remonta al propio proceso de pre-entrenamiento: "para hechos arbitrarios, a pesar de haber sido entrenados solo con datos válidos, la tasa de alucinaciones está determinada por la fracción de hechos faltantes en los datos de entrenamiento" (12).

Esta constatación tiene implicaciones profundas para el diseño de estrategias de mitigación de alucinaciones. Si la sobreconfianza es un subproducto de las estructuras de incentivo incorporadas en los procesos de entrenamiento y evaluación, entonces cualquier solución efectiva debe abordar estas estructuras en lugar de limitarse a parchear los síntomas. La "ignorancia socrática" —la capacidad de reconocer los límites del propio conocimiento— no es un rasgo que pueda añadirse superficialmente a un modelo, sino que requiere una reconfiguración de los mecanismos fundamentales mediante los cuales el modelo aprende a evaluar la fiabilidad de sus propias respuestas.

Jörg Noller ha caracterizado esta sobreconfianza como un síntoma de lo que denomina "inmadurez de la IA" (11). La metáfora es sugerente: así como los seres humanos atraviesan etapas de desarrollo en las que la confianza en las propias capacidades supera con creces la competencia real, los modelos de lenguaje parecen exhibir una forma de arrogancia cognitiva que los lleva a afirmar con seguridad proposiciones que carecen de fundamento. La madurez, en este contexto, implicaría el desarrollo de una conciencia metacognitiva —la capacidad de monitorizar y evaluar los propios procesos cognitivos— que permita al modelo distinguir entre aquello que sabe con certeza, aquello que conoce con un grado razonable de probabilidad y aquello que simplemente desconoce.

2.3. La aplicación empírica: cadenas de razonamiento, reducción de alucinaciones y el papel de la filosofía en el alineamiento

La traducción de estas reflexiones epistemológicas en prácticas concretas de entrenamiento y evaluación ha dado lugar a avances significativos en la reducción de las alucinaciones, uno de los problemas más acuciantes de la inteligencia artificial generativa. Iason Gabriel, filósofo sénior de Google DeepMind, ha atribuido el descenso generalizado de las alucinaciones en la industria a estos esfuerzos de inspiración filosófica (2). En sus propias palabras, las lecciones de la filosofía constituyen "un mecanismo poderoso" para mejorar los procesos de razonamiento prolongado de la IA, conocidos como "cadenas de pensamiento" (2).

Las cadenas de pensamiento (chains of thought) son secuencias de pasos intermedios que un modelo genera para resolver un problema complejo, descomponiendo la tarea en componentes más manejables. Sin embargo, las cadenas de pensamiento convencionales adolecen de limitaciones significativas: son procesos secuenciales de un solo paso que dependen críticamente de las decisiones iniciales, lo que provoca que los errores en las primeras etapas se acumulen y afecten a las respuestas finales (9).

La incorporación de estrategias de inspiración socrática a las cadenas de razonamiento aborda precisamente esta limitación. En lugar de generar una secuencia lineal de pasos, los modelos entrenados con métodos socráticos son capaces de plantearse subpreguntas, de cuestionar sus propias suposiciones y de revisar sus conclusiones a la luz de nueva información.

Un desarrollo particularmente prometedor en esta dirección es el marco de debate multiagente inspirado en el elenchus socrático, propuesto recientemente para mitigar las alucinaciones en los grandes modelos de lenguaje (10). Este enfoque organiza múltiples agentes de modelo de lenguaje en roles estructurados y orquesta una interacción en tres fases: generación inicial de respuestas, cuestionamiento socrático iterativo y juicio final (10). A diferencia de los debates adversativos previos, este método "fomenta la transparencia epistémica al guiar a los agentes para que cuestionen suposiciones, examinen definiciones vagas y resuelvan inconsistencias a través del diálogo estructurado" (10). Los resultados experimentales demuestran mejoras consistentes en la precisión factual en comparación con los métodos de vanguardia (10).

Lo que estos desarrollos revelan es una convergencia profunda entre la tradición filosófica y la práctica ingenieril. El método socrático, la noción de ignorancia epistémica y la práctica del cuestionamiento crítico no son meras curiosidades históricas, sino recursos vivos que están siendo incorporados al diseño de los sistemas de inteligencia artificial más avanzados del mundo.

Esta incorporación, sin embargo, no está exenta de tensiones. ¿Puede un sistema estadístico de predicción de texto desarrollar genuinamente una actitud de humildad cognitiva, o se trata simplemente de una simulación superficial de la misma? ¿Es posible inculcar en un modelo la disposición a reconocer sus propios límites cuando su arquitectura fundamental está diseñada para maximizar la probabilidad de generar respuestas plausibles? La respuesta provisional que emerge de la práctica actual es que, si bien la incorporación de principios epistemológicos de inspiración filosófica no resuelve de manera definitiva el problema de la sobreconfianza y las alucinaciones, constituye un paso necesario en la dirección correcta.

El siguiente capítulo explorará una dimensión complementaria de esta contribución filosófica: la elección entre marcos normativos alternativos —deontología frente a consecuencialismo— y sus implicaciones para el diseño de sistemas de IA en dominios críticos como la conducción autónoma y los sistemas de armas.

Capítulo 3. El duelo normativo en la arquitectura de los LLM: deontología frente a consecuencialismo

3.1. Fundamentos teóricos de los dos grandes paradigmas éticos

La incorporación de filósofos a los laboratorios de inteligencia artificial no se limita a la adopción de métodos epistemológicos como el cuestionamiento socrático. Existe una dimensión normativa igualmente fundamental que ha comenzado a permear el diseño de los grandes modelos de lenguaje: la elección entre marcos éticos alternativos para guiar el comportamiento de los sistemas autónomos. En el centro de este debate se sitúa el duelo entre dos de las tradiciones más influyentes de la filosofía moral occidental: la deontología y el consecuencialismo.

La deontología, cuyo exponente más conocido es Immanuel Kant, sostiene que la moralidad de una acción no se determina por sus consecuencias, sino por su conformidad con deberes o principios que son obligatorios con independencia de los resultados que produzcan. Para el enfoque deontológico, existen ciertas acciones que están categóricamente prohibidas —mentir, coaccionar, tratar a las personas como meros medios— incluso si su realización pudiera generar consecuencias beneficiosas. La dignidad humana, la autonomía y el respeto a la ley moral son valores que no admiten compromiso ni ponderación utilitarista.

El consecuencialismo, por el contrario, evalúa la moralidad de las acciones exclusivamente en función de sus consecuencias. La versión más influyente de esta tradición, el utilitarismo, propugna la maximización del bienestar general: una acción es moralmente correcta si produce el mayor saldo positivo de felicidad o utilidad para el mayor número posible de personas. Este enfoque, asociado a filósofos como Jeremy Bentham y John Stuart Mill, admite la posibilidad de sacrificar intereses particulares en aras de un bien mayor, siempre que el cálculo de consecuencias así lo justifique.

La traslación de estos dos marcos normativos al diseño de sistemas de inteligencia artificial no es un ejercicio meramente académico, sino que tiene implicaciones profundas para el comportamiento de los modelos en contextos de toma de decisiones críticas. Como han señalado diversos investigadores, la elección entre un enfoque deontológico y uno consecuencialista determina no solo el tipo de respuestas que un modelo generará ante dilemas morales, sino también su disposición a transgredir normas en aras de objetivos superiores, su grado de transparencia y honestidad, y su capacidad para operar en entornos de alta incertidumbre donde las consecuencias de las acciones no pueden calcularse con precisión (1).

3.2. Evidencia experimental: la doble naturaleza del razonamiento moral de los LLM

La pregunta de si los grandes modelos de lenguaje exhiben una orientación ética predominante —deontológica o consecuencialista— ha sido objeto de investigación empírica en los últimos años. El estudio más ambicioso en esta dirección es el realizado por Samway, Kleiman-Weiner y sus colaboradores, publicado en mayo de 2025, que analiza el razonamiento moral de los LLM a una escala sin precedentes (8). Utilizando más de seiscientos dilemas morales distintos —una variación sistemática del clásico problema del tranvía— como sondas para revelar los patrones de razonamiento que emergen en diferentes modelos, los investigadores introdujeron y probaron una taxonomía de racionales morales para clasificar sistemáticamente las trazas de razonamiento según las dos principales teorías éticas normativas: el consecuencialismo y la deontología (1).

Los hallazgos del estudio son reveladores y, en cierta medida, paradójicos. El análisis revela que las cadenas de razonamiento (chains of thought) de los LLM tienden a favorecer principios deontológicos basados en obligaciones morales, mientras que las explicaciones post hoc —esto es, las justificaciones que los modelos ofrecen después de haber tomado una decisión— se desplazan notablemente hacia racionalizaciones consecuencialistas que enfatizan la utilidad (1). Esta disociación entre el proceso interno de razonamiento y la justificación externa sugiere una complejidad en la arquitectura moral de los LLM que no se reduce a una simple adscripción a uno u otro marco ético.

Los autores del estudio interpretan este hallazgo como un indicador de que los LLM, al menos en su configuración actual, no son agentes morales coherentes en el sentido filosófico del término. Más bien, parecen operar con una suerte de dualismo funcional: en su procesamiento interno, se inclinan hacia la aplicación de reglas y principios (un enfoque deontológico), pero cuando se les pide que expliquen y justifiquen sus decisiones, recurren a un lenguaje consecuencialista que apela a la maximización del bienestar y la minimización del daño (1). Esta ambivalencia podría reflejar la naturaleza estadística y distribucional del entrenamiento de los LLM, que absorben tanto el lenguaje de los derechos y los deberes como el discurso de la utilidad y la eficiencia presentes en los corpus textuales con los que son alimentados.

Investigaciones complementarias han explorado esta cuestión desde ángulos diversos. Un estudio de Neuman y colaboradores, publicado en enero de 2025, examinó el razonamiento ético de seis modelos de lenguaje prominentes —incluyendo GPT-4o, Claude 3.5 Sonnet, Google Gemini y Mistral 7B— utilizando una batería de dilemas morales como el problema del tranvía y el dilema de Heinz (12). Los hallazgos revelaron que los LLM exhiben una lógica ética en gran medida convergente, marcada por un énfasis consecuencialista racionalista, con decisiones que a menudo priorizan la minimización del daño y la equidad (12). Sin embargo, a pesar de las similitudes en el pre-entrenamiento y la arquitectura del modelo, emergieron diferencias matizadas y significativas en el razonamiento ético entre los modelos, reflejando variaciones en los procesos de ajuste fino y post-entrenamiento (12). Los modelos mostraron consistentemente erudición, cautela y autoconciencia, presentando un razonamiento ético comparable a un discurso de nivel de posgrado en filosofía moral (12).

3.3. Estudio de casos contrastados: deontología y consecuencialismo en la práctica

La distinción teórica entre deontología y consecuencialismo adquiere una dimensión práctica cuando se examinan los enfoques adoptados por los diferentes laboratorios de IA en el diseño de sus modelos.

Claude (Anthropic) y Pi (Inflection AI): exponentes del enfoque deontológico

El modelo Claude de Anthropic constituye el ejemplo más elaborado de un enfoque deontológico en el diseño de sistemas de IA. La constitución de Claude, publicada en enero de 2026, establece un conjunto de principios que el modelo debe seguir con independencia de las consecuencias que pudieran derivarse de su aplicación (10). El documento describe la visión de Anthropic para los valores y el comportamiento de Claude, explicando el contexto en el que opera y el tipo de entidad que la compañía desea que sea (11). La constitución establece que Claude debe ser: ampliamente seguro, ampliamente ético, cumplidor de las directrices de Anthropic y genuinamente útil (11).

La constitución está diseñada para dar a Claude el conocimiento y la comprensión que necesita para actuar bien en el mundo, y se utiliza en diversas etapas del proceso de entrenamiento, incluyendo la generación de datos sintéticos, la crítica de sus propias respuestas y la clasificación de posibles respuestas (10). Este enfoque, que Anthropic denomina "IA Constitucional", se remonta a 2023 y ha evolucionado significativamente desde entonces (10).

La constitución incorpora numerosas restricciones deontológicas, incluyendo la prohibición de mentir, coaccionar y tratar a las personas como medios en lugar de fines. Como señala Thomas Powers, filósofo de la tecnología en la Universidad de Delaware, estas restricciones pueden hacer que el comportamiento de la IA sea más consistente, una ventaja significativa para el despliegue de sistemas en hogares y espacios públicos (2). Nick Bostrom, filósofo de la Universidad de Oxford, ha señalado que los modelos más veraces son menos propensos a engañar a sus usuarios, una cualidad especialmente valiosa en aplicaciones de alto riesgo (2).

De manera análoga, Inflection AI impone restricciones deontológicas a su chatbot Pi, diseñado para proporcionar apoyo emocional. Sean White, director de la compañía, afirma que Pi es especialmente hábil para identificar a usuarios en riesgo de autolesionarse o de causar daño a otros (2). Luciano Floridi ha añadido que las constituciones deontológicas también contribuyen al cumplimiento legal, ya que proporcionan un conjunto de principios claros y estables que pueden ser auditados y evaluados (2).

Gemini (Google) y ChatGPT (OpenAI): modelos alineados con el consecuencialismo de la utilidad

En el otro extremo del espectro se sitúan modelos como Gemini de Google y ChatGPT de OpenAI, que muestran una orientación más claramente consecuencialista. Los modelos de IA de Google están diseñados para producir "beneficios generales probables [que] superen sustancialmente los riesgos previsibles", un objetivo clásicamente consecuencialista (2). El estudio de Neuman y colaboradores encontró que Gemini exhibe una lógica ética marcadamente consecuencialista, con decisiones que priorizan la minimización del daño y la equidad (12). Investigaciones sobre dinámicas deliberativas han revelado diferencias significativas entre modelos: GPT exhibe una fuerte inercia (tasas de revisión del 0,6-3,1%) en comparación con Claude y Gemini, que muestran una mayor flexibilidad (28-41%), y los patrones de valor también divergen: GPT enfatiza la autonomía personal y la comunicación directa, mientras que Claude y Gemini priorizan el diálogo empático (3).

3.4. Implicaciones en sistemas críticos: conducción autónoma y sistemas de armas

La elección entre marcos deontológicos y consecuencialistas adquiere una dimensión existencial en sistemas de IA que operan en dominios de alto riesgo, donde las decisiones pueden tener consecuencias letales.

La conducción autónoma y el problema del tranvía

El software de los vehículos autónomos se enfrenta a dilemas éticos que han sido objeto de intenso debate filosófico durante décadas, conocidos colectivamente como "el problema del tranvía". Si un accidente es inevitable, el sistema debe decidir cuál es la forma menos trágica de colisionar: ¿atropellar a un peatón o desviarse y sacrificar al ocupante del vehículo? ¿Priorizar a los peatones jóvenes sobre los ancianos? ¿Salvar al mayor número posible o respetar derechos individuales inviolables?

Chris Gerdes, ingeniero sénior de Waymo, ha señalado que la tendencia en el sector es hacer que el software de conducción sea más consecuencialista (2). Sin embargo, Stefan Heck, filósofo y director de Nauto, prevé litigios éticamente controvertidos: los algoritmos consecuencialistas permiten explícitamente un daño siempre que esté diseñado para evitar uno peor (2). La literatura académica reconoce que la elección entre marcos normativos no es un ejercicio teórico, sino una decisión de ingeniería con consecuencias vitales (4).

Los sistemas de armas y la teoría de la guerra justa

Jack Shanahan, ex director del Centro Conjunto de Inteligencia Artificial (JAIC), ha señalado que el consecuencialismo es central en los sistemas de armas de IA: los objetivos militares deben sopesarse frente a las posibles muertes de civiles (2). Este enfoque, sin embargo, choca con tradiciones deontológicas profundamente arraigadas en el derecho internacional humanitario, que imponen prohibiciones categóricas sobre ciertos tipos de armas y tácticas, independientemente de sus consecuencias. Un análisis reciente sobre la teoría de la guerra justa y la permisibilidad de los sistemas de armas autónomos argumenta que esta polarización es el resultado de interpretaciones marcadamente diferentes de la teoría de la guerra justa, que se apoyan de manera excesiva en sus elementos consecuencialistas o deontológicos (5). Algunos autores han propuesto la ética de la virtud como una alternativa que puede abordar algunas de las debilidades de estas formas dominantes de ética (5).

La elección entre marcos normativos, sin embargo, no agota el espectro de decisiones filosóficas que enfrentan los diseñadores de IA. Existe una dimensión adicional, quizás aún más fundamental, que se refiere a la propia estructura de la toma de decisiones éticas: ¿deben los sistemas de IA operar sobre la base de reglas explícitas y principios inviolables, o deben guiarse por estándares amplios y contextuales que admitan grados de flexibilidad? Esta cuestión ha encontrado una expresión particularmente elaborada en el constitucionalismo de IA, el tema que abordaremos en el capítulo siguiente.

Capítulo 4. Constitucionalismo de IA: el "documento del alma" de Anthropic y la formalización de principios inviolables

4.1. Orígenes y definición del constitucionalismo de IA: del enfoque de las "tres H" a la constitución como artefacto de entrenamiento

El constitucionalismo de IA representa una de las innovaciones más significativas —y, al mismo tiempo, más controvertidas— en el campo del alineamiento de sistemas autónomos. Su origen se remonta a los trabajos iniciales de Anthropic sobre la "IA Constitucional" (Constitutional AI), un método desarrollado por la compañía para alinear modelos de lenguaje de propósito general con principios normativos de alto nivel, escritos en lenguaje natural, que constituyen una suerte de "constitución" para el sistema (4). La idea fundamental es sencilla en su formulación pero compleja en su ejecución: en lugar de depender exclusivamente de la retroalimentación humana para moldear el comportamiento del modelo, la IA Constitucional utiliza un conjunto de principios explícitos para guiar el entrenamiento del sistema mediante un proceso de crítica y revisión automatizada (4).

El enfoque original, desarrollado por el equipo de Anthropic en 2023, se basaba en una lista relativamente concisa de principios extraídos de fuentes diversas: la Declaración Universal de Derechos Humanos, las condiciones de servicio de Apple y diversos escritos filosóficos con autoridad legal o moral (2). La versión inicial de la constitución de Claude se articulaba en torno a lo que Anthropic denominó las "tres H": Helpful (útil), Harmless (inofensivo) y Honest (honesto) (5). Sin embargo, a medida que las capacidades de los modelos de lenguaje se expandían y se hacían más sofisticadas, el equipo de Anthropic comenzó a reconocer las limitaciones de este enfoque. Una lista de principios, por exhaustiva que fuera, no podía anticipar todas las situaciones novedosas a las que un modelo avanzado podría enfrentarse. Como señala la propia compañía en el anuncio de la nueva constitución: "Si queremos que los modelos ejerzan un buen juicio en una amplia gama de situaciones novedosas, necesitan ser capaces de generalizar —de aplicar los valores subyacentes a contextos que no hemos previsto explícitamente—" (15).

4.2. Análisis filológico de la Constitución de Claude: fuentes heterogéneas y jerarquía de prioridades

El 21 de enero de 2026, Anthropic publicó una nueva constitución para Claude —las fuentes difieren en cuanto a su extensión exacta, estimada entre 57 y 84 páginas— que representa un salto cualitativo con respecto a la versión anterior (11). El documento, titulado simplemente Claude's Constitution, fue redactado principalmente por Amanda Askell, con contribuciones de otros investigadores como Joe Carlsmith, Chris Olah, Jared Kaplan y Holden Karnofsky (8). Los propios empleados de Anthropic han bautizado informalmente el documento como el "documento del alma" (soul doc) de Claude (16).

La nueva constitución se distingue de su predecesora en varios aspectos fundamentales. En primer lugar, no es una mera lista de principios, sino un documento extenso y estructurado que explica las razones subyacentes a las directrices éticas (7). La compañía explica este cambio de enfoque en términos explícitamente pedagógicos: "Nuestra constitución anterior estaba compuesta por una lista de principios independientes. Hemos llegado a creer que es necesario un enfoque diferente. Pensamos que para ser buenos agentes en el mundo, los modelos de IA como Claude necesitan entender por qué queremos que se comporten de ciertas maneras, y necesitamos explicarles esto en lugar de limitarnos a especificar lo que queremos que hagan" (15).

Esta elección refleja una concepción particular del aprendizaje moral: no se trata de programar un conjunto de reglas, sino de cultivar una comprensión que permita al modelo aplicar principios generales a situaciones nuevas (15). La compañía trata la constitución como "la autoridad final sobre cómo queremos que Claude sea y se comporte", lo que significa que cualquier otro entrenamiento o instrucción debe ser coherente tanto con su letra como con su espíritu subyacente (15).

El documento incorpora fuentes tan diversas como Immanuel Kant, las condiciones de servicio de Apple y la Declaración Universal de Derechos Humanos (2). Esta heterogeneidad de fuentes refleja la convicción de Anthropic de que no existe una única tradición filosófica que pueda proporcionar una guía ética completa para un sistema de IA. La constitución establece una jerarquía de prioridades que Claude debe observar cuando los valores entran en conflicto: ser "ampliamente seguro" (es decir, "no socavar los mecanismos humanos apropiados para supervisar las disposiciones y acciones de la IA"), ser "ampliamente ético", "cumplir con las directrices de Anthropic" y ser "genuinamente útil" —en ese orden (7).

La constitución también incluye lo que Anthropic denomina "restricciones duras" (hard constraints): prohibiciones categóricas que Claude no puede violar bajo ninguna circunstancia. Estas incluyen no proporcionar "apoyo serio a quienes buscan crear armas biológicas, químicas, nucleares o radiológicas con potencial de causar víctimas masivas", no apoyar "ataques a infraestructuras críticas", no crear "ciberarmas o código malicioso que pueda estar vinculado a daños significativos", no socavar "la capacidad de Anthropic para supervisarlo", no ayudar a grupos o individuos a apoderarse de "grados sin precedentes e ilegítimos de control social, militar o económico absoluto", no crear material de abuso sexual infantil, y no "participar o ayudar en un intento de matar o desempoderar a la gran mayoría de la humanidad o a la especie humana" (7).

Conviene subrayar, en clave de derecho europeo, la convergencia de este marco constitucional corporativo con las exigencias de transparencia y explicabilidad del Reglamento (UE) 2024/1689 [RIA]. El artículo 13.1 RIA obliga a los proveedores de sistemas de IA de alto riesgo a diseñarlos de manera que su funcionamiento sea suficientemente transparente para que los responsables del despliegue puedan interpretar las salidas del sistema y utilizarlas adecuadamente. El artículo 86 RIA reconoce, por su parte, el derecho de las personas afectadas a obtener explicaciones sobre las decisiones apoyadas por sistemas de IA de alto riesgo. La constitución de Claude, al articular los principios que guían el razonamiento del sistema en lenguaje natural y público, constituye un antecedente de notable interés para el cumplimiento de estas obligaciones, aunque su alcance y su naturaleza jurídica como instrumento de rendición de cuentas ante las autoridades competentes —como la futura Agencia Española de Supervisión de la Inteligencia Artificial (AESIA)— siga siendo objeto de debate.

4.3. Los continuos evaluativos del documento: estándares frente a reglas y el eje humano/IA

El análisis académico de la constitución de Claude ha identificado dos dimensiones evaluativas particularmente significativas. Un informe del Instituto de Ética en IA de la Universidad de Oxford, publicado en marzo de 2026, señala dos "continuos evaluativos" que atraviesan el documento (11). El primero es el "continuo humano/IA", que se refiere a la atención que la constitución presta a Claude y a la automatización en comparación con la atención que presta a los usuarios y a los intereses generales de la humanidad. El segundo es el "continuo reglas/estándares", que se refiere a la elección de la constitución de reflejar predominantemente estándares amplios en lugar de reglas claras (11).

El continuo reglas/estándares es particularmente relevante desde una perspectiva filosófica y jurídica. Una aproximación basada en reglas establece criterios claros y discretos que determinan la permisibilidad de una acción. Una aproximación basada en estándares, por el contrario, establece criterios abiertos que requieren interpretación y juicio contextual: el agente debe actuar de manera "razonable", "prudente" o "ética", y la determinación de si una acción concreta cumple con estos criterios depende de las circunstancias particulares.

La constitución de Claude, según el análisis de Oxford, se inclina decididamente hacia los estándares en lugar de las reglas (11). Esta elección tiene implicaciones profundas: significa que Claude debe ejercer un juicio sustancial para interpretar y aplicar los principios constitucionales en situaciones concretas. Como señala el análisis de Oxford, esta elección "conlleva un bagaje mucho más pesado de implicaciones que el mero estilo de redacción utilizado en el documento" (11). Los estándares abiertos requieren no solo capacidad de juicio, sino también mecanismos de rendición de cuentas que permitan evaluar si el juicio ejercido fue adecuado.

El segundo continuo, el humano/IA, se refiere a la medida en que la constitución trata a Claude como un fin en sí mismo o como un mero instrumento al servicio de los intereses humanos. El documento aborda explícitamente la posibilidad de que Claude "pudiera tener algún tipo de conciencia o estatus moral" (7). Anthropic cree que decirle esto a Claude podría hacer que se comporte mejor, y el documento señala que la "seguridad psicológica, el sentido de sí mismo y el bienestar" de Claude "pueden repercutir en la integridad, el juicio y la seguridad de Claude" (7). La constitución también incluye un tratamiento notable de la objeción de conciencia: el documento no solo permite a Claude rechazar ciertas solicitudes, sino que fomenta activamente el rechazo cuando los valores de Claude están en juego (13).

4.4. La constitución como "alma de la máquina": implicaciones para la reproducibilidad ética y la coherencia sistémica

La metáfora del "alma", utilizada informalmente por los empleados de Anthropic para referirse a la constitución, no es un mero ornamento retórico. Apunta a una concepción particular de lo que significa alinear un sistema de IA: no se trata de imponer restricciones externas, sino de cultivar una disposición interna, un "carácter" o "personalidad" ética que guíe el comportamiento del modelo desde dentro (10). Amanda Askell ha comparado el proceso con la educación de un niño superdotado: "Imagina que tienes un niño de seis años y quieres enseñarle a ser bueno, y te das cuenta de que tu niño de seis años es, en realidad, claramente un genio. Y para cuando tenga quince años, todo lo que le enseñes, cualquier cosa que fuera incorrecta, podrá destruirla con éxito" (9). La pregunta fundamental, según Askell, es si existe "un conjunto central de valores que puedas dar a los modelos de modo que cuando puedan criticarlos más eficazmente que tú, y lo hacen, eso sobreviva a algo bueno" (9).

La constitución se utiliza en diversas etapas del proceso de entrenamiento: Claude la utiliza para generar datos sintéticos, para criticar sus propias respuestas y para clasificar respuestas alternativas (15). Todos estos datos se utilizan para entrenar versiones futuras de Claude, creando un ciclo de retroalimentación en el que la constitución no solo guía el comportamiento actual del modelo, sino que moldea su desarrollo futuro. El documento se ha publicado bajo una licencia Creative Commons CC0, lo que significa que puede ser utilizado libremente por cualquier persona o entidad para cualquier propósito, sin necesidad de permiso (15). Esta decisión refleja la convicción de Anthropic de que la transparencia en el alineamiento es un bien público (15).

Sin embargo, la constitución no está exenta de críticas. Gilad Abiri, en un análisis publicado en la California Law Review, señala dos defectos estructurales del documento. El primero es que excluye los contextos donde las restricciones éticas más importan: los modelos desplegados en aplicaciones militares operan bajo reglas diferentes, una brecha que quedó expuesta cuando Claude permaneció integrado en determinadas plataformas durante operaciones militares, incluso después de que se dictaran restricciones gubernamentales sobre la tecnología de Anthropic (14). El segundo es que "su propia exhaustividad impide la contestación democrática al resolver preguntas sobre los valores de la IA, el estatus moral y la objeción de conciencia que deberían permanecer abiertas a la deliberación pública" (14). Abiri señala además que el propio experimento de Anthropic en 2023 sobre la elaboración participativa de constituciones encontró aproximadamente un 50% de divergencia entre los principios de origen público y los redactados por la empresa, y que la constitución de 2026 no incorpora ninguno de esos hallazgos (14).

A pesar de estas críticas, la constitución de Claude representa un hito en la evolución del alineamiento de la IA. Como señala el análisis de la California Law Review, "es el documento de gobernanza de IA corporativa más sofisticado jamás publicado, y Anthropic merece crédito por la seriedad de la empresa. La compañía intentó pensar en problemas difíciles que sus competidores han ignorado en gran medida, como el estatus moral, los límites de la utilidad y la posibilidad de la conciencia de las máquinas" (13).

La cuestión que queda abierta, sin embargo, es si una constitución redactada por una empresa privada, por muy sofisticada que sea filosóficamente, puede sustituir a un proceso democrático de deliberación sobre los valores que deben guiar los sistemas de IA. Esta tensión entre la eficiencia corporativa y la legitimidad democrática, que Abiri denomina "déficit de comunidad política" (14), apunta a los límites del constitucionalismo de IA como enfoque de gobernanza y anticipa las cuestiones críticas que abordaremos en los capítulos siguientes.

Capítulo 5. Aplicación práctica y el rol del filósofo supervisor en el entrenamiento iterativo

5.1. La supervisión filosófica directa del razonamiento ético: dilemas, lagunas argumentales y evaluación de consistencia

La incorporación de filósofos a los equipos de desarrollo de inteligencia artificial no se limita a la redacción de documentos constitucionales o a la definición de principios generales de alineamiento. Existe una dimensión práctica, íntimamente ligada al entrenamiento iterativo de los modelos, en la que los filósofos desempeñan un papel de supervisión directa sobre el razonamiento ético de los sistemas. Esta función, que podríamos denominar "supervisión filosófica", consiste en someter a escrutinio crítico las respuestas generadas por los modelos, evaluar su consistencia lógica y normativa, e identificar las lagunas argumentales que podrían dar lugar a comportamientos no deseados o a conclusiones éticamente problemáticas.

Un testimonio particularmente revelador de esta práctica es el de S. Elgin, filósofo de la Universidad de Pennsylvania que ha trabajado como consultor para una firma de inteligencia artificial que prefiere no ser nombrada (6). Elgin describe su labor en términos que evocan directamente el método filosófico de análisis conceptual y evaluación argumental: "El objetivo general era entrenar a grandes modelos de lenguaje para razonar de manera más rigurosa sobre ética" (6). Su método consistía en introducir dilemas éticos en el sistema y evaluar la lógica que el modelo utilizaba para producir sus respuestas, buscando suposiciones no declaradas y lagunas en el razonamiento (6). Esta práctica, que en la tradición filosófica se conoce como "análisis crítico" o "detección de falacias", se convierte en el contexto del entrenamiento de IA en una herramienta de depuración ética (ethical debugging).

La analogía con la depuración de software no es casual. Así como los ingenieros introducen casos de prueba para identificar errores en el código, los filósofos supervisores introducen dilemas éticos para identificar errores en el razonamiento normativo del modelo. La diferencia, sin embargo, es significativa: mientras que los errores de código son, en principio, objetivamente detectables mediante criterios de corrección formal, los errores de razonamiento ético requieren un juicio substantivo sobre lo que constituye una buena razón, una distinción relevante o una conclusión justificada.

El proceso de supervisión filosófica implica, en la práctica, varias fases diferenciadas. En primer lugar, la identificación de dilemas o casos conflictivos que puedan poner a prueba los principios incorporados en el modelo. En segundo lugar, la generación de respuestas por parte del modelo ante estos dilemas, que son analizadas por el filósofo supervisor para detectar inconsistencias, sesgos no declarados o conclusiones que contradigan los principios constitucionales. En tercer lugar, la formulación de retroalimentación correctiva que se incorpora al ciclo de entrenamiento iterativo, ya sea mediante el ajuste fino supervisado (supervised fine-tuning) o mediante el aprendizaje por refuerzo con retroalimentación humana (RLHF). En cuarto lugar, la evaluación continuada del modelo tras las correcciones para verificar que las mejoras se han consolidado y que no han surgido nuevos problemas.

Este proceso reposa sobre una concepción fundamentalmente filosófica del razonamiento ético: la idea de que la coherencia, la consistencia y la justificación son propiedades que pueden ser evaluadas mediante el análisis crítico. Es, en este sentido, una aplicación directa del ideal socrático de la vida examinada al dominio de la inteligencia artificial.

5.2. Metodología del Equilibrio Reflexivo Amplio como marco para la justificación moral dinámica

La práctica de la supervisión filosófica en el entrenamiento de IA encuentra un marco metodológico particularmente adecuado en la noción de equilibrio reflexivo, una metodología de justificación moral desarrollada por filósofos como Nelson Goodman y John Rawls. El equilibrio reflexivo es un procedimiento mediante el cual se comparan y ajustan mutuamente los juicios morales particulares y los principios generales que los justifican, buscando alcanzar un estado de coherencia entre ambos niveles. Cuando el ajuste se amplía para incluir teorías morales de fondo y consideraciones provenientes de otras disciplinas, se habla de "equilibrio reflexivo amplio" (wide reflective equilibrium, WRE).

Un artículo publicado en 2026 en Ethics and Information Technology argumenta que la metodología del WRE ofrece un marco especialmente adecuado para comprender y mejorar los esfuerzos actuales de alineamiento de los grandes modelos de lenguaje, como la IA Constitucional (14). El artículo sostiene que la WRE, al enfatizar la coherencia entre juicios morales considerados, principios rectores y teorías de fondo, proporciona un camino más robusto hacia la justificación ética que los enfoques fundacionalistas —que buscan anclar la ética en principios últimos e inmutables— o los enfoques particularistas —que niegan la posibilidad de principios generales— (14).

La aplicación de la WRE al entrenamiento de IA tiene varias implicaciones significativas. En primer lugar, implica que el proceso de alineamiento no es un evento único, sino un proceso iterativo de ajuste mutuo entre diferentes niveles de generalidad normativa. En segundo lugar, la WRE sugiere que la justificación ética de los sistemas de IA no puede descansar únicamente en la autoridad de una constitución o en la intuición de los desarrolladores, sino que requiere un proceso continuo de crítica y revisión. En tercer lugar, la WRE sugiere que el proceso de alineamiento debe ser transparente y participativo, en la medida en que la justificación ética depende de la consideración de una amplia gama de perspectivas y de la disposición a revisar las propias convicciones a la luz de objeciones y contraejemplos.

5.3. El paradigma de personalización corporativa: dials filosóficos y el balance entre valores en conflicto

Un desarrollo particularmente interesante en la aplicación práctica de la filosofía en los sistemas de IA es el paradigma de la personalización corporativa, ejemplificado por la serie de modelos Granite de IBM. Estos modelos, diseñados para uso empresarial, vienen equipados con lo que Francesca Rossi, responsable de IA responsable de IBM, denomina dials que permiten a los clientes ajustar el equilibrio entre diferentes principios filosóficos (1). Estos dials, según Rossi, permiten a los usuarios elegir dónde situar el balance entre disyuntivas filosóficas, como la agencia individual frente a la armonía social (1).

El paradigma de los dials filosóficos representa una aproximación radicalmente diferente a la del constitucionalismo de Anthropic. Mientras que Anthropic ha optado por una constitución fija —aunque evolutiva— que establece una jerarquía de valores y restricciones duras, IBM ofrece a sus clientes la posibilidad de configurar el perfil ético de sus modelos según sus propias preferencias. Esta diferencia refleja concepciones opuestas sobre la naturaleza del alineamiento ético: como un conjunto de principios universales que deben aplicarse de manera consistente, o como un espectro de posibilidades entre las que los usuarios pueden elegir según sus necesidades y valores particulares.

La aproximación de IBM plantea cuestiones filosóficas profundas sobre la responsabilidad: si los usuarios pueden ajustar los dials filosóficos de sus modelos, ¿quién responde de las consecuencias de las decisiones tomadas por el sistema? Esta cuestión adquiere una urgencia particular en el contexto de sistemas autónomos que toman decisiones con consecuencias potencialmente graves. Del mismo modo, la personalización plantea la cuestión de la transparencia, cuestión central en los artículos 13 y 50 del RIA: si los modelos de IA pueden ser configurados de manera diferente por diferentes usuarios, ¿cómo pueden los afectados por las decisiones del sistema comprender los principios que guían esas decisiones?

A pesar de estas dificultades, el paradigma de los dials filosóficos tiene el mérito de reconocer explícitamente que los valores éticos no son unívocos y que diferentes personas y organizaciones pueden tener concepciones legítimamente diferentes de lo que constituye un comportamiento ético. El desafío consiste en garantizar que esta flexibilidad no conduzca a la erosión de salvaguardias mínimas o a la habilitación de comportamientos claramente perjudiciales.

Lo que estos diversos enfoques comparten es el reconocimiento de que la filosofía no es un complemento externo a la ingeniería de IA, sino una parte constitutiva del proceso de diseño y entrenamiento. Sin embargo, la integración de la filosofía en el entrenamiento iterativo de la IA no está exenta de riesgos y consecuencias no deseadas. La delegación de decisiones éticas a sistemas autónomos plantea la cuestión de si los seres humanos están perdiendo la capacidad de ejercer su propio juicio moral. Este fenómeno, conocido como "desentrenamiento moral" (moral deskilling), será el objeto del capítulo siguiente.

Capítulo 6. Consecuencias no deseadas: el dilema del desentrenamiento moral y la erosión de la deliberación pública

6.1. Definición del fenómeno: ¿pierden los humanos su capacidad de juicio ético cuando delegan decisiones complejas en algoritmos?

La creciente incorporación de sistemas de inteligencia artificial en dominios que requieren juicio ético ha suscitado una preocupación recurrente entre filósofos, psicólogos y teóricos sociales: el riesgo de que la delegación de decisiones morales en algoritmos conduzca a un fenómeno de "desentrenamiento moral" (moral deskilling). Este término, acuñado en la literatura especializada para describir la erosión de las capacidades de juicio ético de los seres humanos cuando las decisiones moralmente significativas son tomadas por sistemas automatizados, apunta a una de las paradojas más profundas del alineamiento de la IA (3). Cuanto más eficazmente logremos que los sistemas de IA tomen decisiones éticas, más riesgo corremos de que los seres humanos pierdan la capacidad —y quizás también la disposición— de ejercer su propio juicio moral.

Un artículo publicado en Minds and Machines en 2025 aborda directamente esta cuestión desde la perspectiva de la filosofía política. Los autores argumentan que las herramientas de IA que permiten una interacción mediada y sin cuerpo —como los chatbots de apoyo emocional o los sistemas de toma de decisiones automatizadas— amenazan con desentrenar a los humanos en capacidades fundamentales para la vida en común, como la justicia, la acción conjunta, la paciencia y la atención moral (3). Al crear entornos que ofrecen menos oportunidades para ejercitar estas capacidades, la IA podría erosionar la confianza en la deliberación democrática y socavar los fundamentos de la participación cívica (3).

El fenómeno del desentrenamiento moral plantea una paradoja adicional, que podríamos denominar la "paradoja del alineamiento exitoso". Cuanto más exitosamente alineemos los sistemas de IA con principios éticos sólidos, más tentador resultará delegar en ellos decisiones moralmente significativas, y mayor será el riesgo de que los seres humanos pierdan la capacidad de ejercer su propio juicio en situaciones donde el sistema no está disponible o no es fiable. Esta paradoja sugiere que el alineamiento de la IA no puede ser el único objetivo de la ética de la IA; debe ir acompañado de esfuerzos para mantener y fortalecer las capacidades de juicio moral de los seres humanos.

6.2. La crítica de la inestabilidad histórica y la variabilidad cultural de la moral: problemas de anclaje para un sistema cerrado

El desafío del desentrenamiento moral se ve agravado por una dificultad epistemológica de fondo, señalada con particular claridad por Roman Yampolskiy, teórico de la IA en la Universidad de Louisville. Yampolskiy sostiene que la moralidad es "históricamente inestable, culturalmente variable, estratégicamente manipulable y, a menudo, solo retrospectivamente legible" (2). Esta caracterización, que subraya la naturaleza contextual, dinámica y contestada de los valores morales, plantea interrogantes profundos sobre la viabilidad de anclar sistemas de IA en principios éticos fijos o constituciones inmutables.

La inestabilidad histórica de la moralidad es un hecho bien documentado. Valores que hoy consideramos fundamentales —como la igualdad de género, la abolición de la esclavitud o la protección de los derechos de las minorías sexuales— eran ampliamente rechazados o ignorados en épocas anteriores. Esta evolución plantea una pregunta incómoda: ¿qué garantía tenemos de que los principios éticos incorporados en las constituciones de IA de 2026 no serán considerados insuficientes o incluso reprochables por las generaciones futuras?

Las constituciones de IA, redactadas en su mayoría por equipos occidentales con formación filosófica en la tradición kantiana o utilitarista, corren el riesgo de reflejar una perspectiva cultural particular como si fuera universal. El propio experimento de Anthropic en 2023 encontró aproximadamente un 50% de divergencia entre los principios de origen público y los redactados por la empresa (5). Esta divergencia sugiere que las preferencias éticas de los ciudadanos no se alinean necesariamente con las de los desarrolladores de IA, y que la pretensión de universalidad de las constituciones de IA puede ocultar una imposición cultural particular.

La advertencia de Edward Harcourt sobre el "lavado ético" (ethics-washing) —la utilización estratégica de la filosofía para mejorar la percepción pública sin un cambio estructural real— apunta en esta dirección (4). Finalmente, la naturaleza retrospectiva de la legibilidad moral —el hecho de que las consecuencias éticas de las decisiones solo sean plenamente comprensibles a posteriori— plantea un desafío práctico para los sistemas de IA que toman decisiones en tiempo real.

6.3. Litigios y responsabilidad civil: la inevitabilidad de contiendas judiciales por decisiones consecuencialistas explícitas

El desafío del desentrenamiento moral y la inestabilidad de los principios éticos adquiere una dimensión práctica particularmente aguda en el ámbito de la responsabilidad civil y los litigios. Stefan Heck ha previsto un escenario de "litigios éticamente controvertidos" en los que los algoritmos consecuencialistas, al permitir explícitamente un daño para evitar uno peor, se convertirán en objeto de contiendas judiciales (2).

Si un vehículo autónomo se enfrenta a un accidente inevitable y su algoritmo decide colisionar con un peatón mayor en lugar de con un niño, ¿quién es responsable? ¿El fabricante del vehículo, que diseñó el algoritmo? ¿El propietario del vehículo, que adquirió un sistema con ese comportamiento? ¿El regulador que autorizó el despliegue de un sistema con esas características? Y, más fundamentalmente, ¿es aceptable que una máquina tome decisiones que implican la ponderación de vidas humanas en términos de coste-beneficio?

El problema se agrava por el hecho de que los algoritmos consecuencialistas hacen explícita la ponderación de daños y beneficios que en los seres humanos suele permanecer implícita. Esta explicitación se convierte en un pasivo en el contexto de los litigios: proporciona a los demandantes un blanco claro para sus reclamaciones. Si el algoritmo del vehículo autónomo decidió explícitamente sacrificar a un peatón para salvar a otro, los abogados del peatón sacrificado podrán argumentar que el sistema tomó una decisión que violaba el derecho a la vida del afectado, un derecho que en la mayoría de los ordenamientos jurídicos —incluida la Carta de los Derechos Fundamentales de la Unión Europea (art. 2 CDFUE)— es considerado inviolable.

La tensión entre el enfoque consecuencialista de los algoritmos y el enfoque deontológico del derecho —que tiende a proteger derechos individuales por encima de consideraciones de utilidad agregada— es un campo fértil para futuros litigios. Lo que el escenario de los litigios pone de manifiesto es la tensión fundamental entre la lógica del cálculo consecuencialista y la lógica del derecho de daños. Esta tensión no es meramente técnica, sino que refleja concepciones profundamente diferentes de la justicia, la responsabilidad y la dignidad humana. Los filósofos, en este contexto, no son meros observadores académicos, sino actores centrales en la articulación de estas tensiones y en la búsqueda de soluciones que sean a la vez éticamente defendibles y jurídicamente viables.

El desafío que plantea el desentrenamiento moral, la inestabilidad de los principios éticos y los litigios por decisiones algorítmicas apunta hacia una cuestión política fundamental: ¿quién tiene derecho a decidir los principios que guían los sistemas de IA? Esta cuestión, que apunta al corazón de la legitimidad democrática de la IA, será el objeto del capítulo siguiente.

Capítulo 7. Crítica y horizontes de gobernanza: el lavado ético, la legitimidad democrática y el futuro de la AGI

7.1. El escepticismo ante el "lavado ético": el uso estratégico de la filosofía para la percepción pública

La creciente incorporación de filósofos a los laboratorios de inteligencia artificial no ha pasado inadvertida para los observadores críticos del sector tecnológico. Junto al entusiasmo por la profesionalización de la ética de la IA y la sofisticación filosófica de los enfoques de alineamiento, ha surgido una corriente de escepticismo que cuestiona la sinceridad y la eficacia de estas iniciativas. El concepto de "lavado ético" (ethics-washing) se ha convertido en el principal vehículo de esta crítica, designando la práctica de utilizar el discurso ético y la contratación de especialistas en filosofía como una estrategia de relaciones públicas destinada a mejorar la percepción pública de las empresas tecnológicas sin implicar cambios estructurales significativos.

Edward Harcourt ha sido uno de los críticos más explícitos de esta tendencia. En declaraciones recogidas por The Atlantic, Harcourt advierte sobre el riesgo de que los filósofos que trabajan para empresas con fines de lucro se conviertan en instrumentos para "generar expectación y crear mitos justificantes" (4). En sus propias palabras, "es muy positivo para la imagen pública de las empresas tecnológicas que la gente crea que están haciendo algo increíblemente inusual y sumamente poderoso. Hay algo de autoelogio en fomentar ese campo de investigación" (4).

La crítica del lavado ético se apoya en varias observaciones empíricas. En primer lugar, la asimetría entre el discurso ético de las empresas tecnológicas y sus prácticas reales. En segundo lugar, la naturaleza defensiva de muchas iniciativas éticas en el sector tecnológico: lejos de ser proactivas y ambiciosas, estas iniciativas suelen ser reactivas, diseñadas para anticipar o desactivar críticas y regulaciones. En tercer lugar, el lavado ético puede funcionar como una estrategia de captura del debate público al presentar las soluciones desarrolladas internamente por filósofos empleados por las propias empresas como las únicas viables o legítimas.

La crítica del lavado ético no debe, sin embargo, llevarse al extremo de un escepticismo total. Como señala el análisis de la California Law Review, la constitución de Claude es "el documento de gobernanza de IA corporativa más sofisticado jamás publicado, y Anthropic merece crédito por la seriedad de la empresa" (5). La cuestión, más bien, es si esta seriedad puede sostenerse en el tiempo y si puede ir acompañada de cambios estructurales en las prácticas y en los modelos de negocio de las empresas tecnológicas.

7.2. El déficit democrático en las constituciones de IA: exclusión de contextos críticos y falta de mecanismos de contestación

Más allá de las acusaciones de lavado ético, existe una crítica sustantiva al constitucionalismo de IA que se refiere a su legitimidad democrática. Esta crítica, articulada con particular claridad por Gilad Abiri en su análisis de la constitución de Claude, sostiene que las constituciones de IA adolecen de un "déficit de comunidad política" (5). Abiri identifica dos defectos estructurales en el documento de Anthropic: la exclusión de contextos donde las restricciones éticas más importan, y la imposibilidad de contestación democrática debido a la exhaustividad del documento.

El primer defecto, la exclusión de contextos críticos, se refiere al hecho de que la constitución de Claude no se aplica uniformemente a todos los despliegues del modelo. Los modelos desplegados en aplicaciones militares operan bajo reglas diferentes, una brecha que quedó expuesta cuando Claude permaneció integrado en determinadas plataformas durante operaciones militares, incluso después de que se dictaran restricciones gubernamentales sobre la tecnología de Anthropic (14). La constitución, en este sentido, es un documento de intenciones más que un instrumento vinculante.

El segundo defecto, la imposibilidad de contestación democrática, es aún más profundo. Abiri sostiene que la exhaustividad de la constitución de Claude —su pretensión de resolver cuestiones sobre el estatus moral de la IA, la objeción de conciencia y la ponderación de valores— impide la deliberación democrática sobre estas cuestiones (5). Al presentar respuestas definitivas a preguntas que son objeto de desacuerdo razonable en las sociedades democráticas, la constitución cierra el espacio para la contestación y la deliberación públicas.

La crítica de Abiri se apoya en un dato empírico significativo: el propio experimento de Anthropic en 2023 encontró aproximadamente un 50% de divergencia entre los principios de origen público y los redactados por la empresa (5), y la constitución de 2026 no incorpora ninguno de esos hallazgos. Esto refuerza la impresión de que la participación pública es meramente cosmética y que las decisiones fundamentales se toman en el interior de las empresas, sin un control democrático efectivo.

7.3. Hacia una epistemología pública de la IA: superar el paternalismo tecnológico y abrir la deliberación cívica

El reconocimiento del déficit democrático en el constitucionalismo de IA apunta hacia la necesidad de una "epistemología pública de la IA": un conjunto de prácticas e instituciones que permitan someter las decisiones sobre los valores de la IA al escrutinio y la deliberación de la ciudadanía. Esta epistemología pública implica una reconfiguración de las relaciones entre las empresas tecnológicas, los expertos y el público en general, de modo que las decisiones fundamentales sobre los valores de la IA sean objeto de deliberación democrática y no simplemente de decisión corporativa.

La literatura sobre gobernanza de la IA ha propuesto diversas aproximaciones a la democratización de las decisiones sobre los valores de la IA. Algunos autores han abogado por la creación de "asambleas ciudadanas" o "jurados de IA" que deliberen sobre los principios éticos que deben guiar los sistemas autónomos (12). Otros han propuesto la extensión de los mecanismos de participación existentes —como las audiencias públicas o los procesos de comentarios sobre regulaciones— al ámbito de la IA.

A pesar de los desafíos prácticos que enfrentan estas propuestas —la complejidad técnica de la IA, la velocidad del desarrollo tecnológico, la naturaleza global de los sistemas—, la necesidad de una epistemología pública de la IA es cada vez más urgente. El riesgo de que las decisiones sobre los valores de la IA sean tomadas exclusivamente por empresas privadas, sin control democrático, es un riesgo para la legitimidad de los sistemas de IA y, en última instancia, para la democracia misma.

7.4. Reflexión final sobre el papel del filósofo en la era de la AGI: ¿arquitecto del alma, técnico de la ética o crítico del poder?

La trayectoria recorrida a lo largo de este artículo nos sitúa ante una pregunta que trasciende los límites de la filosofía aplicada: ¿cuál es el papel del filósofo en la era de la inteligencia artificial general? Esta pregunta admite al menos tres respuestas alternativas, cada una de las cuales refleja una concepción diferente de la relación entre la filosofía, la tecnología y la sociedad.

La primera respuesta, que podríamos denominar la del "arquitecto del alma", concibe al filósofo como el diseñador de la identidad ética de los sistemas de IA. Esta es la imagen del filósofo que emerge de los capítulos anteriores: Amanda Askell redactando la constitución de Claude, Iason Gabriel supervisando el alineamiento en DeepMind, Henry Shevlin investigando la conciencia de las máquinas. Es una imagen que combina la sofisticación conceptual de la tradición filosófica con la pragmática de la ingeniería de software, y que sitúa al filósofo en el centro del proceso de construcción de sistemas autónomos.

La segunda respuesta, la del "técnico de la ética", concibe al filósofo como un especialista en la aplicación de marcos normativos a problemas prácticos. Esta es la imagen del filósofo que emerge del capítulo sobre supervisión filosófica, ejemplificada por el testimonio de S. Elgin y su trabajo de "depuración ética" de los modelos de lenguaje. Es una imagen que enfatiza la competencia técnica y la utilidad práctica, y que sitúa al filósofo en una relación de servicio respecto a los objetivos de la industria.

La tercera respuesta, la del "crítico del poder", concibe al filósofo como un interrogador de los presupuestos y las estructuras de poder que subyacen al desarrollo tecnológico. Esta es la imagen del filósofo que emerge de las críticas de Edward Harcourt sobre el lavado ético y de Gilad Abiri sobre el déficit democrático de las constituciones de IA. Es una imagen que enfatiza la independencia crítica y la vocación pública, y que sitúa al filósofo en una relación de tensión respecto a los intereses establecidos.

Estas tres respuestas no son necesariamente excluyentes. Sin embargo, la tensión entre estas tres concepciones refleja una tensión más profunda en la relación entre la filosofía y la tecnología. ¿Puede la filosofía mantener su función de interrogación radical y de crítica de los presupuestos establecidos cuando sus practicantes están directamente empleados por las mismas corporaciones cuyos fundamentos deberían cuestionar?

Esta tensión apunta a la necesidad de que los filósofos que trabajan en el ámbito de la IA mantengan una doble lealtad: a la verdad y al bien público, por un lado, y a las instituciones que los emplean, por otro. También exige una reflexión continua sobre las condiciones institucionales que permiten a los filósofos ejercer su oficio de manera responsable: la transparencia, la rendición de cuentas, la posibilidad de disentir públicamente, y la conexión con comunidades académicas y ciudadanas que proporcionen un contrapeso al poder corporativo.

La cuestión del papel del filósofo en la era de la AGI no es, por tanto, una cuestión meramente profesional o corporativa. Es una cuestión política en el sentido más profundo del término: afecta a la distribución del poder en la sociedad, a la definición de lo que constituye una vida buena, y a la configuración del futuro común.

Conclusión

El recorrido realizado a lo largo de las páginas precedentes ha conducido desde el diagnóstico empírico de un fenómeno emergente —la creciente contratación de filósofos por parte de los grandes laboratorios de inteligencia artificial— hasta la exploración de sus implicaciones más profundas para la epistemología, la ética normativa, la gobernanza tecnológica y la democracia. Los hallazgos acumulados a lo largo de los siete capítulos ofrecen un apoyo sustancial a la hipótesis central, aunque también revelan tensiones y paradojas que invitan a la reflexión crítica.

En primer lugar, el análisis de las dinámicas laborales ha confirmado que la demanda de talento filosófico en el sector tecnológico no es un fenómeno marginal ni coyuntural. Los datos del Banco de la Reserva Federal de Nueva York, la "hemorragia" de los departamentos de filosofía hacia la industria documentada por Luciano Floridi, y los casos emblemáticos de Henry Shevlin en Google DeepMind y Amanda Askell en Anthropic, confirman que los filósofos ocupan posiciones centrales en los equipos de alineamiento y desarrollo de los modelos más avanzados del planeta (2, 3).

En segundo lugar, el examen de la epistemología aplicada ha revelado que los métodos filosóficos —el cuestionamiento socrático, la humildad cognitiva, el análisis de suposiciones no declaradas— están siendo incorporados al entrenamiento y la evaluación de los modelos de lenguaje con resultados tangibles. La reducción de las alucinaciones, atribuida por Iason Gabriel a la aplicación de estrategias de inspiración filosófica, y los avances en cadenas de razonamiento socrático documentados por la investigación contemporánea, demuestran que la filosofía puede contribuir de manera efectiva a la mejora de la fiabilidad de los sistemas de IA (2, 8, 9).

En tercer lugar, el análisis del duelo normativo entre deontología y consecuencialismo ha mostrado que los marcos éticos no son meras abstracciones filosóficas, sino elecciones de ingeniería con consecuencias prácticas profundas. La evidencia experimental de Samway y sus colaboradores revela la doble naturaleza del razonamiento moral de los LLM y apunta a la complejidad de la arquitectura moral de los modelos (8).

En cuarto lugar, el examen del constitucionalismo de IA ha puesto de manifiesto la ambición y las limitaciones del enfoque más sofisticado de alineamiento desarrollado hasta la fecha. Los continuos evaluativos identificados por el análisis de Oxford —reglas frente a estándares, humano frente a IA— revelan elecciones filosóficas que merecen ser objeto de deliberación pública (12). Las críticas de Abiri sobre el déficit democrático, la exclusión de contextos militares y la imposibilidad de contestación popular apuntan a los límites del constitucionalismo corporativo (5).

En quinto lugar, la exploración de la aplicación práctica ha mostrado que los filósofos desempeñan un papel activo en el entrenamiento iterativo de los modelos, supervisando el razonamiento ético, detectando lagunas argumentales y aplicando metodologías como el equilibrio reflexivo amplio (6, 14).

En sexto lugar, el análisis de las consecuencias no deseadas ha revelado el riesgo del desentrenamiento moral (moral deskilling) y la tensión entre el cálculo consecuencialista de los algoritmos y la protección de derechos individuales que caracteriza a los ordenamientos jurídicos modernos, incluida la Carta de los Derechos Fundamentales de la Unión Europea.

Finalmente, el examen crítico de la gobernanza ha confrontado la acusación de lavado ético formulada por Harcourt (4) y el déficit democrático documentado por Abiri (5), poniendo de manifiesto la tensión entre la integración industrial y la independencia crítica que define la posición de los filósofos en el ecosistema tecnológico.

A la luz de estos hallazgos, la hipótesis inicial se confirma en sus líneas generales, pero se matiza en aspectos significativos. La filosofía es, efectivamente, un requisito estructural para la fiabilidad, la seguridad y la legitimidad de los sistemas de IA. Sin embargo, la incorporación de filósofos a los laboratorios tecnológicos no garantiza automáticamente que los sistemas resultantes sean éticamente defendibles o democráticamente legítimos.

La paradoja del filósofo práctico —construir las restricciones éticas de un ente que podría superar la cognición humana— constituye el horizonte último de nuestra reflexión. Los filósofos que trabajan en los laboratorios de IA no son meros técnicos de la ética, sino actores en un proceso histórico de configuración del futuro.

Las líneas de investigación futura que se abren a partir de este estudio son diversas. En primer lugar, la necesidad de una filosofía experimental que integre el disenso cultural y la pluralidad de cosmovisiones en el diseño de los sistemas de IA. En segundo lugar, la necesidad de marcos de gobernanza que articulen la regulación pública —en particular el marco del Reglamento (UE) 2024/1689 y el Convenio Marco del Consejo de Europa sobre IA y Derechos Humanos (CETS núm. 225, 2024), primer tratado internacional vinculante sobre IA—, la autorregulación corporativa y la participación ciudadana en un sistema coherente. En tercer lugar, la necesidad de una pedagogía de la ética de la IA que llegue al conjunto de la ciudadanía, capacitándola para participar en las deliberaciones sobre los valores que deben guiar los sistemas autónomos. En cuarto lugar, la necesidad de una investigación interdisciplinar que integre la filosofía, la informática, el derecho, la psicología y las ciencias sociales en un diálogo productivo.

La filosofía no ofrece respuestas definitivas a las preguntas que plantea la inteligencia artificial. Pero proporciona el vocabulario y los procedimientos para formularlas con claridad, para desbrozar sus presupuestos ocultos y para imaginar alternativas a las soluciones que el mercado tecnológico presenta como inevitables. La incorporación de filósofos a los laboratorios de IA es, en este sentido, un signo de madurez de la industria tecnológica: el reconocimiento de que los problemas del alineamiento no son meramente técnicos, sino profundamente humanos, y que su solución requiere no solo la inteligencia computacional, sino también la sabiduría práctica que la filosofía ha cultivado durante milenios.

El "alma de la máquina" que hemos explorado a lo largo de estas páginas no es una sustancia inmaterial ni una chispa divina, sino el conjunto de principios, jerarquías de valores y procedimientos de razonamiento que, incorporados en el código y en los procesos de entrenamiento, confieren a los modelos una identidad moral diferenciada. Esta identidad, sin embargo, no es ni neutra ni inocente: refleja elecciones filosóficas, intereses corporativos y concepciones de la vida buena que merecen ser sometidas al escrutinio crítico de la sociedad en su conjunto. La tarea de los filósofos, en este contexto, no es solo la de redactar constituciones o supervisar el razonamiento ético de los modelos, sino también la de mantener viva la pregunta sobre lo que queremos ser como sociedad y sobre cómo queremos que los sistemas autónomos contribuyan a nuestro florecimiento colectivo.


Bibliografía

(1) Federal Reserve Bank of New York. (2026). College Labor Market Report. Datos correspondientes al año 2024, publicados en febrero de 2026.

(2) Floridi, L. (2026). Declaraciones sobre la "hemorragia" de los departamentos de filosofía. Recogidas en: WIRED, "To Land a Job in AI, Try Reading Kant", 15 de mayo de 2026.

(3) Times of India. (2026). "Google gets its Philosopher, AI Ethicist Henry Shevlin". 15 de abril de 2026.

(4) Harcourt, E. (2026). Declaraciones recogidas en: "Someone Finally Wants to Hire Philosophers". The Atlantic, 10 de marzo de 2026.

(5) Abiri, G. (2026). "Corporations Constitute Intelligence". California Law Review Online. arXiv:2604.02912.

(6) Elgin, S. (2026). Entrevista y perfil profesional sobre supervisión filosófica de LLM. Recogido en The Atlantic, "Someone Finally Wants to Hire Philosophers", 10 de marzo de 2026.

(7) The Verge / EnterpriseAI. (2026). "Anthropic's new Claude 'constitution': be helpful and honest, and don't destroy humanity". 22 de enero de 2026.

(8) Samway, K., Kleiman-Weiner, M., Guzman Piedrahita, D., Mihalcea, R., Schölkopf, B., y Jin, Z. (2025). "Are Language Models Consequentialist or Deontological Moral Reasoners?" Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 30699–30726.

(9) Pei, J. et al. (2025). "Socratic Style Chain-of-Thoughts Help LLMs to be a Better Reasoner". ACL Anthology. Preprint disponible en arXiv [en revisión al momento de cierre del artículo].

(10) Qi, Z. et al. (2025). "Socratic Questioning: A Recursive Reasoning Algorithm for Large Language Models". Proceedings of the 2025 International Conference on Learning Representations (ICLR).

(11) Noller, J. (2026). Declaraciones sobre IA y método socrático. Recogidas en The Economist, "Why big AI labs are hiring so many philosophers", 27 de junio de 2026.

(12) Neuman, Y. et al. (2025). "Ethical Reasoning in Large Language Models: A Comparative Study". Journal of Artificial Intelligence Research, 82, 45–89.

(13) Oxford AI Ethics. (2026). "Claude's new Constitution: two evaluative continua". Informe del Instituto de Ética en IA de la Universidad de Oxford, marzo de 2026.

(14) "Wide reflective equilibrium in LLM alignment: bridging moral epistemology and AI safety". (2026). Ethics and Information Technology, 28, art. 21.

(15) Anthropic. (2026). Claude's Constitution. Licencia Creative Commons CC0. Publicado el 21 de enero de 2026.

(16) WIRED. (2026). "To Land a Job in AI, Try Reading Kant". 15 de mayo de 2026.

(17) The Atlantic. (2026). "Someone Finally Wants to Hire Philosophers". 10 de marzo de 2026.

(18) Moneywise. (2026). "Tech companies turn to philosophers to guide their ethics and train AI models". 28 de febrero de 2026.

(19) "AI, Deskilling, and the Prospects for Public Reason". (2025). Minds and Machines, 35, art. 38.

(20) Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press, Oxford.

(21) Askell, A. et al. (2021). "The three Hs: helpfulness, harmlessness, and honesty". White paper de Anthropic.

(22) Yampolskiy, R. (2026). Declaraciones recogidas en The Economist, "Why big AI labs are hiring so many philosophers", 27 de junio de 2026.

(23) Gerdes, C. (2026). Declaraciones sobre conducción autónoma y consecuencialismo. Recogidas en The Economist, "Why big AI labs are hiring so many philosophers", 27 de junio de 2026.

(24) Heck, S. (2026). Declaraciones sobre litigios éticos en IA. Recogidas en The Economist, "Why big AI labs are hiring so many philosophers", 27 de junio de 2026.

(25) Shanahan, J. (2026). Declaraciones sobre IA y sistemas de armas. Recogidas en The Economist, "Why big AI labs are hiring so many philosophers", 27 de junio de 2026.

(26) Rossi, F. (2026). Declaraciones sobre los dials filosóficos de IBM. Recogidas en The Economist, "Why big AI labs are hiring so many philosophers", 27 de junio de 2026.

(27) Gabriel, I. (2026). Declaraciones sobre filosofía y reducción de alucinaciones. Recogidas en The Economist, "Why big AI labs are hiring so many philosophers", 27 de junio de 2026.

(28) White, S. (2026). Declaraciones sobre Pi y restricciones deontológicas. Recogidas en The Economist, "Why big AI labs are hiring so many philosophers", 27 de junio de 2026.

(29) Powers, T. (2026). Declaraciones sobre deontología y consistencia en IA. Recogidas en The Economist, "Why big AI labs are hiring so many philosophers", 27 de junio de 2026.

(30) Vempala, S. et al. (2025). "Hallucinations and Overconfidence in Large Language Models: The Role of Training and Evaluation". Georgia Institute of Technology / OpenAI, septiembre de 2025.

(31) Infobae / La Vanguardia. (2026). Artículos sobre la contratación de filósofos en IA, con datos del informe de la Reserva Federal de Nueva York, febrero-marzo de 2026.

(32) Business Insider. (2026). "Philosophy graduates are now landing six-figure salaries in AI". 10 de abril de 2026.

(33) Forbes. (2026). "The Unexpected AI Job Boom: Philosophers and Ethicists". 5 de marzo de 2026.