Writing

Essays & Notes

Reflections on AI safety, evaluation methodology, and the science of foundation models.

AI Alignment 2026

Position: General Alignment Has Hit a Ceiling; Edge Alignment Must Be Taken Seriously

We argue that compressing human values into a scalar reward reaches a structural ceiling. We introduce Edge Alignment — with seven pillars spanning multi-objective optimization, pluralistic governance, and interactive arbitration.

Read essay →

AI Safety 2026

Emergent Social Intelligence Risks in Generative Multi-Agent Systems

An analysis of emergent social risks when generative AI agents interact in multi-agent settings — with risk taxonomies, formal threat models, and mitigation strategies.

Read essay →

External ↗

Evaluation 2026

Visual Aesthetic Benchmark

A comprehensive benchmark examining AI systems' capacity for visual aesthetic judgment — spanning 13,000+ human preference ratings and covering pairwise aesthetic ordering across diverse domains.

Visit site ↗