🛡️ AI Safety - ibrahimsharaf · Scour

The Anthropic Case: Do We Need an Ethical Framework for Interacting with AI? 🔓Open Source AI

A civic grammar for AI rights 🏢LLM Adoption

science.org·6d

Pairwise Preference Reward and Group-Based Diversity Enhancement for Superior Open-Ended Generation 🎯RLHF

What Do You Actually Want? 🤖AI Agents

dekodiert.de·4d·Hacker News

Large language model safety research wins Rath Award at Spring 2026 Graduate Commencement 🗣️NLP

minesnewsroom.com·5d

Goal-Conditioned Supervised Learning for LLM Fine-Tuning 🎯LLM Finetuning

Aether Mind – on-chain neural cognitive engine on a quantum-VQE L1 💻Local AI

huggingface.co·5d·Hacker News

Inference-Time Scaling in Diffusion Models through Iterative Partial Refinement 💻Local AI

Weak-to-Strong Elicitation via Mismatched Wrong Drafts 🧠LLMs

Mirror Descent-Type Algorithms for the Variational Inequality Problem with Functional Constraints 🚀LLM Deployment

Synthetic Persona Pretraining: Alignment from Token Zero 🧪Synthetic Data

lesswrong.com·15h

A No-Defense Defense Against Gradient-Based Adversarial Attacks on ML-NIDS: Is Less More? 🧠LLMs

DEFLECT: Delay-Robust Execution via Flow-matching Likelihood-Estimated Counterfactual Tuning for VLA Policies 💻Local AI

When and Why Adversarial Training Improves PINNs: A Neural Tangent Kernel Perspective 🧠LLMs

ClaHF: A Human Feedback-inspired Reinforcement Learning Framework for Improving Classification Tasks 🎯RLHF

DVMap: Fine-Grained Pluralistic Value Alignment via High-Consensus Demographic-Value Mapping ⚡Quantization

ACE: Self-Evolving LLM Coding Framework via Adversarial Unit Test Generation and Preference Optimization 🧠LLMs

Universal Adversarial Triggers 🔍RAG

PROWL: Prioritized Regret-Driven Optimization for World Model Learning 💻Local AI

SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training 🎯RLHF

Sign up or log in to see more results

Log in to enable infinite scrolling