⚡ Transformers - jhcha.oyo · Scour

TextEconomizer: Enhancing Lossy Text Compression with Denoising Transformers and Entropy Coding

🤖AI Academic

Towards Tight Bounds for Streaming Attention

🤖AI Academic

Beyond Item IDs: Scaling Short-Form-Video Recommendation via Semantic-Native Long Sequence Modeling

🧮Complexity Theory Academic

Selective Coupling of Decoupled Informative Regions: Masked Attention Alignment for Data-Free Quantization of Vision Transformers

🤖AI Academic

Attention at the Theoretical Minimum: A Mathematics of Arrays Framework for Memory-Optimal Transformer Kernels

🤖AI Academic

LazyAttention: Efficient Retrieval-Augmented Generation with Deferred Positional Encoding

🤖AI Academic

Query-based Cross-Modal Projector Bolstering Mamba Multimodal LLM

🤖AI Academic

Signed Dual Attention: Capturing Signed Dependencies in Time Series Forecasting

🤖AI Academic

Transformer-Enhanced Reinforcement Learning: Fundamentals and Applications in Communication Networks

🤖AI Academic

ATT-CR: Adaptive Triangular Transformer for Cloud Removal

🧮Complexity Theory Academic

Depth-Attention: Cross-Layer Value Mixing for Language Models

📈Optimization Academic

Imbuing Large Language Models with Bidirectional Logic for Robust Chain Repair

🤖AI Academic

An Empirical Audit of Input Encoders for Multi-Channel Signal Transformers

⚡Quantization Academic

GRAMformer: Any-Order Modality Interactions via Volumetric Multimodal Cross-Attention

🤖AI Academic

Phase transitions for the noisy transformer model in arbitrary dimension

🤖Machine Learning Academic

Do Transformers Need Three Projections? Systematic Study of QKV Variants

⚡Quantization Academic

arxiv.org··Hacker News

Log in to enable infinite scrolling