💰 Compute Costs - CWhiting · Scour

Unraveling GPU Inference Costs for Fine-tuned Open-source Models V/S Closed Platforms 📊Model Serving Economics

mlops.community·1d

Autodata: an automatic data scientist to create high-quality data (5 minute read) ⚙️AI Automation

facebookresearch.github.io·3d

STOP: Structured On-Policy Pruning of Long-Form Reasoning in Low-Data Regimes 🤖LLM

Cheaper Cloud Strategy: Why Cost Reduction Without Architecture Changes Fails 🏛️Technical Architecture

rack2cloud.com·1d·DEV

Investment notes: Deci US$9.1m Seed 🤖AI News

squarepeg.vc·1d

Budgeted Attention Allocation: Cost-Conditioned Compute Control for Efficient Transformers ⚡LLM Optimization

AESOP: Adversarial Execution-path Selection to Overload Deep Learning Pipelines 🛡️AI Security

Towards Generation-Efficient Uncertainty Estimation in Large Language Models 🤖LLM

Dynamic Execution Commitment of Vision-Language-Action Models ⚙️LLMOps

On Variance Reduction in Learning Mean Flows ⚡LLM Optimization

StreamPhy: Streaming Inference of High-Dimensional Physical Dynamics via State Space Models 🌊Stream Processing

Uncertainty-Aware Token Importance Estimation in Spiking Transformers 🔌Neural Interfaces

Tyche: One Step Flow for Efficient Probabilistic Weather Forecasting ⚡LLM Optimization

ConQuR: Corner Aligned Activation Quantization via Optimized Rotations for LLMs ⚡LLM Optimization

GRC: Unifying Reasoning-Driven Generation, Retrieval and Compression 🤖LLM

Scene-Adaptive Continual Learning for CSI-based Human Activity Recognition with Mixture of Experts 👁️Perceptual Hashing

AAAC: Activation-Aware Adaptive Codebooks for 4-bit LLM Weight Quantization ⚡LLM Optimization

Efficient and Adaptive Human Activity Recognition via LLM Backbones ⚡LLM Optimization

Selective Rollout: Mid-Trajectory Termination for Multi-Sample Agent RL 🌍World Models

OmniRefine: Alignment-Aware Cooperative Compression for Efficient Omnimodal Large Language Models ⚡LLM Optimization

Log in to enable infinite scrolling