🗣️ Speech Recognition - a1k0n · Scour

Towards Truly Multilingual ASR: Generalizing Code-Switching ASR to Unseen Language Pairs

🤖Transformers Academic

Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech

🤖Transformers Blog

huggingface.co·

DW News : DW : June 11, 2026 4:00am-4:02am CEST

🎛️Audio DSP

Evaluate Clinical ASR Models Faster with Agent Skills and NVIDIA Nemotron Speech

🤖Transformers News Blog

developer.nvidia.com·

Treble Technologies and Hugging Face Address Benchmark of Automatic Speech Recognition Models

🤖Machine Learning

audioxpress.com·

lbj96347/nemotron-3.5-asr-ios: On-device, offline speech recognition for iPhone/iPad using NVIDIA's Nemotron-3.5-ASR Streaming 0.6B (multilingual) via CoreML.SwiftUI app with mic capture + audio file import, RNN-Tdecoding, and live benchmark metrics (latency, RTF, memory).

🤖Machine Learning Code

github.com··Hacker News

What TTS Throws Away

🤖Transformers

amaldavid.com··Hacker News

Pico-Driven Ultrasound Enables Scaled Acoustic Model of Home Stereo

🎛️Audio DSP

AI Week in Review 26.06.06

🌟Ray Tracing News Blog

patmcguinness.substack.com··Substack

Evaluating Bias in Phoneme-Based Automatic Speech Recognition Systems: An Analysis of IPA Transcription Models

🤖Transformers Academic

Palabra.ai Review 2026: Real-Time Speech Translation, Tested Carefully

🤖Transformers Blog

DW News : DW : June 8, 2026 9:00pm-9:03pm CEST

🎛️Audio DSP

Tight Boundary Prediction in Speaker Diarization Using Causal-Anticausal Consistency

🤖Transformers Academic

DW News : DW : June 10, 2026 9:00pm-9:02pm CEST : Free Borrow & Streaming

🎛️Audio DSP Video

rccyx/asryx: Daemonless Linux native ASR binary (embedded via whisper.cpp C API, no dependencies beyond the standard C++ and Linux toolchain)

🤖Machine Learning Code

github.com··Hacker News

Enhancing Multilingual LLM-based ASR with Mixture of Experts and Dynamic Downsampling

🤖Transformers Academic

ALJAZ : June 11, 2026 4:30am-5:00am AST : Free Borrow & Streaming

📚Compilers Video

Speaker Group Encoding in Self-supervised Speech Recognition Models

🤖Transformers Academic

News : RT : June 10, 2026 12:00pm-12:31pm EDT : Free Borrow & Streaming

🤖AI Video

tetherto/qvac: QVAC - Local AI SDK and libraries for building private, cross-platform, peer-to-peer AI applications. Run LLMs, speech-to-text, translation, and more locally on Linux, macOS, Windows, Android, and iOS.

🔍RAG Code

Log in to enable infinite scrolling