heterodoxin/graphkv: Graph-guided KV cache compression for memory-efficient LLM inference. (opens in new tab)

Graph-guided KV cache compression for memory-efficient LLM inference. - heterodoxin/graphkv