Lossless LLM compression for efficient GPU inference via dynamic-length float

Heykuki News

411 points

a year ago

117 comments

Threaded

Loading comments...

Lossless LLM compression for efficient GPU inference via dynamic-length float | Heykuki News