Post-transformer inference: 224× compression of Llama-70B with improved accuracy

Heykuki News

72 points

6 months ago

56 comments

Threaded

Loading comments...

Post-transformer inference: 224× compression of Llama-70B with improved accuracy | Heykuki News