JetStream: Throughput+memory optimized engine for LLM inference on XLA devices

Heykuki News

2 points

2 years ago

No comments

Threaded

Loading comments...

JetStream: Throughput+memory optimized engine for LLM inference on XLA devices | Heykuki News