LLM Inference Optimizations: A Deep Dive into Modern Techniques

Aug 2025

18 Mon

19 Tue

20 Wed 09:00 AM – 11:59 PM IST

21 Thu 09:00 AM – 11:59 PM IST

22 Fri 09:00 AM – 11:59 PM IST

23 Sat 09:00 AM – 11:59 PM IST

24 Sun 09:00 AM – 11:59 PM IST

Aug 2025

25 Mon 09:00 AM – 11:59 PM IST

26 Tue 09:00 AM – 11:59 PM IST

27 Wed 09:00 AM – 11:59 PM IST

28 Thu 09:00 AM – 11:59 PM IST

29 Fri 09:00 AM – 11:59 PM IST

30 Sat 09:00 AM – 11:59 PM IST

31 Sun 09:00 AM – 11:59 PM IST

Sep 2025

1 Mon 09:00 AM – 11:59 PM IST

2 Tue 09:00 AM – 11:59 PM IST

3 Wed 09:00 AM – 11:59 PM IST

4 Thu 09:00 AM – 11:59 PM IST

5 Fri 09:00 AM – 11:59 PM IST

6 Sat 09:00 AM – 11:59 PM IST

7 Sun 09:00 AM – 11:59 PM IST

Sep 2025

8 Mon 09:00 AM – 11:59 PM IST

9 Tue 09:00 AM – 11:59 PM IST

10 Wed 09:00 AM – 11:59 PM IST

11 Thu 09:00 AM – 11:59 PM IST

12 Fri 09:00 AM – 11:59 PM IST

13 Sat 09:00 AM – 11:59 PM IST

14 Sun 09:00 AM – 11:59 PM IST

Sep 2025

15 Mon 09:00 AM – 11:59 PM IST

16 Tue 09:00 AM – 11:59 PM IST

17 Wed 09:00 AM – 11:59 PM IST

18 Thu 09:00 AM – 11:59 PM IST

19 Fri 09:00 AM – 11:59 PM IST

20 Sat 09:00 AM – 11:59 PM IST

21 Sun 09:00 AM – 11:59 PM IST

Sep 2025

22 Mon 09:00 AM – 11:59 PM IST

23 Tue 09:00 AM – 11:59 PM IST

24 Wed 09:00 AM – 11:59 PM IST

25 Thu 09:00 AM – 11:59 PM IST

26 Fri 09:00 AM – 11:59 PM IST

27 Sat 09:00 AM – 11:59 PM IST

28 Sun 09:00 AM – 11:59 PM IST

Sep 2025

29 Mon 09:00 AM – 11:59 PM IST

30 Tue 09:00 AM – 11:59 PM IST

1 Wed 09:00 AM – 11:59 PM IST

2 Thu 09:00 AM – 11:59 PM IST

3 Fri 09:00 AM – 11:59 PM IST

4 Sat 09:00 AM – 11:59 PM IST

5 Sun 09:00 AM – 11:59 PM IST

Oct 2025

6 Mon 09:00 AM – 11:59 PM IST

7 Tue 09:00 AM – 11:59 PM IST

8 Wed 09:00 AM – 11:59 PM IST

9 Thu 09:00 AM – 11:59 PM IST

10 Fri 09:00 AM – 11:59 PM IST

11 Sat 09:00 AM – 11:59 PM IST

12 Sun 09:00 AM – 11:59 PM IST

Oct 2025

13 Mon 09:00 AM – 11:59 PM IST

14 Tue 09:00 AM – 11:59 PM IST

15 Wed 09:00 AM – 11:59 PM IST

16 Thu 09:00 AM – 11:59 PM IST

17 Fri 09:00 AM – 11:59 PM IST

18 Sat 09:00 AM – 11:59 PM IST

19 Sun 09:00 AM – 11:59 PM IST

Oct 2025

20 Mon 09:00 AM – 11:59 PM IST

21 Tue 09:00 AM – 11:59 PM IST

22 Wed 09:00 AM – 11:59 PM IST

23 Thu 09:00 AM – 11:59 PM IST

24 Fri 09:00 AM – 11:59 PM IST

25 Sat 09:00 AM – 11:59 PM IST

26 Sun 09:00 AM – 11:59 PM IST

Oct 2025

27 Mon 09:00 AM – 11:59 PM IST

28 Tue 09:00 AM – 11:59 PM IST

29 Wed 09:00 AM – 11:59 PM IST

30 Thu 09:00 AM – 11:59 PM IST

31 Fri 09:00 AM – 11:59 PM IST

1 Sat 09:00 AM – 11:59 PM IST

2 Sun 09:00 AM – 11:59 PM IST

Nov 2025

3 Mon 09:00 AM – 11:59 PM IST

4 Tue 09:00 AM – 11:59 PM IST

5 Wed 09:00 AM – 11:59 PM IST

6 Thu 09:00 AM – 11:59 PM IST

7 Fri 09:00 AM – 11:59 PM IST

8 Sat 09:00 AM – 11:59 PM IST

9 Sun 09:00 AM – 11:59 PM IST

Nov 2025

10 Mon 09:00 AM – 11:59 PM IST

11 Tue 09:00 AM – 11:59 PM IST

12 Wed 09:00 AM – 11:59 PM IST

13 Thu 09:00 AM – 11:59 PM IST

14 Fri 09:00 AM – 11:59 PM IST

15 Sat 09:00 AM – 11:59 PM IST

16 Sun 09:00 AM – 11:59 PM IST

Nov 2025

17 Mon 09:00 AM – 11:59 PM IST

18 Tue 09:00 AM – 11:59 PM IST

19 Wed 09:00 AM – 11:59 PM IST

20 Thu 09:00 AM – 11:59 PM IST

21 Fri 09:00 AM – 11:59 PM IST

22 Sat 09:00 AM – 11:59 PM IST

23 Sun 09:00 AM – 11:59 PM IST

Nov 2025

24 Mon 09:00 AM – 11:59 PM IST

25 Tue 09:00 AM – 11:59 PM IST

26 Wed 09:00 AM – 11:59 PM IST

27 Thu 09:00 AM – 11:59 PM IST

28 Fri 09:00 AM – 11:59 PM IST

29 Sat 09:00 AM – 11:59 PM IST

30 Sun 09:00 AM – 11:59 PM IST

Dec 2025

1 Mon 09:00 AM – 11:59 PM IST

2 Tue 09:00 AM – 11:59 PM IST

3 Wed 09:00 AM – 11:59 PM IST

4 Thu 09:00 AM – 11:59 PM IST

5 Fri 09:00 AM – 11:59 PM IST

6 Sat 09:00 AM – 11:59 PM IST

7 Sun 09:00 AM – 11:59 PM IST

Dec 2025

8 Mon 09:00 AM – 11:59 PM IST

9 Tue 09:00 AM – 11:59 PM IST

10 Wed 09:00 AM – 11:59 PM IST

11 Thu 09:00 AM – 11:59 PM IST

12 Fri 09:00 AM – 11:59 PM IST

13 Sat 09:00 AM – 11:59 PM IST

14 Sun 09:00 AM – 11:59 PM IST

Dec 2025

15 Mon 09:00 AM – 11:59 PM IST

16 Tue 09:00 AM – 11:59 PM IST

17 Wed 09:00 AM – 11:59 PM IST

18 Thu 09:00 AM – 11:59 PM IST

19 Fri 09:00 AM – 11:59 PM IST

20 Sat 09:00 AM – 11:59 PM IST

21 Sun 09:00 AM – 11:59 PM IST

Dec 2025

22 Mon 09:00 AM – 11:59 PM IST

23 Tue 09:00 AM – 11:59 PM IST

24 Wed 09:00 AM – 11:59 PM IST

25 Thu 09:00 AM – 11:59 PM IST

26 Fri 09:00 AM – 11:59 PM IST

27 Sat 09:00 AM – 11:59 PM IST

28 Sun 09:00 AM – 11:59 PM IST

Dec 2026

29 Mon 09:00 AM – 11:59 PM IST

30 Tue 09:00 AM – 11:59 PM IST

31 Wed 09:00 AM – 11:59 PM IST

1 Thu 09:00 AM – 11:59 PM IST

2 Fri 09:00 AM – 11:59 PM IST

3 Sat 09:00 AM – 11:59 PM IST

4 Sun 09:00 AM – 11:59 PM IST

Jan 2026

5 Mon 09:00 AM – 11:59 PM IST

6 Tue 09:00 AM – 11:59 PM IST

7 Wed 09:00 AM – 11:59 PM IST

8 Thu 09:00 AM – 11:59 PM IST

9 Fri 09:00 AM – 11:59 PM IST

10 Sat 09:00 AM – 11:59 PM IST

11 Sun 09:00 AM – 11:59 PM IST

Jan 2026

12 Mon 09:00 AM – 11:59 PM IST

13 Tue 09:00 AM – 11:59 PM IST

14 Wed 09:00 AM – 11:59 PM IST

15 Thu 09:00 AM – 11:59 PM IST

16 Fri 09:00 AM – 11:59 PM IST

17 Sat 09:00 AM – 11:59 PM IST

18 Sun 09:00 AM – 11:59 PM IST

Jan 2026

19 Mon 09:00 AM – 11:59 PM IST

20 Tue 09:00 AM – 11:59 PM IST

21 Wed 09:00 AM – 11:59 PM IST

22 Thu 09:00 AM – 11:59 PM IST

23 Fri 09:00 AM – 11:59 PM IST

24 Sat 09:00 AM – 11:59 PM IST

25 Sun 09:00 AM – 11:59 PM IST

Jan 2026

26 Mon 09:00 AM – 11:59 PM IST

27 Tue 09:00 AM – 11:59 PM IST

28 Wed 09:00 AM – 11:59 PM IST

29 Thu 09:00 AM – 11:59 PM IST

30 Fri 09:00 AM – 11:59 PM IST

31 Sat 09:00 AM – 11:59 PM IST

1 Sun 09:00 AM – 11:59 PM IST

Feb 2026

2 Mon 09:00 AM – 11:59 PM IST

3 Tue 09:00 AM – 11:59 PM IST

4 Wed 09:00 AM – 11:59 PM IST

5 Thu 09:00 AM – 11:59 PM IST

6 Fri 09:00 AM – 11:59 PM IST

7 Sat 09:00 AM – 11:59 PM IST

8 Sun 09:00 AM – 11:59 PM IST

Feb 2026

9 Mon 09:00 AM – 11:59 PM IST

10 Tue 09:00 AM – 11:59 PM IST

11 Wed 09:00 AM – 11:59 PM IST

12 Thu 09:00 AM – 11:59 PM IST

13 Fri 09:00 AM – 11:59 PM IST

14 Sat 09:00 AM – 11:59 PM IST

15 Sun 09:00 AM – 11:59 PM IST

Feb 2026

16 Mon 09:00 AM – 11:59 PM IST

17 Tue 09:00 AM – 11:59 PM IST

18 Wed 09:00 AM – 11:59 PM IST

19 Thu 09:00 AM – 11:59 PM IST

20 Fri 09:00 AM – 11:59 PM IST

21 Sat 09:00 AM – 11:59 PM IST

22 Sun 09:00 AM – 11:59 PM IST

Feb 2026

23 Mon 09:00 AM – 11:59 PM IST

24 Tue 09:00 AM – 11:59 PM IST

25 Wed 09:00 AM – 11:59 PM IST

26 Thu 09:00 AM – 11:59 PM IST

27 Fri 09:00 AM – 11:59 PM IST

28 Sat 09:00 AM – 11:59 PM IST

1 Sun

LLM Inference Optimizations: A Deep Dive into Modern Techniques

Submitted Jan 26, 2026

Indicate the track in which your submission fits: Track 1 AI in Software Development Life Cycle (SDLC) Type of submission: Birds of Feather (BOF) session

Problem statement

The core problem discussed is the “Memory Wall” in LLM inference—where GPU computational power has scaled dramatically (~50,000x+ in the last decade), but memory bandwidth has lagged (only 100x growth), making inference memory-bound rather than compute-bound. This leads to idle GPU cores, high latency, and inefficient resource utilization, especially for long-context models and batch processing.

Under this topic, we intend to cover a few popular techniques on improving memory usage efficiency such as the following to unlock the LLM potentials for:

Flash Attention
Virtual memory-inspired techniques to eliminate fragmentation, Paged Attention and Prefix Caching
Use of KV Caches and KV Cache Compression
Continuous Batching and Speculative Decoding to Alleviate bandwidth bottlenecks and improve the compute-to-memory movement ratio

Key takeaways

Attendees will gain a clear understanding of why LLM inference is memory-bound and how use of kv cache and techniques like Flash Attention and Paged Attention can achieve 2-4x speedups and higher GPU utilization, enabling longer contexts and larger batches without hardware upgrades.
Participants will learn actionable strategies for KV cache management and speculative decoding, leading to faster token generation (~2x - 3x)while maintaining equivalence to standard methods, directly applicable to real-world serving systems like vLLM.

Audiences for this session

This discussion will benefit:

Machine learning engineers and AI developers involved in deploying and scaling LLMs in production environments, who need practical techniques to reduce latency and costs.
Researchers and data scientists focused on transformer architectures, seeking insights into memory bottlenecks and optimization trade-offs.
Product managers and tech leads in AI-driven companies (e.g., chatbots, recommendation systems), who can apply these efficiencies to improve throughput and user experience.

About the facilitator

Kundan Kumar is a final year Computer Science student at IIT Kanpur. He has worked on KV caching systems at Nutanix as a visiting researcher. His interests lie at the intersection of systems optimization and AI infrastructure.

The Fifth Elephant Pune edition