NSF PPoSS CROSS Project 2nd Annual Meeting

Sep. 12, 2025 (Friday)

1:00 - 1:20 pm: Overview of CROSS Project, by Dr. Jiajia Li @ NCSU [Slides]
1:20 - 2:50 pm: Presentations from Dr. Jiajia Li’s group @ NCSU
- 1:20 - 1:40 pm: STTID: High-Performance Sparse Tensor-Train Interpolative Decomposition, by Zhaonan Meng [Slides]
- 1:40 - 2:00 pm: Accelerating Sparse Matrix Multiplication Using Tenstorrent, by Rahmy Salman [Slides]
- 2:00 - 2:20 pm: SpSymT2C: A Space Efficient Sparse Symmetric Tensor Contraction Algorithm, by Devadatta Mandaogane [Slides]
- 2:20 - 2:40 pm: Study of GPU-Accelerated Block-Sparse Tensor Contractions, by Sri Harshavardhan Reddy Deverapalli and Zecheng Li [Slides]
- 2:40 - 2:50 pm: Demystifying GPU Performance Tuning: How Instrumentation Tools Help Users Identify Performance Bottlenecks, by Yanbo Zhao [Slides]
2:50 - 3:20 pm: Group Discussion and Q&A
3:20 - 3:30 pm: ===== Break =====
3:30 - 4:30 pm: Presentations from Dr. Frank Mueller’s group @ NCSU
- 3:30 - 3:50 pm: Exploiting Hermitian Matrix Sparsity for Efficient Hamiltonian Simulation using DiaQ, by Srikar Chundury [Slides]
- 3:50 - 4:10 pm: DIAMOND: Systolic Array Acceleration of Sparse Matrix Multiplication for Quantum Simulation, by Yuchao Su [Slides]
- 4:10 - 4:30 pm: Simulation of Mixed Qubit-Qumode Circuits for Variational Algorithms, by Blake Burgstahler [Slides]
4:30 - 5:00 pm: Group Discussion and Q&A

1:00 - 2:20 pm: Presentations from Dr. Lizhong Chen’s group @ Oregon State
- 1:00 - 1:10 pm: Y2 Overview from Oregon State, Lizhong Chen [Slides]
- 1:10 - 1:40 pm: How Sparse Tensors Change the HLS Compilation Model, by Raymond Baartmans [Slides]
- 1:40 - 1:55 pm: From Algorithm to Layout: Building the Toolchain for HLS-based Accelerator Design, by Anthony Kung [Slides]
- 1:55 - 2:20 pm: Challenges and Opportunities for HLS Design Interpretability, by Adrian Alupoaei [Slides]
2:20 - 2:50 pm: Group Discussion and Q&A
2:50 - 3:00 pm: ===== Break =====
3:00 - 4:20 pm: Presentations from Dr. Dong Li’s group @ UC-Merced
- 3:00 - 3:20 pm: cMPI: Using CXL Memory Sharing for MPI Inter-Node Communications, by Xi (Sherry) Wang [Slides]
- 3:20 - 3:40 pm: Performance Characterization of CXL Memory and Its Use Cases, by Xi (Sherry) Wang [Slides]
- 3:40 - 4:00 pm: NeuronMM: High-Performance Matrix Multiplication for LLM Inference on AWS Trainium, by Dinghong Song [Slides]
- 4:00 - 4:20 pm: Machine Learning-Guided Memory Optimization for DLRM Inference on Tiered Memory, by Bin Ma [Slides]
- 4:20 - 4:30 pm: Future Plans, by all PIs [Slides]
4:30 - 5:00 pm: Group Discussion and Q&A