Publications | Luca Soldaini

Here is a list of papers that I have authored; they are also available on my Semantic Scholar or Google Scholar profiles. α indicates equal contribution; ω indicates core contributors.

2026

Cracks in the Foundation: Seemingly Minor Architectural Choices Impact Long Context Extension
Amanda Bertsch, Luca Soldaini, Matthew R. Gormley, Graham Neubig, Hannaneh Hajishirzi, Kyle Lo, Dirk Groeneveld
preprint
How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs
Yapei Chang, Kyle Lo, Mohit Iyyer, Luca Soldaini
ICML 2026
Olmix: A Framework for Data Mixing Throughout LM Development
Mayee F. Chen, Tyler Murray, David Heineman, Matt Jordan, Hannaneh Hajishirzi, Christopher Ré, Luca Soldaini, Kyle Lo
ICML 2026
DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research
Rulin Shao^ω, Akari Asai^ω, Shannon Zejiang Shen^ω, Hamish Ivison^ω, Varsha Kishore^ω, Jingming Zhuo^ω, Xinran Zhao, Molly Park, Samuel G. Finlayson, David Sontag, Tyler Murray, Sewon Min, Pradeep Dasigi, Luca Soldaini, Faeze Brahman, Wen-tau Yih, Tongshuang Wu, Luke Zettlemoyer, Yoon Kim, Hannaneh Hajishirzi, Pang Wei Koh
ICML 2026 spotlight
Olmo Hybrid: From Theory to Practice and Back
William Merrill^ω, Yanhong Li^ω, Tyler Romero^ω, Anej Svete^ω, Caia Costello^ω, Pradeep Dasigi, Dirk Groeneveld, David Heineman, Bailey Kuehl, Nathan Lambert, Chuan Li, Kyle Lo, Saumya Malik, DJ Matusz, Benjamin Minixhofer, Jacob Morrison, Luca Soldaini, Finbarr Timbers, Pete Walsh, Noah A. Smith, Hannaneh Hajishirzi, Ashish Sabharwal^ω
preprint
Synthesizing scientific literature with retrieval-augmented language models
Akari Asai, Jacqueline He, Rulin Shao, Weijia Shi, Amanpreet Singh, Joseph Chee Chang, Kyle Lo, Luca Soldaini, Sergey Feldman, Mike D'Arcy, David Wadden, Matt Latzke, Minyang Tian, Pan Ji, Shengyan Liu, Hao Tong, Bohao Wu, Yanyu Xiong, Luke Zettlemoyer, Graham Neubig, Dan Weld, Doug Downey, Wen-tau Yih, Pang Wei Koh, Hannaneh Hajishirzi
Nature 2026
Overview of the TREC 2025 RAGTIME Track
Dawn Lawrie, Sean MacAvaney, James Mayfield, Luca Soldaini, Eugene Yang
preprint
NeuCLIRTech: Chinese Monolingual and Cross-Language Information Retrieval Evaluation in a Challenging Domain
Dawn Lawrie, James Mayfield, Eugene Yang, Andrew Yates, Sean MacAvaney, Ronak Pradeep, Scott Miller, Paul McNamee, Luca Soldaini
preprint

2025

Bolmo: Byteifying the Next Generation of Language Models
Benjamin Minixhofer, Tyler Murray, Tomasz Limisiewicz, Anna Korhonen, Luke Zettlemoyer, Noah A. Smith, Edoardo M. Ponti, Luca Soldaini, Valentin Hofmann
preprint
Olmo 3
Olmo Team: Allyson Ettinger^ω, Amanda Bertsch^ω, Bailey Kuehl^ω, David Graham^ω, David Heineman^ω, Dirk Groeneveld^ω, Faeze Brahman^ω, Finbarr Timbers^ω, Hamish Ivison^ω, Jacob Morrison^ω, Jake Poznanski^ω, Kyle Lo^ω, Luca Soldaini^ω, Matt Jordan^ω, Mayee Chen^ω, Michael Noukhovitch^ω, Nathan Lambert^ω, Pete Walsh^ω, Pradeep Dasigi^ω, Robert Berry^ω, Saumya Malik^ω, Saurabh Shah^ω, Scott Geng^ω, Shane Arora^ω, Shashank Gupta^ω, Taira Anderson^ω, Teng Xiao^ω, Tyler Murray^ω, Tyler Romero^ω, Victoria Graf^ω, Akari Asai, Akshita Bhagia, Alex Wettig, Alisa Liu, Aman Rangapur, Chloe Anastasiades, Costa Huang, Dustin Schwenk, Harsh Trivedi, Ian Magnusson, Jaron Lochner, Jiacheng Liu, Lj Miranda, Maarten Sap, Malia Morgan, Michael Schmitz, Michal Guerquin, Michael Wilson, Regan Huff, Ronan Le Bras, Rui Xin, Rulin Shao, Sam Skjonsberg, Shannon Zejiang Shen, Shuyue Stella Li, Tucker Wilde, Valentina Pyatkin, William Merrill, Yapei Chang, Yuling Gu, Zhiyuan Zeng, Ashish Sabharwal, Luke Zettlemoyer, Pang Wei Koh, Ali Farhadi, Noah A. Smith^ω, Hannaneh Hajishirzi^ω
preprint
olmOCR 2: Unit Test Rewards for Document OCR
Jake Poznanski^α, Luca Soldaini^α, Kyle Lo^α
preprint
FlexOlmo: Open Language Models for Flexible Data Use
Weijia Shi^ω, Akshita Bhagia^ω, Kevin Farhat^ω, Niklas Muennighoff, Pete Walsh, Jacob Morrison, Dustin Schwenk, Shayne Longpre, Jake Poznanski, Allyson Ettinger, Daogao Liu, Margaret Li, Dirk Groeneveld, Mike Lewis, Wen-tau Yih, Luca Soldaini, Kyle Lo, Noah A. Smith, Luke Zettlemoyer, Pang Wei Koh, Hannaneh Hajishirzi, Ali Farhadi, Sewon Min
NeurIPS 2025 spotlight
The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text
Nikhil Kandpal, Brian Lester, Colin Raffel, Sebastian Majstorovic, Stella Biderman, Baber Abbasi, Luca Soldaini, Enrico Shippole, A. Feder Cooper, Aviya Skowron, John Kirchenbauer, Shayne Longpre, Lintang Sutawika, Alon Albalak, Zhenlin Xu, Guilherme Penedo, Loubna Ben Allal, Elie Bakouch, John David Pressman, Honglu Fan, Dashiell Stander, Guangyu Song, Aaron Gokaslan, Tom Goldstein, Brian R. Bartoldson, Bhavya Kailkhura, Tyler Murray
NeurIPS 2025
2 OLMo 2 Furious
Olmo Team: Pete Walsh^ω, Luca Soldaini^ω, Dirk Groeneveld^ω, Kyle Lo^ω, Shane Arora^ω, Akshita Bhagia^ω, Yuling Gu^ω, Shengyi Huang^ω, Matt Jordan^ω, Nathan Lambert^ω, Dustin Schwenk^ω, Oyvind Tafjord^ω, Taira Anderson, David Atkinson, Faeze Brahman, Christopher Clark, Pradeep Dasigi, Nouha Dziri, Michal Guerquin, Hamish Ivison, Pang Wei Koh, Jiacheng Liu, Saumya Malik, William Merrill, Lester James V. Miranda, Jacob Morrison, Tyler Murray, Crystal Nam, Valentina Pyatkin, Aman Rangapur, Michael Schmitz, Sam Skjonsberg, David Wadden, Christopher Wilhelm, Michael Wilson, Luke Zettlemoyer, Ali Farhadi, Noah A. Smith^ω, Hannaneh Hajishirzi^ω
COLM 2025
Tülu 3: Pushing Frontiers in Open Language Model Post-Training
Nathan Lambert, Jacob Morrison, Valentina Pyatkin, Shengyi Huang, Hamish Ivison, Faeze Brahman, Lester James V. Miranda, Alisa Liu, Nouha Dziri, Xinxi Lyu, Yuling Gu, Saumya Malik, Victoria Graf, Jena D. Hwang, Jiangjiang Yang, Ronan Le Bras, Oyvind Tafjord, Chris Wilhelm, Luca Soldaini, Noah A. Smith, Yizhong Wang, Pradeep Dasigi, Hannaneh Hajishirzi
COLM 2025
Establishing Task Scaling Laws via Compute-Efficient Model Ladders
Akshita Bhagia^α, Jiacheng Liu^α, Alexander Wettig, David Heineman, Oyvind Tafjord, Ananya Harsh Jha, Luca Soldaini, Noah A. Smith, Dirk Groeneveld, Pang Wei Koh, Jesse Dodge, Hannaneh Hajishirzi
COLM 2025
Teaching Models to Understand (but not Generate) High-risk Data
Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
COLM 2025
Computer-vision research powers surveillance technology
Pratyusha Ria Kalluri^α, William Agnew^α, Myra Cheng^α, Kentrell Owens^α, Luca Soldaini^α, Abeba Birhane^α
Nature 2025
OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens
Jiacheng Liu, Taylor Blanton, Yanai Elazar, Sewon Min, Yen-Sung Chen, Arnavi Chheda-Kothary, Huy Tran, Byron Bischoff, Eric Marsh, Michael Schmitz, Cassidy Trier, Aaron Sarnat, Jenna James, Jon Borchardt, Bailey Kuehl, Evie Cheng, Karen Farley, Sruthi Sreeram, Taira Anderson, David Albright, Carissa Schoenick, Luca Soldaini, Dirk Groeneveld, Rock Yuren Pang, Pang Wei Koh, Noah A. Smith, Sophie Lebrecht, Yejin Choi, Hannaneh Hajishirzi, Ali Farhadi, Jesse Dodge
ACL 2025 System Demo best paper award
Organize the Web: Constructing Domains Enhances Pre-Training Data Curation
Alexander Wettig, Kyle Lo, Sewon Min, Hannaneh Hajishirzi, Danqi Chen, Luca Soldaini
ICML 2025
DataDecide: How to Predict Best Pretraining Data with Small Experiments
Ian Magnusson^α, Nguyen Tai^α, Ben Bogin^α, David Heineman, Jena D. Hwang, Luca Soldaini, Akshita Bhagia, Jiacheng Liu, Dirk Groeneveld, Oyvind Tafjord, Noah A. Smith, Pang Wei Koh, Jesse Dodge
ICML 2025
olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models
Jake Poznanski^ω, Jon Borchardt, Jason Dunkelberger, Regan Huff, Daniel Lin, Aman Rangapur, Christopher Wilhelm, Kyle Lo^ω, Luca Soldaini^ω
preprint
DrawEduMath: Evaluating Vision Language Models with Expert-Annotated Students' Hand-Drawn Math Images
Sami Baral, Li Lucy, Ryan Knight, Alice Ng, Luca Soldaini, Neil T. Heffernan, Kyle Lo
NAACL 2025 outstanding paper award
FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions
Orion Weller, Benjamin Chang, Sean MacAvaney, Kyle Lo, Arman Cohan, Benjamin Van Durme, Dawn Lawrie, Luca Soldaini
NAACL 2025
OLMoE: Open Mixture-of-Experts Language Models
Niklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi
ICLR 2025 oral
Language models scale reliably with over-training and on downstream tasks
Samir Yitzhak Gadre, Georgios Smyrnis, Vaishaal Shankar, Suchin Gururangan, Mitchell Wortsman, Rulin Shao, Jean Mercat, Alex Fang, Jeffrey Li, Sedrick Keh, Rui Xin, Marianna Nezhurina, Igor Vasiljevic, Jenia Jitsev, Luca Soldaini, Alexandros G. Dimakis, Gabriel Ilharco, Pang Wei Koh, Shuran Song, Thomas Kollar, Yair Carmon^α, Achal Dave^α, Reinhard Heckel^α, Niklas Muennighoff^α, Ludwig Schmidt^α
ICLR 2025
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models
Matt Deitke, Christopher Clark, Sangho Lee, Rohun Tripathi, Yue Yang, Jae Sung Park, Mohammadreza Salehi, Niklas Muennighoff, Kyle Lo, Luca Soldaini, Jiasen Lu, Taira Anderson, Erin Bransom, Kiana Ehsani, Huong Ngo, Yen-Sung Chen, Ajay Patel, Mark Yatskar, Chris Callison-Burch, Andrew Head, Rose Hendrix, Favyen Bastani, Eli VanderBilt, Nathan Lambert, Yvonne Chou, Arnavi Chheda, Jenna Sparks, Sam Skjonsberg, Michael Schmitz, Aaron Sarnat, Byron Bischoff, Pete Walsh, Chris Newell, Piper Wolters, Tanmay Gupta, Kuo-Hao Zeng, Jon Borchardt, Dirk Groeneveld, Jen Dumas, Crystal Nam, Sophie Lebrecht, Caitlin Wittlif, Carissa Schoenick, Oscar Michel, Ranjay Krishna, Luca Weihs, Noah A. Smith, Hannaneh Hajishirzi, Ross Girshick, Ali Farhadi, Aniruddha Kembhavi
CVPR 2025 best paper honorable mention
mFollowIR: A Multilingual Benchmark for Instruction Following in Information Retrieval
Orion Weller, Benjamin Chang, Eugene Yang, Mahsa Yarmohammadi, Sam Barham, Sean MacAvaney, Arman Cohan, Luca Soldaini, Benjamin Van Durme, Dawn Lawrie
ECIR 2025
RouterRetriever: Exploring the Benefits of Routing over Multiple Expert Embedding Models
Hyunji Lee, Luca Soldaini, Arman Cohan, Minjoon Seo, Kyle Lo
AAAI 2025

2024

The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources
Shayne Longpre^α, Stella Biderman^α, Alon Albalak, Hailey Schoelkopf, Daniel McDuff, Sayash Kapoor, Kevin Klyman, Kyle Lo, Gabriel Ilharco, Nay San, Maribeth Rauh, Aviya Skowron, Bertie Vidgen, Laura Weidinger, Arvind Narayanan, Victor Sanh, David Adelani, Percy Liang, Rishi Bommasani, Peter Henderson, Sasha Luccioni, Yacine Jernite^α, Luca Soldaini^α
TMLR 2024
MathFish 🐟: Evaluating Language Model Math Reasoning via Grounding in Educational Curricula
Li Lucy, Tal August, Rose E. Wang, Luca Soldaini, Courtney Allison, Kyle Lo
EMNLP 2024 Findings
DataComp-LM: In search of the next generation of training sets for language models
Jeffrey Li^ω, Alex Fang^ω, Georgios Smyrnis^ω, Maor Ivgi^ω, Matt Jordan, Samir Gadre, Hritik Bansal, Etash Guha, Sedrick Keh, Kushal Arora, Saurabh Garg, Rui Xin, Niklas Muennighoff, Reinhard Heckel, Jean Mercat, Mayee Chen, Suchin Gururangan, Mitchell Wortsman, Alon Albalak, Yonatan Bitton, Marianna Nezhurina, Amro Abbas, Cheng-Yu Hsieh, Dhruba Ghosh, Josh Gardner, Maciej Kilian, Hanlin Zhang, Rulin Shao, Sarah Pratt, Sunny Sanyal, Gabriel Ilharco, Giannis Daras, Kalyani Marathe, Aaron Gokaslan, Jieyu Zhang, Khyathi Chandu, Thao Nguyen, Igor Vasiljevic, Sham Kakade, Shuran Song, Sujay Sanghavi, Fartash Faghri, Sewoong Oh, Luke Zettlemoyer, Kyle Lo, Alaaeldin El-Nouby, Hadi Pouransari, Alexander Toshev, Stephanie Wang, Dirk Groeneveld, Luca Soldaini, Pang Wei Koh, Jenia Jitsev, Thomas Kollar, Alexandros G. Dimakis, Yair Carmon, Achal Dave^ω, Ludwig Schmidt^ω, Vaishaal Shankar^ω
NeurIPS 2024 Datasets and Benchmarks Track
Paloma: A Benchmark for Evaluating Language Model Fit
Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, Dirk Groeneveld, Iz Beltagy, Hannaneh Hajishirzi, Noah A. Smith, Kyle Richardson, Jesse Dodge
NeurIPS 2024 Datasets and Benchmarks Track
Accelerating Scientific Paper Skimming with Augmented Intelligence Through Customizable Faceted Highlights
Raymond Fok, Luca Soldaini, Cassidy Trier, Erin Bransom, Kelsey MacMillan, Evie Cheng, Hita Kambhamettu, Jonathan Bragg, Kyle Lo, Marti A. Hearst, Andrew Head, Daniel S. Weld
ACM Transactions on Interactive Intelligent Systems 2024
Self-Directed Synthetic Dialogues and Revisions Technical Report
Nathan Lambert, Hailey Schoelkopf, Aaron Gokaslan, Luca Soldaini, Valentina Pyatkin, Louis Castricato
technical report
SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature
David Wadden^α, Kejian Shi^α, Jacob Morrison, Aakanksha Naik, Shruti Singh, Nitzan Barzilay, Kyle Lo, Tom Hope, Luca Soldaini, Shannon Zejiang Shen, Doug Downey, Hannaneh Hajishirzi, Arman Cohan
preprint
On the Evaluation of Machine-Generated Reports
James Mayfield, Eugene Yang, Dawn Lawrie, Sean MacAvaney, Paul McNamee, Douglas W. Oard, Luca Soldaini, Ian Soboroff, Orion Weller, Efsun Kayi, Kate Sanders, Marc Mason, Noah Hibbler
SIGIR 2024 best paper nomination
KIWI: A Dataset of Knowledge-Intensive Writing Instructions for Answering Research Questions
Fangyuan Xu, Kyle Lo, Luca Soldaini, Bailey Kuehl, Eunsol Choi, David Wadden
ACL 2024 Findings
Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research
Luca Soldaini^ω, Rodney Kinney^ω, Akshita Bhagia^ω, Dustin Schwenk^ω, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo^ω
ACL 2024 best paper award
OLMo: Accelerating the Science of Language Models
Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi
ACL 2024 best paper award
AboutMe: Using Self-Descriptions in Webpages to Document the Effects of English Pretraining Data Filters
Li Lucy, Suchin Gururangan, Luca Soldaini, Emma Strubell, David Bamman, Lauren Klein, Jesse Dodge
ACL 2024
When do Generative Query and Document Expansions Fail? A Comprehensive Study Across Methods, Retrievers, and Datasets
Orion Weller, Kyle Lo, David Wadden, Dawn Lawrie, Benjamin Van Durme, Arman Cohan, Luca Soldaini
EACL 2024 Findings
What's In My Big Data?
Yanai Elazar, Akshita Bhagia, Ian Magnusson, Abhilasha Ravichander, Dustin Schwenk, Alane Suhr, Pete Walsh, Dirk Groeneveld, Luca Soldaini, Sameer Singh, Hannaneh Hajishirzi, Noah A. Smith, Jesse Dodge
ICLR 2024 spotlight

2023

Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in Dense Encoders
Hyunji Lee, Luca Soldaini, Arman Cohan, Minjoon Seo, Kyle Lo
preprint
PaperMage: A Unified Toolkit for Processing, Representing, and Manipulating Visually-Rich Scientific Documents
Kyle Lo^ω, Zejiang Shen^ω, Benjamin Newman^ω, Joseph Chee Chang^ω, Russell Authur, Erin Bransom, Stefan Candra, Yoganand Chandrasekhar, Regan Huff, Bailey Kuehl, Amanpreet Singh, Chris Wilhelm, Angele Zamarron, Marti A. Hearst, Daniel S. Weld, Doug Downey, Luca Soldaini^ω
EMNLP 2023 System Demo best paper award
A Question Answering Framework for Decontextualizing User-facing Snippets from Scientific Documents
Benjamin Newman, Luca Soldaini, Raymond Fok, Arman Cohan, Kyle Lo
EMNLP 2023
Open Domain Multi-document Summarization: A Comprehensive Study of Model Brittleness under Retrieval
John Giorgi, Luca Soldaini, Bo Wang, Gary Bader, Kyle Lo, Lucy Lu Wang, Arman Cohan
EMNLP 2023 Findings
Overview of the TREC 2023 NeuCLIR Track
Dawn Lawrie, Sean MacAvaney, James Mayfield, Paul McNamee, Douglas W. Oard, Luca Soldaini, Eugene Yang
TREC 2023
SCIM: Intelligent Skimming Support for Scientific Papers
Raymond Fok, Hita Kambhamettu, Luca Soldaini, Jonathan Bragg, Kyle Lo, Andrew Head, Marti A. Hearst, Daniel S. Weld
IUI 2023
Bound to the Bounty: Collaboratively Shaping Evaluation Processes for Queer AI Harms
Organizers of Queer in AI: Nathan Dennler, Anaelia Ovalle, Ashwin Singh, Luca Soldaini, Arjun Subramonian, Huy Tu, William Agnew, Avijit Ghosh, Kyra Yee, Irene Font Peradejordi, Zeerak Talat, Mayra Russo, Jess de Jesus de Pinho Pinhal
AIES 2023
Queer In AI: A Case Study in Community-Led Participatory AI
Organizers of Queer in AI: Anaelia Ovalle^α, Arjun Subramonian^α, Ashwin Singh^α, Claas Voelcker^α, Danica J. Sutherland^α, Davide Locatelli^α, Eva Breznik^α, Filip Klubička^α, Hang Yuan^α, Hetvi J^α, Huan Zhang^α, Jaidev Shriram^α, Kruno Lehman^α, Luca Soldaini^α, Maarten Sap^α, Marc Peter Deisenroth^α, Maria Leonor Pacheco^α, Maria Ryskina^α, Martin Mundt^α, Melvin Selim Atay^α, Milind Agarwal^α, Nyx McLean^α, Pan Xu^α, A Pranav^α, Raj Korpan^α, Ruchira Ray^α, Sarah Mathew^α, Sarthak Arora^α, St John^α, Tanvi Anand^α, Vishakha Agrawal^α, William Agnew^α, Yanan Long^α, Zijie J. Wang^α, Zeerak Talat^α, Avijit Ghosh^α, Nathaniel Dennler^α, Michael Noseworthy^α, Sharvani Jha^α, Emi Baylor^α, Aditya Joshi^α, Natalia Y. Bilenko^α, Andrew McNamara^α, Raphael Gontijo-Lopes^α, Alex Markham^α, Evyn Dǒng^α, Jackie Kay^α, Manu Saraswat^α, Nikhil Vytla^α, Luke Stark^α
FAccT 2023 best paper award
One-Shot Labeling for Automatic Relevance Estimation
Sean MacAvaney^α, Luca Soldaini^α
SIGIR 2023 Short Paper
The Semantic Reader Project: Augmenting Scholarly Documents through AI-Powered Interactive Reading Interfaces
Kyle Lo, Joseph Chee Chang, Andrew Head, Jonathan Bragg, Amy X. Zhang, Cassidy Trier, Chloe Anastasiades, Tal August, Russell Authur, Danielle Bragg, Erin Bransom, Isabel Cachola, Stefan Candra, Yoganand Chandrasekhar, Yen-Sung Chen, Evie Yu-Yen Cheng, Yvonne Chou, Doug Downey, Rob Evans, Raymond Fok, Fangzhou Hu, Regan Huff, Dongyeop Kang, Tae Soo Kim, Rodney Kinney, Aniket Kittur, Hyeonsu Kang, Egor Klevak, Bailey Kuehl, Michael Langan, Matt Latzke, Jaron Lochner, Kelsey MacMillan, Eric Marsh, Tyler Murray, Aakanksha Naik, Ngoc-Uyen Nguyen, Srishti Palani, Soya Park, Caroline Paulic, Napol Rachatasumrit, Smita Rao, Paul Sayre, Zejiang Shen, Pao Siangliulue, Luca Soldaini, Huy Tran, Madeleine van Zuylen, Lucy Lu Wang, Christopher Wilhelm, Caroline Wu, Jiangjiang Yang, Angele Zamarron, Marti A. Hearst, Daniel S. Weld
preprint
The Semantic Scholar Open Data Platform
Rodney Michael Kinney, Chloe Anastasiades, Russell Authur, Iz Beltagy, Jonathan Bragg, Alexandra Buraczynski, Isabel Cachola, Stefan Candra, Yoganand Chandrasekhar, Arman Cohan, Miles Crawford, Doug Downey, Jason Dunkelberger, Oren Etzioni, R. Evans, Sergey Feldman, Joseph Gorney, D. Graham, F.Q. Hu, Regan Huff, Daniel King, Sebastian Kohlmeier, Bailey Kuehl, Michael Langan, Daniel Lin, Haokun Liu, Kyle Lo, Jaron Lochner, Kelsey MacMillan, Tyler Murray, Christopher Newell, Smita Rao, Shaurya Rohatgi, P. Sayre, Zejiang Shen, Amanpreet Singh, Luca Soldaini, Shivashankar Subramanian, A. Tanaka, Alex D Wade, Linda M. Wagner, Lucy Lu Wang, Christopher Wilhelm, Caroline Wu, Jiangjiang Yang, A. Zamarron, Madeleine van Zuylen, Daniel S. Weld
preprint
Embedding Recycling for Language Models
Jon Saad-Falcon, Amanpreet Singh, Luca Soldaini, Mike D'Arcy, Arman Cohan, Doug Downey
EACL 2023 Findings

2022

Knowledge Transfer from Answer Ranking to Answer Generation
Matteo Gabburo, Rik Koncel-Kedziorski, Siddhant Garg, Luca Soldaini, Alessandro Moschitti
EMNLP 2022
Pre-training Transformer Models with Sentence-Level Objectives for Answer Sentence Selection
Luca Di Liello, Siddhant Garg, Luca Soldaini, Alessandro Moschitti
EMNLP 2022 Short Paper
Ensemble Transformer for Efficient and Accurate Ranking Tasks: An Application to Question Answering Systems
Yoshitomo Matsubara, Luca Soldaini, Eric Lind, Alessandro Moschitti
EMNLP 2022 Findings
Overview of the TREC 2022 NeuCLIR Track
Dawn Lawrie, Sean MacAvaney, James Mayfield, Paul McNamee, Douglas W. Oard, Luca Soldaini, Eugene Yang
TREC 2022
Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering Approach for Open-Domain Question Answering
Benjamin Muller, Luca Soldaini, Rik Koncel-Kedziorski, Eric Lind, Alessandro Moschitti
AACL 2022
Paragraph-based Transformer Pre-training for Multi-Sentence Inference
Luca Di Liello, Siddhant Garg, Luca Soldaini, Alessandro Moschitti
NAACL 2022 Short Paper

2021

Answer Generation for Retrieval-based Question Answering Systems
Chao-Chun Hsu, Eric Lind, Luca Soldaini, Alessandro Moschitti
ACL 2021 Findings
Modeling Context in Answer Sentence Selection Systems on a Latency Budget
Rujun Han, Luca Soldaini, Alessandro Moschitti
EACL 2021

2020

Multi-task Learning of Spoken Language Understanding by Integrating N-Best Hypotheses with Hierarchical Attention
Mingda Li, Xinyue Liu, Weitong Ruan, Luca Soldaini, Wael Hamza, Chengwei Su
COLING 2020
The Cascade Transformer: Efficient Answer Sentence Selection
Luca Soldaini, Alessandro Moschitti
ACL 2020
Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing
Subendhu Rongali, Luca Soldaini, Emilio Monti, Wael Hamza
WWW 2020 Short Paper
Teaching a New Dog Old Tricks: Resurrecting Multilingual Retrieval Using Zero-shot Learning
Sean MacAvaney, Luca Soldaini, Nazli Goharian
ECIR 2020 Short Paper

2018

Overcoming Low-Utility Facets for Complex Answer Retrieval
Sean MacAvaney, Andrew Yates, Arman Cohan, Luca Soldaini, Kai Hui, Nazli Goharian, Ophir Frieder
Information Retrieval Journal 2018
Relation Extraction for Protein-Protein Interactions Affected by Mutation
Ziling Fan, Luca Soldaini, Arman Cohan, Nazli Goharian
ACM-BCB 2018 Short Paper
SMHD: A Large-Scale Resource for Exploring Online Language Usage for Multiple Mental Health Conditions
Arman Cohan^α, Bart Desmet^α, Andrew Yates^α, Luca Soldaini, Sean MacAvaney, Nazli Goharian
COLING 2018
Helping or Hurting? Predicting Changes in Users' Risk of Self-Harm Through Online Community Interactions
Luca Soldaini, Timothy Walsh, Arman Cohan, Julien Han, Nazli Goharian
NAACL 2018 CLPsych Workshop
The Knowledge and Language Gap in Medical Information Seeking
Luca Soldaini
Georgetown University 2018 PhD Thesis
RSDD-Time: Temporal Annotation of Self-Reported Mental Health Diagnoses
Sean MacAvaney, Bart Desmet, Arman Cohan, Luca Soldaini, Andrew Yates, Ayah Zirikly, Nazli Goharian
NAACL 2018 CLPsych Workshop
Characterizing Question Facets for Complex Answer Retrieval
Sean MacAvaney, Andrew Yates, Arman Cohan, Luca Soldaini, Kai Hui, Nazli Goharian, Ophir Frieder
SIGIR 2018
Tree-LSTMs for Scientific Relation Classification
Sean MacAvaney, Luca Soldaini, Arman Cohan, Nazli Goharian
NAACL 2018 SemEval Workshop

2017

Denoising Clinical Notes for Medical Literature Retrieval with a Convolutional Neural Model
Luca Soldaini, Andrew Yates, Nazli Goharian
CIKM 2017 Short Paper
Learning to Reformulate Long Queries for Clinical Decision Support
Luca Soldaini, Andrew Yates, Nazli Goharian
JASIST 2017
Inferring Individual Attributes from Search Engine Queries and Auxiliary Information
Luca Soldaini, Elad Yom-Tov
WWW 2017
Learning to Rank for Consumer Health Search: A Semantic Approach
Luca Soldaini, Nazli Goharian
ECIR 2017 Short Paper

2016

QuickUMLS: A Fast, Unsupervised Approach for Medical Concept Extraction
Luca Soldaini, Nazli Goharian
SIGIR 2016 MedIR Workshop
Identifying Significance of Discrepancies in Radiology Reports
Arman Cohan, Luca Soldaini, Nazli Goharian
SDM 2016 DMMH Workshop
Enhancing Web Search in the Medical Domain via Query Clarification
Luca Soldaini, Andrew Yates, Elad Yom-Tov, Ophir Frieder, Nazli Goharian
Information Retrieval Journal 2016

2015

Matching Citation Text and Cited Spans in Biomedical Literature: A Search–Oriented Approach
Arman Cohan, Luca Soldaini, Nazli Goharian
NAACL 2015 Short Paper
Retrieving Medical Literature for Clinical Decision Support
Luca Soldaini, Arman Cohan, Andrew Yates, Nazli Goharian, Ophir Frieder
ECIR 2015

2014

On Clinical Decision Support
Arman Cohan, Luca Soldaini, Andrew Yates, Nazli Goharian, Ophir Frieder
ACM-BCB 2014 Short Paper