Seung-won Hwang

Seung-won Hwang
Professor,
Language and Data Intelligence Lab,
Department of Computer Science and Engineering,
Seoul National University

Email: seungwonh[AT]snu.ac.kr

Education/Experience

Ph.D. (UIUC), 2005; M.S. (UIUC), 2000; B.S. (KAIST), 1998

Professor@Yonsei (2015-2021); Tenured Associate Professor@POSTECH (2005~2015); Visiting Researcher (2024.5-2025.2, Snowflake AI); Visiting Researcher (2012.9-2013.8, Microsoft Research); Research Intern (Summer 2003/2004@Microsoft Research); Research Intern (Summer 2000/2002@Berkeley National Lab)

Research

Data(-driven) intelligence, knowledge graph
Search engines, query optimization
Language understanding

Teaching

Since 2005, I have mostly taught AI, DB, DM, DS, IR, and NLP (in alphabetical order; see eTL for course syllabi)

Advising

Advisees

19 PhD alum: Dohyeon Lee, Minsoo Kim, Jaeseong Lee, Hojae Han, Jihyuk Kim, Seungtaek Choi, Kyungjae Lee, Jinyoung Yeo, Hyunsouk Cho, Jinwoo Park, Sanghoon Lee, Taesung Lee, Jongwuk Lee, Jongwon Roh, Gaewon You, Gook-pil Roh, Mu-woong Lee, Jinhan Kim, Sunghwan Kim
26 MS alum: Soona Hong, Jaeyoung Kim, Romain Storai, Jaeseok Yoo, Myeongho Jung, Hoyung Kim, Seoho Song, Haein Park, Junsung Son, Hyountaek Yong, Youngdae Kim, Chul-kyoon Kim, Sukhyun Ahn, Myungha Jang, YoungRok Cha, Sunyou Lee, Eric Lee, Minsuk Cho, Gyeongbok Lee, Sunjae Lim, Sunghyun Park, Haeju Park, YoungSeon Na (+3 pursuing PhD w/ me)

Selected Publications(full list of 200+@DBLP)

Dual-Scale World Memory for LLM Agents towards Hard-Exploration Problems, ICLR 2026
TAGQuant: Token-Aware Clustering for Group-Wise Quantization, EACL 2026 (industry)
D3: Dynamic Docid Decoding for Multi-Intent Generative Retrieval, EACL 2026 (industry)
On Listwise Reranking for Corpus Feedback, WSDM 2026 (short)
AcuRank: Uncertainty-Aware Adaptive Computation for Listwise Reranking, NeurIPS 2025
Agent-as-Judge for Factual Summarization of Long Narratives, EMNLP 2025
From Token to Action: State Machine Reasoning to Mitigate Overthinking in Information Retrieval, Findings of EMNLP 2025
CoEx – Co-evolving World-model and Exploration, Findings of EMNLP 2025
Overcoming Source Object Grounding for Semantic Image Editing, TACL 2025
TALE: Token-Adaptive Low-Rank KVCache Approximation with Reconstruction Elimination, TACL 2025
Counterfactual-Consistency Prompting for Relative Temporal Understanding in Large Language Models, ACL 2025
RoToR: Towards More Reliable Responses for Order-Invariant Inputs, ACL 2025
STUN: Structured-Then-Unstructured Pruning for Scalable MoE Pruning, ACL 2025
ECoRAG: Evidentiality-guided Compression for Long Context RAG, Findings of ACL 2025
Tree-of-Prompts: Abstracting Control-Flow for Prompt Optimization, Findings of ACL 2025
FaVe: Factored and Verified Search Rationale for Long-form Answer, Findings of ACL 2025
Smarter, Not Harder: Training-Free Adaptive Computation for Transformers, Findings of ACL 2025
ConvCodeWorld: Benchmarking Conversational Code Generation in Reproducible Feedback Environments, ICLR 2025
HLMEA: Unsupervised Entity Alignment based on Hybrid Language Models, AAAI 2025
PERC: Plan-As-Query Example Retrieval for Underrepresented Code Generation, COLING 2025
Query-focused Referentiability Learning for Zero-shot Retrieval, NAACL 2025
PROM: Pivoted and Regulated Optimization for Multilingual Instruction Learning, NAACL 2025
tRAG: Term-level Retrieval-Augmented Generation for Zero-shot Retrieval, NAACL 2025
Towards Lifelong Dialogue Agents via Timeline-based Memory Management, NAACL 2025
CORD: Balancing COnsistency and Rank Distillation for Robust Retrieval-Augmented Generation, NAACL 2025
HARP: Hesitation-Aware Reframing in Transformer Inference Pass, NAACL 2025
Inference Scaling for Bridging Retrieval and Augmented Generation, Findings of NAACL 2025
Query Variant Detection Using Retriever as Environment, NAACL 2025 (industry)
PLEX: Adaptive Parameter-Efficient Fine-Tuning for Code LLMs using Lottery-Tickets, NAACL 2025 (industry)
Breaking ReLU Barrier: Generalized MoEfication for Dense Pretrained Models, EMNLP 2024
Interventional Speech Noise Injection for ASR Generalizable Spoken Language Understanding, EMNLP 2024
QuBE: Question-based Belief Enhancement for Agentic LLM, EMNLP 2024
Coffee-Gym: An Environment for Evaluating and Improving Natural Language Feedback on Erroneous Code, EMNLP 2024
Meta-Prompting Efficient Task-Adaptive Query Generator for Retrieval, Findings of EMNLP 2024
Intended Target Identification for Anomia Patients with Gradient-based Selective Augmentation, Findings of EMNLP 2024
ListT5: Listwise Reranking with Fusion-in-Decoder Improves Zero-shot Retrieval, ACL 2024
ArchCode: Incorporating Software Requirements in Code Generation with Large Language Models, ACL 2024
DADA: Distribution-Aware Domain Adaptation of PLMs for Information Retrieval, Findings of ACL 2024
RaDA: Retrieval-augmented Web Agent Planning with LLMs, Findings of ACL 2024
HIL: Hybrid Isotropy Learning for Zero-shot Performance in Dense retrieval, NAACL 2024
ScriptMix: Mixing Scripts for Low-resource Language Parsing, NAACL 2024
ContrastiveMix: Overcoming Code-Mixing Dilemma in Cross-Lingual Transfer for Information Retrieval, NAACL 2024 (short)
COMMIT: Code-Mixing English-Centric Large Language Model for Multilingual Instruction Tuning, Findings of NAACL 2024 (short)
Chaining Event Spans for Temporal Relation Understanding, EACL 2024
Evidentiality-Aware Retrieval for Overcoming Abstractiveness in Open-Domain Question Answering, Findings of EACL 2024
Learning to Rank Generation with Pairwise Partial Rewards, EMNLP 2023
On Sample-Efficient Code Generation, EMNLP 2023 (industry)
Relevance-assisted Generation for Robust Zero-shot Retrieval, EMNLP 2023 (industry)
Multilingual Lottery Tickets to Pretrain Language Models, Findings of EMNLP 2023
Consistency is Key: On Data-Efficient Modality Transfer in Speech Translation, Findings of EMNLP 2023 (short)
Intervention-Based Alignment of Code Search with Execution Feedback, Findings of EMNLP 2023
CR-COPEC: Causal Rationale of Corporate Performance Changes to learn from Financial Reports, Findings of EMNLP 2023
On Complementarity Objectives for Hybrid Retrieval, ACL 2023
Retrieval-augmented Video Encoding for Instructional Captioning, Findings of ACL 2023
When to Read Documents or QA History: On Unified and Selective Open-domain QA, Findings of ACL 2023
Two Examples are Better than One: Context Regularization for Gradient-based Prompt Tuning, Findings of ACL 2023
Script, Language, and Labels: Overcoming Three Discrepancies for Low-Resource Language Specialization, AAAI 2023
PLM-based World Models for Text-based Games, EMNLP 2022
Towards Compositional Generalization in Code Search, EMNLP 2022 (short)
Pseudo-Relevance for Enhancing Document Representation, EMNLP 2022
Normalizing Mutual Information for Robust Adaptive Training for Translation. EMNLP 2022 (short)
BotsTalk: Machine-Sourced Framework for Automatic Curation of Large-scale Multi-skill Dialogue Datasets, EMNLP 2022
FAD-X: Fusing Adapters for Cross-lingual Transfer to Low-Resource Languages (short), AACL 2022
Mind the Gap! Injecting Commonsense Knowledge for Abstractive Dialogue Summarization, COLING 2022
Collective Relevance Labeling for Passage Retrieval, NAACL 2022 (short)
Privacy-Preserving Text Classification on BERT Embeddings with Homomorphic Encryption, NAACL 2022 (short)
Modularized Transfer Learning with Multiple Knowledge Graphs for Zero-shot Commonsense Reasoning, NAACL 2022
ReACC: A Retrieval-Augmented Code Completion Framework, ACL 2022
Debiasing Event Understanding for Visual Commonsense Tasks, Findings of ACL 2022 (short)
Plug-and-Play Adaptation for Continuously-updated QA, Findings of ACL 2022
C2L: Causally Contrastive Learning for Robust Text Classification, AAAI 2022
Dual Task Framework for Improving Persona-grounded Dialogue Dataset, AAAI 2022
TrustAL: Trustworthy Active Learning using Knowledge Distillation, AAAI 2022
Bridging Code-Text Representation Gap using Explanation, ACML 2021
Structure-Augmented Keyphrase Generation, EMNLP 2021
Robustifying Multi-hop QA through Pseudo-Evidentiality Training, ACL 2021
Web Document Encoding for Structure-Aware Keyphrase Extraction, SIGIR 2021 (short)
SCOPA : Soft Code-Switching and Pairwise Alignment for Zero-Shot Cross-lingual Transfer, CIKM 2021 (short)
Counterfactual Generative Smoothing for Imbalanced Natural Language Classification, CIKM 2021 (short)
Label and Context Augmentation for Response Selection at DSTC8, IEEE Transactions on Audio, Speech, and Language Processing (TASLP), 2021
Query Generation for Multimodal Documents, EACL 2021
Bootstrapping Information Extraction via Conceptualization, ICDE 2021
Retriever-Augmented and Controllable Review Generation, COLING 2020
Less is More: Attention Supervision with Counterfactuals for Text Classification, EMNLP 2020
Conditional Response Augmentation for Dialogue using Knowledge Distillation, INTERSPEECH 2020
Training Data Optimization for Pairwise Learning to Rank, ICTIR 2020
Instructional Video Summarization using Attentive Knowledge Grounding, ECML 2020 (demo)
BERT Is NOT All You Need for Commonsense Inference, ICASSP 2020
Segment-then-Rank: Non-factoid Question Answering on Instructional Videos, AAAI 2020
Meta-supervision for Attention Using Counterfactual Estimation, ICDM 2019 (short), Highly Rated ICDM Issue Invitation for DSE 2020
Conversion Prediction from Clickstream: Modeling Market Prediction and Customer Predictability, IEEE TKDE 2020 (and WSDM 2017)
XINA: Explainable Instance Alignment, IEEE TKDE 2020 (and ICDE 2019)
Learning with Limited Data for Multilingual Reading Comprehension, EMNLP 2019
NL2pSQL: Generating Pseudo-SQL Queries from Under-specified Natural Language Questions, EMNLP 2019
MICRON: Multigranular Interaction for Contextualizing Representation in Non-factoid Question Answering, EMNLP 2019 (short)
Text Length Adaptation in Sentiment Classification, ACML 2019
Soft Representation Learning for Sparse Transfer, ACL 2019
Explanatory and Actionable Debugging for Machine Learning: A TableQA Demonstration, SIGIR 2019 (demo)
Categorical Metadata Representation for Customized Text Classification, TACL 2019 (ACL19 talk)
Paraphrase Diversification using Counterfactual Debiasing, AAAI 2019
AutoSense Model for Word Sense Induction, AAAI 2019
QADiver: Interactive Framework for Diagnosing QA Models, AAAI 2019 (demo)
List Intersection for Web Search: Algorithms, Cost Models, and Optimization, VLDB 2019
Adversarial TableQA: Attention Supervision for Question Answering on Tables, ACML 2018 (Best Student Paper Runner-up)
Cold-Start Aware User and Product Attention for Sentiment Classification, ACL 2018
Mining Cross-Cultural Differences and Similarities in Social Media, ACL 2018
Translations as Additional Contexts for Sentence Classification, IJCAI 2018
Entity Commonsense Representation for Neural Abstractive Summarization, NAACL 2018
Machine-translated Knowledge Transfer for Commonsense Causal Reasoning, AAAI 2018
Entity Suggestion with Conceptual Explanation, IJCAI 2017
Efficient Keyword-aware Representative Travel Route Recommendation, IEEE TKDE 2017 (and ICDM 2015)
Multimodal KB Harvesting for Emerging Spatial Entities, IEEE TKDE 2017 (and AAAI 2016c)
Gradable Adjective Embedding for Commonsense Knowledge, PAKDD 2017
KBQA: Learning Question Answering over QA Copora and Knowledge Bases, VLDB 2017
Graph-based Wrong IsA Relation Detection in a Large-scale Lexical Taxonomy, AAAI 2017
Aspect Sentiment Model for Microreviews, ICDM 2017 (short)
Probabilistic Prototype Model for Serendipitious Property Mining, COLING 2016
Prediction and Predictability for Search Query Acceleration, ACM Transactions on the Web, 2016
Processing and Optimizing Main Memory Spatial-Keyword Queries, VLDB 2016
Fine-grained Semantic Conceptualization of FrameNet, AAAI 2016a
Verb Pattern: A Probablistic Semantic Representation of Verbs, AAAI 2016b
Common Sense Causal Reasoning between Short Texts, KR 2016
Cross-lingual Type Inference, DASFAA 2016
Event Grounding from Multimodal Social Network Fusion, ICDM 2016 (short)
Browsing2purchase: Online Customer Model for Sales Forcasting in an E-commerce Site, WWW 2016 (short)
Delayed-Dynamic-Selecive (DDS) Prediction for Reducing Extreme Tail Latencies in Web Search, WSDM 2015 (Best Paper Runner-up)
An Association Network for Computing Semantic Relatedness, AAAI 2015
Predictive Parallelization: Taming Tail Latencies in Web Search, SIGIR 2014
ARIA: Asymmetry Resistant Instance Alignment, AAAI 2014
Overcoming Asymmetry in Entity Graphs, IEEE Transactions on Knowledge and Data Engineering 2014
Toward Scalable Indexing for Top-k Queries, IEEE Transactions on Knowledge and Data Engineering 2014 (and ICDE 2012)
Hybrid Entity Clustering using Crowds and Data, VLDBJ 2014 (and KDD 2009)
Map Translation using Geo-tagged Social Media, EACL 2014 (short)
Understanding Relational Temporality of Entities, ACL 2014 (short)
Towards Efficient Multidimensional Subspace Skyline Computation, VLDBJ 2013 (and VLDB 2011)
Bootstrapping Entity Translation on Weakly Comparable Corpora, ACL 2013
Enriching Entity Translation Discovery using Selective Temporality, ACL 2013 (short)
Attribute Extraction and Scoring: A Probabilistic Approach, ICDE 2013
Robust Distributed Indexing for Locality-Skewed WorkloadsCIKM 2012
Enriching Document with Examples: A Corpus Mining Approach, ACM Transactions on Information Systems, 2013 (and AAAI 2010)
Efficient Entity Translation Mining: A Parallelized Graph Alignment Approach, ACM Transactions on Information Systems, 2012 (and EMNLP 2010)
Ursa: Scalable Load and Power Management in Cloud Storage Systems, ACM Transactions on Storage, 2013 (and Middleware 2011)
Entity Translation Mining from Comparable Corpora: Combining Graph Mapping with Corpus Latent Features, IEEE Transactions on Knowledge and Data Engineering, 2013 (and CIKM 2011)
Predictive Mining of Comparable Entities from the Web, AAAI 2012
An Efficient Dual-Resolution Layer Indexing for Top-k Queries, ICDE 2012
QSkycube: Efficient Skycube Computation Using Point-Based Space Partitioning, VLDB 2011
Web Scale Taxonomy Cleansing, VLDB 2011
CosTriage: A Cost-Aware Triage Algorithm for Bug Reporting Systems, AAAI 2011
A New Approach for Processing Ranked Subsequence Matching Based on Ranked Union, SIGMOD 2011
Exact Indexing for Support Vector Machines, SIGMOD 2011
Instant Code Clone Search, ACM SIGSOFT/FSE (Foundations of Software Engineering) 2010
Supporting pattern matching queries over trajectories on road networks, IEEE Transactions on Knowledge and Data Engineering, 2011
Spatial Skyline Queries: An Efficient Geometric Algorithm SSTD 2009 (Best Paper Award)
>Query Result Clustering for Object-level Search ACM SIGKDD 2009
Optimizing Top-k Queries for Middleware Access: A Unified Cost-based ApproachACM Transactions on Database Systems, 2007 (and ICDE 2005) >
Probe Minimization by Schedule: Supporting Top-k Queries with Expensive PredicatesIEEE Transactions on Knowledge and Data Engineering, 2007 (and SIGMOD 2002)
Automatic Categorization of Query Results, ACM SIGMOD 2004

Honors and Awards

Microsoft Research Outstanding Collaborator Award
Paper awards: SSTD 2009 (best), WSDM 2015 (best runner-up), ACML 2018 (best student runner-up)
Research/teaching excellence: UIUC CS (teaching, 2003), SNU (teaching, 2023), POSTECH (teaching; 2007-2010), Yonsei (presidential distinguished research award)
KFAS doctoral study abroad fellow