❌

Vista elenco

Ricevuto prima di ieri

Training large language models on narrow tasks can lead to broad misalignment Jan Betley · Niels Warncke · Anna Sztyber-Betley · Daniel Tan · Xuchan Bao · Martín Soto · Megha Srivastava · Nathan Labenz · Owain Evans 14 Gennaio 2026 ore 01:00

Training large language models on narrow tasks can lead to broad misalignment

Nature

di:Jan Betley · Niels Warncke · Anna Sztyber-Betley · Daniel Tan · Xuchan Bao · Martín Soto · Megha Srivastava · Nathan Labenz · Owain Evans

14 Gennaio 2026 ore 01:00

Nature, Published online: 14 January 2026; doi:10.1038/s41586-025-09937-5

Finetuning a large language model on a narrow task of writing insecure code causes a broad range of concerning behaviours unrelated to coding.

Training large language models on narrow tasks can lead to broad misalignment Jan Betley · Niels Warncke · Anna Sztyber-Betley · Daniel Tan · Xuchan Bao · Martín Soto · Megha Srivastava · Nathan Labenz · Owain Evans 14 Gennaio 2026 ore 01:00

Training large language models on narrow tasks can lead to broad misalignment

Nature - Issue - nature.com science feeds

di:Jan Betley · Niels Warncke · Anna Sztyber-Betley · Daniel Tan · Xuchan Bao · Martín Soto · Megha Srivastava · Nathan Labenz · Owain Evans

14 Gennaio 2026 ore 01:00

Nature, Published online: 14 January 2026; doi:10.1038/s41586-025-09937-5

Finetuning a large language model on a narrow task of writing insecure code causes a broad range of concerning behaviours unrelated to coding.