본문 바로가기

Biological-Science

[review] 2024 노벨화학상 - AI model predicting protein structures

Life could not exist without proteins. That we can now predict protein structures and design our own proteins confers the greatest beneft to humankind.

단백질 없이는 생명이 존재할 수 없습니다. 이제 우리가 단백질 구조를 예측하고 우리만의 단백질을 설계할 수 있다는 것은
인류에게 가장 큰 혜택을 줄수 있을 것입니다. 

2024 노벨 화학상 수상자

 

------------------------------------------------------------------------------------------------------------

“One of the discoveries being recognised this year concerns the construction of spectacular proteins. The other is about fulflling a 50-year old dream: predicting protein structures from their amino acid sequences. Both of these discoveries open up vast possibilities,”

"올해 인정받고 있는 발견 중 하나는 놀라운 단백질의 구조에 관한 것이고, 다른 하나는 50년 된 꿈을 실현한 것, 즉 아미노산 서열로부터 단백질 구조를 예측하는 것에 관한 것입니다. 이 두 발견은 광대한 가능성을 열어줍니다."

--------------------------------[de novo Protein Design]--------------------------------

Proteins generally consist of 20 diferent amino acids, which can be described as life’s building blocks. In 2003, David Baker succeeded in using these blocks to design a new protein that was unlike any other protein.

단백질은 일반적으로 20가지의 다양한 아미노산으로 구성되며, 이는 생명의 구성 요소라고 할 수 있습니다.

2003년, David Baker는 이러한 아미노산을 사용하여 기존 단백질과는 전혀 다른 새로운 단백질을 설계하는 데 성공했습니다.

(좌) 일반적인 20개의 단백질, (우) 완전히 새로운 단백실 창조

 

The feld in which entirely new proteins are constructed is called de novo design. The research group drew a protein with an entirely new structure, and then had Rosetta compute which type of amino acid sequence could result in the desired protein. (To do this, Rosetta searched a database of all known protein structures, and looked for short fragments of proteins that had similarities with the desired structure)

완전히 새로운 단백질을 만드는 분야를 de novo design 이라고 합니다. 연구팀은 완전히 새로운 구조를 가진 단백질을 구상한 후, Rosetta 프로그램을 사용해 원하는 단백질을 만들 수 있는 아미노산 서열을 계산했습니다.
(Rosetta는 모든 알려진 단백질 구조의 데이터베이스를 검색하고, 원하는 구조와 유사한 단백질의 짧은 조각들을 찾는다.)

 

In proteins, amino acids are linked togetherin long strings that fold up to make a three-dimensional structure, which is decisive for the protein’s function. Since the 1970s, researchers had tried to predict protein structures from amino acid sequences, but this was notoriously difcult. However, four years ago, there was a stunning breakthrough.

단백질에서 아미노산은 길게 연결된 사슬을 이루며, 이 사슬이 접혀 3차원 구조를 형성합니다. 이 구조는 단백질의 기능을 결정짓는 중요한 요소입니다. 1970년대부터 연구자들은 아미노산 서열로부터 단백질 구조를 예측하려고 시도해왔지만, 이는 매우 어려운 작업이었습니다. 그러나 4년 전, 놀라운 돌파구가 있었습니다.

단백질의 1차, 2차, 3차, 4차 구조 / Rosetta 분석 결과 예시

 

--------------------------------[AI model, AlphaFold2]--------------------------------

In 2020, Demis Hassabis and John Jumper presented an AI model called AlphaFold2. With its help, they have been able to predict the structure of virtually all the 200 million proteins that researchers have identifed. Since their breakthrough, AlphaFold2 has been used by more than two million people from 190 countries. 

2020년, Demis HassabisJohn JumperAlphaFold2라는 AI 모델을 발표했습니다. 이를 통해 연구자들이 확인한 약 2억 개의 단백질 구조를 거의 모두 예측할 수 있게 되었습니다. 이 돌파구 이후, AlphaFold2는 190개국에서 200만 명 이상의 사람들에 의해 사용되었습니다.

 

Schematic description of the two main modules of AF2. An input sequence together with data
from sequence and structure databases serve as input to the Evoformer. The Structure module produces
as output a 3D model of the protein structure corresponding to the input sequence. 

AF2(AlphaFold2)의 두 가지 주요 모듈에 대한 개략적인 설명. 입력 서열과 함께 서열 및 구조 데이터베이스의 데이터가 *Evoformer*에 입력으로 사용됩니다. **Structure module**은 입력 서열에 해당하는 단백질 구조의 3D 모델을 출력으로 생성합니다."

 

(* Evoformer : 입력된 서열의 정보와 이와 유사한 다른 단백질 서열의 패턴을 분석하여, 단백질의 구조 예측에 필요한 특징을 추출.)

(** Structure module : Evoformer에서 생성된 정보를 바탕으로 입력된 아미노산 서열에 해당하는 단백질의 3D 모델을 생성.)

AlphaFold2의 두 가지 메인 모듈(Evoformer and Structure module)

 

--------------------------------[AF2 Analysis details]--------------------------------

AlphaFold2 explores which amino acids could interact with each other in the threedimensional protein structure. If one is charged, the other has the opposite charge, so they are attracted to each other. If one is replaced by a waterrepellent (hydrophobic) amino acid, the other also becomes hydrophobic. 

AlphaFold2는 3차원 단백질 구조에서 어떤 아미노산들이 서로 상호작용할 수 있는지를 탐색합니다. 만약 한 아미노산이 전하를 가지고 있다면, 다른 아미노산은 반대 전하를 가지므로 서로 끌어당깁니다. 만약 한 아미노산이 소수성(hydrophobic) 아미노산으로 대체된다면, 다른 아미노산도 소수성이 됩니다.

 

Using an iterative process, AlphaFold2 refines the sequence analysis and distance map. The AI model uses neural networks called transformers, which have a great capacity to identify important elements to focus on. Using this analysis, AlphaFold2 produces a distance map that estimates how close amino acids are to each other in the structure.

AlphaFold2는 반복적인 과정을 통해 서열 분석과 거리 지도를 개선합니다. 이 AI 모델은 중요한 요소를 식별하는 데 뛰어난 능력을 가진 trasformer라고 불리는 신경망을 사용합니다. 이러한 AI 분석을 통해 AlphaFold2는 단백질 구조에서 아미노산들이 서로 얼마나 가까운지를 추정하는 거리 지도를 생성합니다.

 

AlphaFold2 puts together a puzzle of all the amino acids and tests pathways to produce a hypothetical protein structure. This is re-run through step 3. After three cycles, AlphaFold2 arrives at a particular structure. The AI model calculates the probability that different parts of this structure correspond to reality.

AlphaFold2는 모든 아미노산의 퍼즐을 맞추고 가상의 단백질 구조를 생성하기 위해 경로를 테스트합니다. 이 과정은 세 번의  AI 분석 사이클 후에 AlphaFold2는 특정 구조에 도달합니다. 이 AI 모델은 이 구조의 서로 다른 부분이 실제와 일치할 확률을 계산합니다.

 

 

 

https://www.nobelprize.org/prizes/chemistry/2024/press-release/

 

The Nobel Prize in Chemistry 2024

The Nobel Prize in Chemistry 2024 was divided, one half awarded to David Baker "for computational protein design", the other half jointly to Demis Hassabis and John M. Jumper "for protein structure prediction"

www.nobelprize.org