1. 서론
신재생 에너지 기반 사회를 위해서는 성능이 우수하고 가격 경쟁력이 높은 촉매를 필수적으로 개발해야 한다. 촉매 개발을 위해 전통적으로 시행착오 기법 (trial-and-error)을 통하여 촉매를 개발해왔고 다양한 우수 촉매를 개발한 바 있다. 하지만 활성, 선택성, 안정성, 가격 등 모든 요소를 만족하는 이상적인 촉매는 여전히 보고되지 않았기 때문에, 이 문제를 해결하기 위해 컴퓨터 시뮬레이션을 활용하는 접근법이 제시되었다[1]. 1950 년대 이후 컴퓨터 하드웨어와 소프트웨어의 눈부신 발전 덕분에 계산과학을 통한 신속한 촉매 물질 탐색이 주목받고 있다. 특히 지난 20년간 밀도범함수이론 (Density Functional Theory, DFT) 기반의 이론과학적 방법이 촉매 개발에 유용한 방법론으로 사용되어 왔다. Web of Science에서 “DFT”와 “Catalysis”라는 키워드를 동시에 검색시 출판된 논문 수는 2010년 500편 미만에서, 2021년 2,500편으로 5배 증가한 것을 알 수 있다 [Fig 1].
이 중 다수의 연구가 본 총설에서 소개할 촉매 반응인 산소 관련 전기화학 반응으로, 연료전지 양극 반응인 산소환원 반응 (Oxygen Reduction Reaction, ORR)과 수전해 음극 반응인 산소발생 반응 (Oxygen Evolution Reaction, OER)이다. 두 반응은 연료전지와 수전해의 핵심 반응으로 현재 값비싼 귀금속 촉매를 대체할 고활성의 비귀금속 기반 촉매를 필요로 한다. 이에 DFT 를 이용한 계산과학적 연구방법론은 반응중간체 흡착 에너지 간의 선형 관계, 촉매 표면의 d-band center 와 흡착에너지 간의 선형 관계를 통해 우수한 전기화학 촉매 개발에 크게 기여하였다[2]. DFT가 핵심적인 이론 및 공학 연구에 뛰어난 성과와 가능성을 보였음에도 불구하고, 계산할 원자구조가 복잡, 다양해지며 이에 소모되는 계산 시간 또한 크게 증가하는 문제가 발생한다. 따라서 이러한 한계를 보완할 효율적인 수단이 요구되고 있으며, 오늘날 축적된 양질의 DFT 데이터와 기하급수적으로 발전 중인 기계학습이 그 요구를 만족할 수 있을 것으로 기대된다[3]. [Fig 2]는 [Fig 1]의 결과에 “Machine Learning” 키워드를 추가했을 때의 검색 결과로, 비교적 최근인 2018년 이후 기계학습 관련 연구가 활발해짐을 알 수 있다. 본 총설에서는 계산화학과 기계학습을 이용한 효과적인 전기화학 촉매 개발 사례들을 살펴보며 현재 동향을 논평하고자 한다.
2. 계산화학을 이용한 촉매 개발 연구
DFT는 다체 (many-body) 시스템의 전자구조 분석을 위해 사용된다. 전자 1개의 거동을 분석하기 위해서는 슈뢰딩거 방정식의 풀이를 통해 파동함수를 구해야 한다. 따라서 N개의 전자를 갖는 임의 원자의 전자 구조를 파악하기 위해서는 총 N개의 파동함수를 모두 구해야 하지만, 다체 시스템의 파동함수를 구하기 위한 해석적인 해법은 존재하지 않다. 하지만 Walter Kohn과 Lu Jeu Sham이 개발한 DFT는 다체 시스템의 전자구조 분석에 유용한 툴로 주목 받고 있다 (Walter Kohn은 John A. Pople과 함께 1998년도 노벨화학상 수상)
DFT는 시스템 내에 존재하는 전자의 모든 파동함수를 구하는 것이 아닌, 전자의 밀도를 통해 시스템 내의 상호작용을 분석하는 방법이다. 이 방법은 시스템 내의 바닥상태 전자밀도가 하나의 범함수 (functional)에 대응된다는 발견과 함께, 이 범함수의 에너지를 최소화하는 전자밀도가 다체에서의 슈뢰딩거 방정식의 해 (파동함수)라는 원리를 이용하여 전자구조를 계산한다. 그러나 전자의 개수가 많아질수록 파동함수의 수 역시 많아지기에 전자밀도를 구하기 위한 계산이 복잡해진다. 이를 해결하기 위해 최외각 전자를 제외한 원자핵과 전자는 하나의 몸처럼 거동한다는 유사포텐셜 (pseudopotential)과 전자의 위치가 바뀌었을 때 발생하는 에너지 차이를 보정해주는 교환-상관 포텐셜 범함수 (Exchange-Correlation Potential Functional)라는 개념 도입하였고, 적절한 초기 파동함수로부터 초기 에너지를 구하고 구한 에너지를 이용해 다시 파동함수를 구하고 오차를 줄여가며 반복 계산을 하는 방식인 self-consistent 방식을 통해 바닥상태의 전자구조를 계산한다.
이러한 DFT는 다체 시스템의 파동함수를 구하는 것보다 훨씬 효율적이며 복잡한 양자역학 세계를 훨씬 쉽게 이해할 수 있다는 장점이 있다. 보편적으로 DFT는 고체의 전자구조 분석에 많이 사용되며, 최근에는 컴퓨팅 하드웨어의 폭발적인 발전으로 배터리, 촉매 등 여러 물리, 화학 분야의 연구에서 널리 사용되고 있다[4, 5].
본 절에서는 전기화학적 산소환원 반응과 산소발생 반응에 대한 계산화학적 접근법에 대해 살펴보고자 한다. 산소발생 반응은 그린 수소를 생산하는 수전해 시스템의 음극에서 일어나고 산소환원 반응은 연료전지 양극에서 일어나는 반응이다. 두 반응은 화석 연료를 대체하여 친환경적이고 지속 가능한 에너지 사회를 실현하는 데 필수적인 반응이고, 최근 화두가 되고 있는 수소경제의 핵심 요소이므로, 높은 효율과 경제성의 촉매를 개발하는 것이 필수적이다.
2.1 산소환원 반응 (Oxygen Reduction Reaction, ORR)
산소환원 반응은 연료전지 양극의 핵심 반응으로 산소 기체가 4개의 양성자-전자 쌍과 반응하여 물로 환원되면서 에너지를 발생하는 반응이다 (식1). 해당 반응은 산소 분자 1개 당 4개의 양성자-전자쌍과 반응하고 3개의 반응중간체 (O∗, OH∗, OOH∗)로 이루어져 있다 [Fig 3a], (식2). 산소가 2개의 양성자-전자쌍과 반응하고 1개의 반응중간체 (OOH∗)만을 거쳐 과산화수소를 생성하는 반응 (2e-ORR)과 구분하기 위해서 4e-ORR이라 부른다. 현재까지 다양한 연구를 통해 백금 촉매가 ORR에서 우수한 성능을 보여주었지만, 비싼 가격 때문에 백금 촉매만큼 우수한 성능을 보이면서 가격이 저렴한 대체 촉매를 찾기 위한 연구들이 진행되어 왔다. Norskov et al. (2004)[6]은 DFT 계산을 통해 ORR 촉매 활성이 반응중간체의 흡착에너지와 직접적인 관련이 있다는 것을 보여주었다. 반응중간체 흡착에너지 간의 선형관계 [Fig 3b]로 인해 촉매의 활성과 흡착에너지 (△G(OH∗))는 화산 모양의 관계를 형성 (Volcano 그래프, [Fig 4a])하는데, 이는 촉매 활성을 극대화하기 위해 흡착에너지는 너무 강하지도 약하지도 않는 최적의 강도를 갖고 있어야함을 의미한다. 이러한 관계를 이용해, 다양한 촉매 표면에서 △G(OH∗)를 계산함으로써 촉매의 활성을 쉽게 예측할 수 있어 새로운 촉매를 제안할 수 있다. 예를 들어 Stamenkovic et al. (2006)[7]은 백금 기반 합금에 대한 계산 결과, 최적의 흡착에너지를 갖는 촉매 (Pt3 Ni, Pt3 Co)를 계산화학적으로 제안하였고 실험으로 검증하였다. 이 밖에도, 코어/쉘 구조 형태의 나노 입자[8] 혹은 스피넬 산화물[9, 10] 등 다양한 형태의 ORR 촉매가 연구되고 있다[11, 12].
선형관계 기반의 Volcano Plot은 새로운 촉매를 탐색하는데 도움을 주지만 예측하는 최고 성능을 제한한다는 한계가 있다. [Fig 4b]는 다양한 촉매들의 이론적 활성을 OH∗와 OOH∗의 흡착에너지를 이용해 표기한 2차원 Volcano 그래프이다. 빨간색 부분이 이론적으로 달성할 수 있는 최고의 활성이지만 선형관계를 따르는 촉매를 탐색한다면 해당 포인트에 접근할 수 없다. 따라서 흡착에너지 간의 선형관계를 깨는 것이 혁신적인 ORR 촉매 개발의 출발점이며, 다양한 방법들이 제시되어 왔다. 예를 들어, Deng et al. (2020)[13]은 h-BN 위에 유연한 나노클러스터를 증착시켜 반응중간체마다 흡착세기가 다르게 변하는 점을 이용하였고, Fu et al. (2021)[14]은 단원자 촉매의 흡착자리 근처에 산소를 도핑시켜 특정 반응중간체에만 반발력을 가해 선형관계에서 벗어난 바 있다.
2.2 산소발생 반응 (Oxygen Evolution Reaction, OER)
OER은 그린 수소 생산을 위한 수전해의 음극 반응으로 물 분자가 산화되어 산소를 발생하는 반응이며, ORR 반응의 역반응이다 (식3). OER은 ORR과 마찬가지로 4단계로 이루어진 반응이고 3개의 반응중간체 (O∗, OH∗, 그리고 OOH∗)가 참여한다 [Fig 5a] (식4). 다양한 촉매 표면에서 OH∗와 OOH∗의 흡착에너지 차이가 일정하다고 알려져 있고 (△G(OOH∗)=△ G(OH∗)+3.2 eV), 이로 인해 도달 가능한 최소 과전압은 0.37 V로 알려져 있다 (=3.2 eV/2e −1.23 V). 이러한 결과를 바탕으로 OER 활성을 결정하는 인자로 O∗와 OH∗ 흡착에너지 차이인 △G(O∗)-△G(OH∗)가 제안되었다[15]. [Fig 5b]는 다양한 전이금속 산화물의 OER 활성을 △G(O∗)-△G(OH∗)에 대해 나타낸 Volcano 그래프이고, 주로 IrO2와 RuO2 같은 귀금속 산화물이 높은 활성을 보여준다. Volcano 그래프를 바탕으로 적절한 △G(O∗)-△G(OH∗)를 갖는 촉매를 설계하기 위해 다양한 연구가 수행되었다. Xue et al. (2019)[16]은 니켈 수산화물에 다양한 전이금속을 도핑시켜 OER 성능을 평가하였으며, Fe 도핑시 RuO2와 IrO2 보다 훨씬 낮은 과전압 (0.21 V)을 갖는 것을 보고하였다. Yang et al. (2022)은 그래핀(pyridine/amino-nitrogen decorated)에 2개의 다양한 전이금속을 도핑하였을 때의 OER 활성을 스크리닝 하였으며, Co와 Ni를 동시에 도핑하였을 때 0.31 eV의 과전압을 갖는 것을 보고하였다[17]. 이 외에도, 페로브스카이드 산화물[18], 나노입자[19, 20]와 같이 다양한 형태의 물질들이 OER 촉매로 보고된 바 있다.
2.3 효율적인 흡착에너지 예측을 위한 접근법과 그 한계
[Fig 3~5]에 나타난 것과 같이 흡착에너지는 촉매의 활성을 예측하는데 사용되는 주요 인자이며, 새로운 촉매에 대한 성능 평가를 위해 수 많은 촉매 표면에서 흡착에너지를 계산해야 한다. 하지만 다양한 조합의 물질 및 표면을 고려해야 하고, 각각의 DFT 계산에 소요되는 시간이 상당하다. 이를 해결하기 위해 흡착에너지와 상관관계를 가지면서 적은 DFT 계산으로 얻을 수 있는 특성에 대한 연구가 활발히 진행되었다.
촉매 표면의 d-band center가 대표적인 예이다. 2000년도 B. Hammer와 J.K. Norsk⊘v는 d-band 이론을 제안하여 금속 및 합금 표면에서 높은 d-band center를 갖는 경우 antibonding state에 전자가 채워질 확률이 낮고, 그 결과 흡착물과 상호작용이 강하다는 것을 보였다. d-band center와 흡착에너지의 선형 관계를 다양한 촉매에 대해 적용해 신 촉매 설계에 큰 기여를 하였다.[21] [Fig 6a] 이를 이용하여 Chen et al. (2014)은 Pt3 M (111) 합금 표면에서 다양한 흡착물의 흡착에너지 분석을 진행하였으며, d-band center와 흡착에너지 간의 선형관계를 바탕으로 신촉매 개발에 성공하였다[22]. [Fig 6b].
d-band model을 시작으로 전자구조와 흡착에너지 간의 연관성을 다양한 관점에서 살펴보는 연구가 활발하게 이어졌다. 예를 들어 Dickens et al. (2019)은 DFT 계산을 통해 산소 흡착물의 흡착세기와 평균 2p state 에너지의 관계를 발견하였고, 다양한 금속 및 금속 산화물에서 산소 흡착물 (O∗)의 2p state 에너지를 OER 활성 결정 인자로 제시하였다[23]. 또한 Wang et al. (2019)은 페로브스카이트 (ABO3)의 B 금속의 e g 오비탈의 전자 개수를 OER 활성 결정 인자로 제시하였다[24] [Fig 7a]. 표면 구조 정보와 흡착에너지의 상관관계를 발견한 결과도 보고되었다. Calle-Vallejo et al. (2018)은 Pt와 Au의 흡착에너지 분석을 통해 촉매의 격자변형 효과 (Strain Effect)를 일반화된 배위 수 (Generalized Coordination Number)를 이용해 설명하였고, 이를 ORR 활성 결정 인자로 제시하였다[25] [Fig 7b]. 이 외에도 베이더 전하 (Bader Charge), 스핀 모멘트 (Spin Moment)[26]와 같은 특성들도 촉매 활성 결정 인자로 제시되었다.
이와 같이 촉매 표면의 전자구조 정보와 구조적 특성을 이용하여 촉매 활성을 설명하기 위한 수많은 시도들이 있었으나 촉매 성능을 평가하는데 사용할 수 있는 범용적이고 높은 정확도의 활성 결정 인자는 현재까지 보고되지 않았다. 이는 촉매의 다양한 화학적, 물리적 특성과 전자 구조 정보의 상관 관계를 밝히는데 많은 시간이 소모되기 때문이다. 또한 DFT 계산은 구조가 복잡, 다양해질수록 소모되는 계산 비용이 매우 커지기 때문에, 넓은 화학공간에서 원하는 특성을 만족하는 촉매를 찾기 위해 간단한 DFT 계산으로 구할 수 있는 특성을 활용하여 활성을 예측할 필요가 있다. 이러한 한계를 극복하기 위해 최근에는 빅데이터로부터 입력값 (Input Value)과 목표값 (Target Value)의 관계를 스스로 학습하고, 주어진 입력값에 대한 목표값을 높은 정확도로 예측할 수 있는 기계학습을 활용한 연구가 활발히 진행되고 있다. 3절에서는 기계학습이 계산화학과 함께 촉매 개발 분야에서 어떻게 사용되는지 소개하고자 한다.
3. 기계학습을 이용한 촉매 개발 연구
최근 기계학습은 다양한 분야에서 활용되고 있다. 기계학습은 데이터베이스로부터 정보를 추출하여 상관 관계를 분석하기 위한 유용한 도구이며, 계산화학 분야에서는 데이터의 축적과 새로운 알고리즘의 개발로 기계학습을 활용한 연구가 점점 증가하고 있다 [Fig 2].
일반적인 분야에서 기계학습 분류와 유사하게 촉매 및 계산화학 분야에서도 각각의 목적에 맞게 지도학습과 비지도학습을 사용하고 있다. 지도학습은 촉매의 입력 특성 (Input Feature)에 대응하는 목표값을 라벨링하여 학습시키며, 주어진 입력 특성에 대한 모델의 예측값과 실제값을 비교하여 모델의 성능을 평가하고 최적화한다. 반면, 비지도 학습은 목표값이 없는 데이터에 대해 입력 특성을 바탕으로 패턴을 파악하며, 이를 통해 데이터의 유사성을 학습할 수 있다. 또한 최근에는 합성곱신경망 (Convolutional Neural Network, CNN)과 같은 딥러닝 모델을 이용해 비직관적인 입력 특성과 목표값의 상관관계를 학습할 수 있다.
계산화학을 이용한 촉매 개발 분야에서 기계학습은 학습용 데이터 구축, 적절한 입력 특성 선택, 모델 개발의 세 단계로 나눌 수 있다. 본 절에서는 최근 연구를 바탕으로 각 단계의 사례를 살펴보고자 한다.
3.1 데이터 생성
높은 정확성의 촉매 특성 예측 모델을 개발하기 위해 원자 구조와 해당 구조에 대한 DFT 계산 결과를 포함하는 데이터베이스 구축이 필수적이다. 시간과 비용이 많이 소모되는 실험을 통해서 대량의 데이터를 생성하기 어렵지만, DFT를 통해서 비교적 적은 비용으로 넓은 범위의 물질에 대한 계산 데이터를 생성할 수 있다.
무기 촉매 분야에서 대표적인 데이터베이스로는 Kirklin et al. (2015)[27]의 Open Quantum Materials Database (OQMD)가 있다. OQMD는 무기 촉매의 구조 정보만을 포함하고 있는 Inorganic Crystal Structure Database (ICSD)로부터 추출한 32,559개의 물질에 대해 DFT 계산을 수행하여 각 결정 구조의 가장 안정한 상태에서의 에너지를 계산하여 제공하고 있다. 또한 Jain et al. (2013)[28]은 2022년 4월 현재 144,595개의 무기 결정 구조와 63,876 개의 분자, 530,243 개의 Nanoporous 물질로 구성된 Materials Project (MP) 데이터베이스를 구축하였다. MP 데이터베이스는 꾸준히 업데이트되고 있으며 구조 정보와 에너지 외에도 전자띠 구조 (Electronic Band Structure)와 같은 전자구조 정보도 포함되어 있어 학습을 위한 입력 특성 정보로 유용하게 사용할 수 있다.
최근 Chanussot et al. (2021)[29]은 다양한 종류의 원소로 이루어진 표면과 N, C 그리고 O를 포함하고 있는 흡착물에 대한 120만개의 DFT 계산 데이터와 2억6000만개의 Single-point 계산 값을 포함하고 있는 Open Catalyst 2020 (OC20) 데이터베이스를 구축하였다. OC20 데이터베이스는 앞선 벌크 구조 데이터베이스와 다르게 주로 표면과 흡착에너지 정보로 이루어져 있어 활성 및 선택성과 같은 촉매 특성을 예측하기 위해 사용할 수 있다. 해당 논문에서는 빅데이터와 기계학습 기반 촉매 설계를 위해 해결해야할 세가지 문제에 대해 토의하였다. (1) 주어진 구조의 현재 상태의 에너지와 힘을 예측하는 Structure to Energy and Force (S2EF), (2) 주어진 구조로부터 해당 구조가 가질 수 있는 가장 안정한 상태의 구조를 예측하는 Initial Structure to Relaxed Structure (IS2RS), (3) 주어진 구조로부터 해당 구조가 가질 수 있는 가장 안정한 상태의 에너지를 예측하는 Initial Structure to Relaxed Energy (IS2RE)이며 OC20 데이터베이스가 제공된 후 이를 활용하여 주어진 세 과제를 해결하는 연구들이 꾸준히 보고되고 있다[30–32].
이러한 방대한 데이터베이스는 기계학습을 위한 학습데이터를 제공할 뿐만 아니라 원소치환법을 이용한 화학 공간 확장에 사용되어 또 다른 데이터베이스와 모델 개발에 큰 도움을 줄 수 있다. 예를 들어 Wang et al. (2021)[33]의 연구에서는 MP 데이터베이스로부터 9,524 개의 결정구조를 추출한 후, [Fig 8]과 같이 화학적 성질이 비슷한 원소로 치환하면서 열역학적으로 안정한 물질을 찾는 과정을 거쳐 189,981개의 결정 구조 데이터를 생성하고 18,479개의 안정한 물질을 발견하였고, 해당 원소치환법이 임의 구조를 계산하여 구조데이터를 수집하고 원하는 특성을 가지는 물질을 찾는 방법보다 더 효율적임을 확인하였다. 해당 데이터베이스는 최적화 전 구조를 제공하고 있기에 앞서 언급된 세 과제 중 IS2RS 혹은 IS2RE를 수행하기 위하여 사용될 수 있다[34].
3.2 기계학습을 위한 원자 구조의 입력 특성 변환
적절한 입력 특성의 선택은 기계학습 모델의 성능에 직접적으로 영향을 끼치며 입력 특성과 목표값 간의 물리적인 관계를 파악하는 데 도움을 준다[35]. 따라서 입력 특성을 생성할 때 추가적인 계산 비용이 적고 직관적인 표현이 가능한 입력 특성을 선택해야 한다[36]. 촉매를 표현하는 가장 단순한 입력 특성은 해당 물질을 이루는 원소의 비율을 벡터로 표현하는 것이다. 예를 들어 [Fig 9]와 같이 원소의 비율을 One-hot-encoding 기법[37]을 통해 기계학습 모델이 읽을 수 있는 형태로 변환할 수 있다. 정량적으로 표현할 수 있는 다양한 원소의 기본 특성 값 (원자 반지름, 전기 음성도 등)을 이용하는 것도 촉매를 벡터로 표현하는 효과적인 방법이다[38].예를 들어, Toyao et al. (2018)[38]은 12가지의 원소 특성 (이온화 에너지, 족, 전기 음성도, 융해열, 표면 에너지, 녹는 점, 끓는 점, 원자 반지름, 밀도, 주기, 원자 번호, 원자 질량)으로 구리 기반 합금 촉매 표면에서의 CH3, CH2, CH, C 그리고 H의 흡착 에너지를 Ordinary Linear Regression (ORE), Random Forest Regressor (RFR), Gradient Boosting Regressor (GBR) 그리고 Extra Tree Regressor (ETR) 등의 기계학습 모델을 사용하여 Root Mean Square Error (RMSE) 0.3 eV 이하의 정확도로 예측하는 모델을 개발하였다. 또한, 입력 특성의 인자로 사용한 원소 특성과 흡착에너지 간의 관계를 분석하여 [Fig 10a]와 같이 원소의 족에 따른 흡착에너지 변화의 경향을 확인하였고, ETR 예측 결과로부터 얻을 수 있는 특성 중요도 (Feature Importance) 점수로부터 족이 CH3 흡착에너지를 예측하는 데 가장 중요한 정보임을 알 수 있었다 [Fig 10b]. 추가적으로 표면에너지, 녹는점, 끓는점 등이 중요한 인자임을 확인하였다. 이처럼 입력 특성의 인자로 적절한 원소 특성을 선택하면 적은 비용으로 복잡한 촉매 특성을 예측할 수 있고 인자와 특성 간의 상관 관계도 학습할 수 있다.
전자구조적 정보 역시 입력 특성의 인자로 활용할 수 있다[39]. 전자구조적 정보는 얻기 위해 제일원리계산이 필요함에도 전기화학적 촉매 특성 예측에 큰 역할을 하기 때문에 기계학습의 입력 표현 인자로 활용할 수 있다[40]. 금속의 d-band center의 경우 다양한 반응에 대한 활성 결정 인자가[41–43] 되며 d-band center를 보완한 e g 오비탈의 filling[44, 45]과 d-band upper edge[46] 역시 전자 구조 특성 결정 인자로 활용할 수 있다. Noh et al. (2018)[47]은 d-band 모멘트 특성을 얻기 위한 계산에 드는 비용을 절감하기 위하여 제일원리계산이 필요하지 않은 Linear Muffin-Tin Orbital Theory (LMTO)에 기반한 d-band 넓이와 평균 전기음성도를 descriptor 를 사용하여 CO∗ 흡착에너지를 RMSE 0.05 eV의 정확도로 예측하였다. 최근에는 DOS를 간접적으로 나타내는 모멘트 특성 대신 DOS 전체를 인자로 사용하여 활성을 예측하는 연구 결과가 보고되었다. Victor et al. (2021)[48]은 촉매 표면 흡착 자리 원자로부터 계산한 일정 에너지 범위의 DOS를 직접적으로 합성곱 인공신경망의 입력 표현값으로 사용하여 다양한 흡착물의 흡착에너지를 예측하는 DOSnet 모델을 개발하였다 [Fig 11]. 그 결과 평균적으로 Mean Absolute Error (MAE) 0.138 eV의 정확도를 보였고 이는 정량적인 d-band 모멘트 특성을 descriptor로 사용하는 모델과 비교하여 높은 정확도였다. 이에 더해 흡착물의 DOS를 포함한 전이 학습 (transfer learning)을 통해 MAE를 0.116 eV까지 낮출 수 있으며 최적화되지 않은 표면의 DOS를 입력값으로 사용하더라도 MAE 0.128 eV의 충분히 높은 정확도를 보여 DOSnet은 제일원리계산 없이도 사용 가능하다는 것을 보였다. 이 외에도 Esterhuizen et al. (2021)[49]은 Principal Component Analysis (PCA)를 사용하여 DOS를 차원 축소시킨 비지도 학습을 통해 합금 촉매의 흡착에너지를 예측한 결과, 모멘트 특성을 사용한 모델보다 높은 정확도를 달성하였다.
촉매의 구조적인 정보를 반영하는 인자도 흡착 특성 예측에 유용하게 사용할 수 있다. 구조 정보는 원자간 거리, 각도와 Space Group, Wyckoff Position등이 있으며, 촉매 표면에서 반응중간체가 흡착하는 활성 자리의 배위수 (coordination number (CN))[50–52]도 활용할 수 있다. 이러한 구조 정보는 원소 정보, 전자 구조 특성과 동시에 사용할 수 있다. 예를 들어 Batchelor et al. (2019)[53]은 High Entropy Alloy (HEA) 촉매 표면의 활성자리와 활성자리 원소의 최근린 원자, 아래층의 최근린 원자를 구분하여 학습시켜 O∗와 OH∗의 흡착에너지를 Root Mean Square Deviation (RMSD) 0.06~0.07 eV의 정확도로 예측하였다. Tran과 Ulissi의 연구에서는 Voronoi tessellation 기법으로 결정된 흡착물의 배위수와 원자 번호, Pauling 전기음성도를 입력 표현 인자로 사용하여 합금 촉매의 CO∗, H∗ 흡착에너지를 예측하였고, 이산화탄소 환원 반응과 수소 발생 반응에 유망한 합금 촉매 표면을 각각 131개, 258개를 발견하여 보고되지 않은 신규 촉매를 제시한 바 있다.
최근에는 구조 정보를 여러 개의 정량적인 인자로 나타내는 모델 뿐만 아니라, 원자의 좌표 정보를 이용하여 표면 혹은 결정 구조를 그래프로 나타내는 연구가 각광을 받고있다. Xie와 Grossman (2018)[54]은 결정 그래프를 입력 표현법으로 사용하고 합성곱 인공신경망 (CNN)을 적용하여 CGCNN 모델을 개발하였고, Back et al. (2019)[55]은 Voronoi tessellation을 이용해 흡착물의 최근린 표면 원자를 탐색하고 이를 이용한 새로운 활성자리 표현법을 개발하였다 [Fig 12]. 이 모델은 CO∗와 H∗ 흡착에너지를 MAE 0.15 eV의 정확도로 매우 정확하게 예측하였고, 활성자리의 첫번째, 두번째 최근린 원자가 흡착에너지 결정에 큰 영향을 주는 것을 확인하였다.
이 외에도 촉매 구조를 그래프로 변환하여 입력 표현법으로 사용하는 모델은 원자간 결합 형태, 평균 원자 결합 수와 같은 결합 및 국소 정보를 포함하여 결정 구조 특성을 예측하는 MEGNet (2019)[56], 활성자리 정보를 그래프에 라벨링하는 LS-CGCNN (2020)[57], 벌크와 표면 구조를 따로 그래프로 변환하여 합치는 SGCNN (2019) 등 다양한 방식으로 개발되어 그래프 표현법이 활성, 안정성 등 촉매 특성을 예측하기에 좋은 입력 표현법이라는 것을 보여주었다 [Fig 13]. 또한 원자간 거리를 이용하여 제작한 결정 그래프를 사용하기 위해 DFT 구조 최적화가 동반되어야 한다는 한계를 극복하기 위해 원자의 방향 정보[31]나 Wyckoff Position[34] 등을 이용하여 결정 그래프를 제작하고 안정성 등의 특성을 예측하는 연구도 진행되고 있다. 특히 원자의 Wyckoff Position을 입력 표현값으로 이용하여 최적화되지 않은 구조의 형성에너지를 예측하는 모델이 보고된 바 있다.
원자 구조의 입력 표현법 뿐만 아니라 기계학습 알고리즘의 선택 역시 중요하다. 적절한 알고리즘을 선택하면 단순히 예측 정확도를 높여줄 뿐만 아니라 기계학습의 과정과 결과를 해석하여 촉매 반응에 대한 통찰을 얻을 수 있도록 한다. 예를 들어 Andersen et al. (2019)[58]은 Sure Independence Screening and Sparsifying Operator (SISSO) 알고리즘[59]을 이용하여 합금 표면의 흡착에너지를 RMSE 0.2 eV의 정확도로 예측하였다. SISSO 알고리즘은 [Fig 14]와 같이 학습 데이터로부터 입력값과 목표값의 관계를 비선형식으로 나타낼 수 있다. 해당 연구에서는 입력값으로 총 18개의 원소, 벌크, 표면과 전자 구조 특성을 사용하였으며 SISSO를 통해 각각의 합금마다 흡착에너지를 예측하였다. SISSO 알고리즘은 예측 결과 도출 과정을 사람이 이해하기 힘든 타 알고리즘이나 인공 신경망과 달리 선형 회귀와 같이 각 입력 특성이 예측에 어느 정도 기여하였는지 제시할 수 있으며 높은 정확도를 가진다는 장점이 있다. 해당 연구에서는 이를 통해 각 흡착에너지 예측에 적합한 특성들을 구분할 수 있었다.
이론으로부터 도출한 관계식을 기계학습과 결합하여 사용하는 모델도 보고된 바 있다. Wang et al. (2021)[60]은 오비탈 혼성화 (Orbital Hybridization)와 파울리 반발 (Pauli Repulsion)을 이용해 흡착에너지 표현법을 구성하고, 변수 값을 예측하는 표면 그래프 기반 인공 신경망 모델과 결합하여 Theory-infused Neural Network (TinNet) 을 개발하였다 [Fig 15]. 해당 모델은 CGCNN과 DOSnet 그리고 구조적 특성과 전자 구조 특성을 이용하는 기타 인공 신경망 모델보다 훨씬 향상된 MAE 0.118 eV의 정확도로 전이금속 표면에서 OH 흡착에너지를 예측하였다. 이에 더해 금속의 오비탈에 따른 예측된 이론 관계식의 변수 값과 혼성화 에너지간의 선형 관계식을 제공하여 목표값만 예측하는 기타 알고리즘과 달리 활성에 대한 물리적인 해석을 제공할 수 있었다.
4. 기계학습 방법론의 한계
계산화학 분야에서 기계학습은 촉매 성능 예측과 새로운 촉매 설계에 있어 훌륭한 성과를 보여주었고, 앞으로 다양한 분야에서 활용할 수 있을 것으로 기대하고 있다. 하지만 기계학습이 활발히 응용되기 위해서는 아래와 같은 한계점을 극복해야 한다.
4.1 데이터 부족
기계학습을 이용해 물질의 특성을 정확하게 예측하기 위해서는 대량의 데이터를 학습에 이용해야 한다. 하지만 현재까지 기계학습을 적용할 만큼 충분한 데이터가 존재하는 분야는 한정적이다. 특히 표면의 흡착에너지가 활성을 결정하는데 중요한 역할을 하는 촉매 분야의 경우, 물질의 조성, 다양한 Miller Index의 표면, 흡착 자리, 흡착물의 조합 등 굉장히 많은 경우의 수가 생기는데, 이를 학습하기에 적절한 데이터베이스가 한정적이다. 제한적인 데이터들을 통해 기계학습을 진행할 경우 해당 데이터와 유사한 경우만 예측이 잘 되어 예상 밖의 결과를 기대하기 어렵다. 따라서 기계학습을 새로운 연구 분야에 적용하는데 있어서 충분한 양의 데이터 확보는 필수적이므로, 빠른 시간 내에 많은 양의 데이터를 확보하는 방법을 개발하거나 기존의 모델들보다 훨씬 적은 양의 데이터를 사용해서 유사한 정확도를 달성하는 정교한 모델 개발이 중요하다.
4.2 모델 해석의 어려움
기계학습에서 원자 구조에 대한 적절한 입력 표현 인자를 선택하는 것은 모델의 성능에 큰 영향을 끼친다. 하지만 현재까지 개발된 대부분의 기계학습 모델이 Black Box 이기 때문에, 이러한 입력 표현 인자들이 어떻게 목표값 예측에 영향을 미치는지 이해하기 어렵다. 예를 들어 인공신경망의 경우, 입력 표현 인자와 목표값 사이에 수 많은 노드들이 존재하고 이들은 매우 복잡하게 연결되어 있기 때문에 유의미한 물리적 관계를 도출해내는 것은 불가능하다. 최근에는 이러한 문제를 극복하고자 입력 표현 인자와 목표값 사이의 직간접적인 관계를 확인할 수 있는 소위 Grey Box 또는 Glass Box 모델들이 개발되고 있지만, 입력 표현 인자와 목표값 사이의 상관관계 분석에 그치고 있다. 추후 설명가능한 기계학습 모델의 개발이 신촉매 개발에 매우 중요한 역할을 할 것으로 기대한다.
5. 결론
컴퓨터 기술과 알고리즘의 발전은 시뮬레이션을 이용해 새로운 촉매를 개발하는 연구 분야에 큰 영향을 끼치고 있다. 수 많은 시행착오를 동반하는 기존의 실험 중심 연구에서 벗어나, 더 넓은 화학공간에 존재하는 촉매들을 가상으로 신속하게 탐색할 수 있게 되었다. 특히, DFT 기반의 계산화학 연구는 지난 20년간 실제 촉매 개발에 활용되어 다양한 우수 촉매 개발에 기여하였다. 하지만 다루고자 하는 물질의 수가 많아지면서 DFT 계산 시간이 촉매 설계에 장애물이 되어, 기계학습을 이용해 필요한 DFT 계산 수를 줄이고자 하는 접근법이 관심을 받고 있다. 기계학습을 통한 촉매 연구는 분야에 따른 데이터 양의 편차 및 부족, 모델 해석의 어려움 등 해결해야 할 숙제가 있지만, 최근에는 이를 극복하기 위해 강화학습, 능동학습, 설명가능한 모델 등에 대한 연구가 활발히 진행되고 있다. 촉매 개발에 있어 계산화학과 기계학습의 활용이 빠르게 늘어나는 만큼, 추후 분야를 선도할 방법론으로 자리매김할 것으로 기대한다.