ALS Computing Group mang các mô hình học máy đến Beamtimes
Từ các loại mẫu đến các kỹ thuật được sử dụng để nghiên cứu chúng, trải nghiệm của người dùng tại các đường chùm tia trên toàn thế giới có thể khác nhau, nhưng có một điểm chung kết nối chúng: thời gian chùm tia là rất quý giá. Tại các cơ sở khác nhau, người dùng gặp phải các điều khiển đường chùm tia khác nhau và tính khả dụng khác nhau của cơ sở hạ tầng tính toán để xử lý dữ liệu của họ. Ngoài việc cần làm quen với các thiết bị và phần mềm khác nhau, họ cũng cần đảm bảo rằng họ đang thu thập dữ liệu có ý nghĩa và nhất quán bất kể họ ở đâu. Trong vài tháng qua, nhóm ALS Computing đã đi khắp thế giới để thực hiện thời gian chùm tia. Kinh nghiệm trực tiếp của họ đang cung cấp thông tin cho việc phát triển một bộ công cụ nhằm mục đích giảm rào cản tiếp cận xử lý dữ liệu nâng cao cho tất cả người dùng.
Trải nghiệm beamtime
Là một nhà khoa học về chùm tia tại ALS, Dula Parkinson đã giúp nhiều người dùng bằng phương pháp vi phẫu, một kỹ thuật có thể tạo ra mười gigabyte dữ liệu trong hai giây. Ông cho biết: “Trong nhiều trường hợp, người dùng sẽ không thực hiện loại thí nghiệm hoặc phân tích này trước đây và họ sẽ không có cơ sở hạ tầng máy tính hoặc phần mềm cần thiết để phân tích lượng lớn dữ liệu phức tạp đang được tạo ra”.
Các công cụ tính toán và mô hình học máy có thể giúp người dùng, từ việc điều chỉnh thiết lập thử nghiệm của họ theo thời gian thực đến xử lý dữ liệu sau khi thử nghiệm kết thúc. Việc loại bỏ những nút thắt này có thể làm cho thời gian chùm tia hạn chế hiệu quả hơn và giúp người dùng thu thập thông tin khoa học nhanh hơn.
Bản thân là một cựu nhà khoa học về chùm tia, Trưởng nhóm chương trình máy tính Alex Hexemer có kiến thức trực tiếp về trải nghiệm của người dùng. Ông là người đóng vai trò quan trọng trong việc thành lập một nhóm máy tính chuyên dụng tại ALS vào năm 2018, nhóm này tiếp tục phát triển cả về số lượng nhân viên và tính đa dạng về chuyên môn. Trọng tâm hiện tại của nhóm là nâng cao trải nghiệm của người dùng bằng giao diện trực quan.
Phương pháp tính toán thời gian chùm tia
Gần đây, Hexemer và hai thành viên trong nhóm của ông, Wiebke Koepp và Dylan McReynolds, đã đến Diamond Light Source, nơi họ làm việc với Nhà khoa học Beamline Sharif Ahmed để thử nghiệm một số công cụ của họ trong một thí nghiệm về beamline. McReynolds cho biết: “Luôn hữu ích khi xem các cơ sở khác từ góc nhìn của người dùng”. “Chúng tôi muốn phần mềm của mình có thể sử dụng được ở nhiều cơ sở, vì vậy việc thử nghiệm trong các môi trường khác rất có giá trị”.
Cơ sở hạ tầng tính toán là sự bổ sung thiết yếu cho thiết bị đo chùm tia. Để chuẩn hóa các thí nghiệm của họ trên các chùm tia vi mô khác nhau, nhóm đã thực hiện các phép đo trên một vật liệu tham chiếu—cát có phân bố kích thước chuẩn. Mỗi lần quét sẽ chụp một “lát cắt” từ mẫu; sau đó các lát cắt cần được tái tạo thành hình ảnh ba chiều chứa 50 đến 200 gigabyte dữ liệu.
Trong dữ liệu đó, các nhà nghiên cứu cần thu thập thông tin có ý nghĩa. “Chúng ta cần phân đoạn dữ liệu”, Hexemer giải thích. “Đây là cát. Đây là lọ đựng cát. Đây là không khí ở giữa”. Việc xác định các phân đoạn cho phép các nhà nghiên cứu dễ dàng quyết định nơi thực hiện lần quét tiếp theo—về cơ bản là nơi di chuyển chùm tia để phát hiện nhiều cát hơn và ít lọ hơn. Nhưng, loại phân tích này thường diễn ra sau một thí nghiệm. Điều đó có nghĩa là các nhà nghiên cứu có thể thực hiện nhiều lần quét hơn mức cần thiết, vì một số thông số quét mang lại các phép đo ít sâu sắc hơn.
Tại đây, nhóm máy tính thấy nhu cầu người dùng đánh giá chất lượng dữ liệu của họ gần như theo thời gian thực. Koepp cho biết “Mục tiêu là có thể thực hiện một số phân tích ngay lập tức để cung cấp thông tin cho thí nghiệm thêm tại thời điểm quét”. McReynolds nói thêm “Mục tiêu của chúng tôi là về mặt thuật toán, bạn sẽ có thể giảm đáng kể số lần quét cần thực hiện để có được cùng một lượng dữ liệu có ý nghĩa”.
Hạt giống cho ý tưởng này đã được gieo trồng; Nhà khoa học Peter Zwart của Phòng thí nghiệm Berkeley và các cộng sự của ông tại CAMERA đã phát triển các thuật toán học máy để phân đoạn. Thông qua thời gian chùm tia tại Diamond và ALS, nhóm máy tính đang mở rộng chức năng và thử nghiệm độ mạnh mẽ của các thuật toán. Koepp cho biết: “Chúng tôi đang sao chép thiết lập thử nghiệm tại các cơ sở khác nhau một cách gần nhất có thể”, “bởi vì các bước xử lý dữ liệu khác nhau, thời gian phơi sáng khác nhau, v.v., đều có khả năng ảnh hưởng đến hiệu suất của mô hình”.
Tuy nhiên, để tận dụng các thuật toán này, người dùng máy gia tốc synchrotron cần có khả năng truy cập và sử dụng cơ sở hạ tầng điện toán mạnh mẽ có thể phân tích hàng gigabyte, thậm chí là terabyte dữ liệu.
Máy tính thân thiện với người dùng (và tiện ích cho người dùng) trong tương lai
ALS có thể tạo điều kiện cho người dùng truy cập vào cơ sở hạ tầng tính toán, như cơ sở siêu máy tính NERSC. Nhưng người dùng vẫn cần một cổng thông tin vào NERSC và một giao diện đơn giản không yêu cầu nền tảng về mã hóa.
Nhóm Computing đang giải quyết nhu cầu này bằng cách phát triển giao diện web cho người dùng như một phần của dự án MLExchange . “Chúng tôi đang cố gắng cung cấp cho người dùng quyền truy cập vào phần cứng tuyệt vời trong giao diện web dễ sử dụng”, Hexemer cho biết. “Khi họ đến để sử dụng chùm tia trong thời gian ngắn như vậy, họ sẽ không phải viết mã chỉ để sử dụng cơ sở hạ tầng tính toán”, ông nói thêm.
McReynolds đã mở rộng các mục tiêu cho trải nghiệm của người dùng. Ông cho biết “Chúng tôi muốn tạo điều kiện thuận lợi cho thuật toán giao tiếp với các phần cứng đường chùm tia khác nhau”. Và vì vậy, sau khi thử nghiệm các công cụ của họ tại đường chùm tia DIAD tại Diamond Light Source với Ahmed, nhóm Computing đã quay trở lại ALS để thực hiện các lần quét tương tự trên cùng các mẫu tại Beamline 8.3.2 với Parkinson để kiểm tra tính mạnh mẽ của mô hình học máy của họ.
Các mô hình học máy có tiềm năng lớn trong việc tạo điều kiện cho việc học tập giữa các cơ sở, cho phép các thí nghiệm hiệu quả hơn. Hexemer giải thích: “Nếu ai đó quét cát và đào tạo mạng lưới, ai đó ở cơ sở khác có thể sử dụng cùng một mô hình để phân đoạn cát của họ hoặc có thể chỉ cần tinh chỉnh phân tích của họ thay vì bắt đầu từ đầu”.
Việc học tập liên cơ sở không chỉ giới hạn ở các mô hình học máy. Trên thực tế, những tiến bộ này có thể thực hiện được nhờ những người trên khắp thế giới, tất cả đều đóng góp những hiểu biết và kinh nghiệm khác nhau. Nhóm ALS Computing, bao gồm Hexemer, Koepp và McReynolds, cũng như Tanny Chavez, Tibbers Hao, Raja Vyshnavi Sriramoju và Xiaoya Chong, đã hợp tác với Zwart tại Phòng thí nghiệm Berkeley, Tim Snow và Jacob Filik tại Diamond, và các nhà khoa học về đường chùm tia tại ALS Beamlines 8.3.2 và 7.3.3, Diamond và DESY. Phần lớn công việc của họ là một phần của MLExchange, đây là sự hợp tác mà Hexemer dẫn đầu với các cơ sở người dùng tại SLAC, Oak Ridge, Argonne và Brookhaven National Laboratories. Loại hình học tập liên cơ sở này mang lại kết quả liên cơ sở. Hexemer cho biết: “Chúng tôi muốn đảm bảo rằng tất cả các đường ống mà chúng tôi xây dựng có thể dễ dàng được chuyển đến nơi khác và sử dụng tại các đường chùm tia khác”.
Giao diện web của nhóm ALS Computing sẽ cung cấp cho người dùng máy gia tốc phản hồi và khả năng phân tích theo thời gian thực tại các đường chùm tia khác nhau trên toàn thế giới. Bắt đầu như một công cụ để giải quyết các nút thắt cổ chai trong thử nghiệm, điện toán đang phát triển để trở thành một khối xây dựng thiết yếu cho chính khuôn khổ thử nghiệm. Trên thực tế, Parkinson đã có thể hình dung ra các ứng dụng trên quy mô lớn. Ông cho biết: “Họ đang thực hiện một bước tiến nghiêm túc hướng tới việc cung cấp một ‘bản sao kỹ thuật số’ của mẫu, cho phép người dùng thực sự hiểu và mô phỏng các thí nghiệm của họ”. Với dữ liệu máy gia tốc được đưa vào mô hình máy học và mô hình máy học hướng dẫn thu thập dữ liệu, tất cả đều có thể truy cập được đối với người dùng cuối, tương lai của khoa học máy gia tốc sẽ sẵn sàng trả lời những câu hỏi vượt ngoài trí tưởng tượng của chúng ta.