เทคโนโลยี AI สร้างโปรตีนดั้งเดิมตั้งแต่เริ่มต้น

โดย: SD [IP: 184.22.2.xxx]
เมื่อ: 2023-03-22 16:25:03
การทดลองแสดงให้เห็นว่าการประมวลผลภาษาธรรมชาติแม้ว่าจะได้รับการพัฒนาเพื่ออ่านและเขียนข้อความภาษา แต่ก็สามารถเรียนรู้หลักการพื้นฐานของชีววิทยาได้อย่างน้อยบางส่วน Salesforce Research ได้พัฒนาโปรแกรม AI ที่เรียกว่า ProGen ซึ่งใช้การคาดการณ์โทเค็นถัดไปเพื่อรวบรวมลำดับกรดอะมิโนให้เป็นโปรตีนเทียม นักวิทยาศาสตร์กล่าวว่าเทคโนโลยีใหม่นี้อาจมีประสิทธิภาพมากกว่าการวิวัฒนาการโดยตรง ซึ่งเป็นเทคโนโลยีการออกแบบโปรตีนที่ได้รับรางวัลโนเบล และจะเสริมพลังให้กับสาขาวิศวกรรมโปรตีนที่มีอายุ 50 ปีด้วยการเร่งการพัฒนาโปรตีนใหม่ที่สามารถนำไปใช้ได้เกือบทุกอย่าง ตั้งแต่การบำบัดไปจนถึงการย่อยสลายพลาสติก James Fraser, PhD, ศาสตราจารย์ด้านวิศวกรรมชีวภาพและวิทยาศาสตร์การบำบัดที่ UCSF School of Pharmacy และผู้เขียนผลงานซึ่งตีพิมพ์เมื่อวันที่ 26 มกราคม กล่าวว่า "การออกแบบประดิษฐ์นั้นทำงานได้ดีกว่าการออกแบบที่ได้รับแรงบันดาลใจจากกระบวนการวิวัฒนาการมาก , ในเทคโนโลยีชีวภาพธรรมชาติ . Fraser กล่าวว่า "รูปแบบภาษาคือการเรียนรู้แง่มุมต่างๆ ของวิวัฒนาการ แต่มันแตกต่างจากกระบวนการวิวัฒนาการปกติ" "ตอนนี้เรามีความสามารถในการปรับแต่งการสร้างคุณสมบัติเหล่านี้สำหรับผลกระทบเฉพาะ ตัวอย่างเช่น เอนไซม์ที่ทนความร้อนได้อย่างไม่น่าเชื่อ หรือชอบสภาพแวดล้อมที่เป็นกรด หรือจะไม่โต้ตอบกับโปรตีนชนิดอื่น" ในการสร้างแบบจำลองนี้ นักวิทยาศาสตร์เพียงแค่ป้อนลำดับกรดอะมิโนของโปรตีนทุกชนิด 280 ล้านชนิดลงในแบบจำลองแมชชีนเลิร์นนิงและปล่อยให้มันย่อยข้อมูลเป็นเวลาสองสามสัปดาห์ จากนั้น พวกเขาปรับโมเดลอย่างละเอียดโดยจัดลำดับด้วย 56,000 ลำดับจากตระกูลไลโซไซม์ 5 ตระกูล พร้อมกับข้อมูลเชิงบริบทเกี่ยวกับโปรตีนเหล่านี้ แบบจำลองสร้างลำดับล้านลำดับอย่างรวดเร็ว และทีมวิจัยได้เลือก 100 รายการเพื่อทดสอบ โดยพิจารณาจากความคล้ายคลึงกันของลำดับโปรตีนธรรมชาติ ตลอดจนความเป็นธรรมชาติของ "ไวยากรณ์" และ "ความหมาย" ของกรดอะมิโนพื้นฐานของโปรตีน AI จากชุดแรกที่มีโปรตีน 100 ชนิดซึ่งคัดกรองในหลอดทดลองโดย เทคโนโลยี Tierra Biosciences ทีมงานได้สร้างโปรตีนเทียม 5 ชนิดเพื่อทดสอบในเซลล์และเปรียบเทียบการทำงานของโปรตีนเหล่านี้กับเอนไซม์ที่พบในไข่ขาวของไข่ไก่ ซึ่งเรียกว่าไลโซไซม์ไข่ขาวของไก่ไข่ (ฮิวล์). ไลโซไซม์ที่คล้ายกันนี้พบได้ในน้ำตา น้ำลาย และน้ำนมของมนุษย์ ซึ่งไลโซไซม์เหล่านี้ทำหน้าที่ป้องกันแบคทีเรียและเชื้อรา เอนไซม์เทียมสองตัวสามารถทำลายผนังเซลล์ของแบคทีเรียด้วยกิจกรรมที่เทียบเท่ากับ HEWL แต่ลำดับของพวกมันนั้นเหมือนกันเพียง 18% เท่านั้น ลำดับทั้งสองมีความเหมือนกันประมาณ 90% และ 70% กับโปรตีนที่รู้จัก การกลายพันธุ์เพียงครั้งเดียวในโปรตีนธรรมชาติสามารถทำให้โปรตีนหยุดทำงาน แต่ในการคัดกรองรอบอื่น ทีมงานพบว่าเอ็นไซม์ที่สร้างโดย AI แสดงกิจกรรมแม้ว่าจะมีเพียง 31.4% ของลำดับของพวกมันที่คล้ายคลึงกับโปรตีนธรรมชาติที่รู้จักก็ตาม AI ยังสามารถเรียนรู้ว่าเอนไซม์ควรมีรูปร่างอย่างไร จากการศึกษาข้อมูลลำดับดิบ เมื่อวัดด้วย X-ray crystallography โครงสร้างระดับอะตอมของโปรตีนเทียมจะดูถูกต้องตามที่ควร แม้ว่าลำดับจะไม่เหมือนที่เคยเห็นมาก่อน Salesforce Research พัฒนา ProGen ในปี 2020 โดยอิงจากการเขียนโปรแกรมภาษาธรรมชาติชนิดหนึ่งที่นักวิจัยของพวกเขาพัฒนาขึ้นเพื่อสร้างข้อความภาษาอังกฤษ พวกเขารู้จากงานก่อนหน้านี้ว่าระบบ AI สามารถสอนไวยากรณ์และความหมายของคำได้เอง รวมถึงกฎพื้นฐานอื่นๆ ที่ทำให้การเขียนมีองค์ประกอบที่ดี "เมื่อคุณฝึกโมเดลตามลำดับที่มีข้อมูลจำนวนมาก พวกมันมีประสิทธิภาพมากในการเรียนรู้โครงสร้างและกฎ" Nikhil Naik, PhD, ผู้อำนวยการฝ่ายวิจัย AI ของ Salesforce Research และผู้เขียนอาวุโสของรายงานกล่าว "พวกเขาเรียนรู้ว่าคำใดสามารถเกิดขึ้นพร้อมกันได้และยังมีองค์ประกอบอีกด้วย" ด้วยโปรตีน ตัวเลือกการออกแบบแทบไม่มีขีดจำกัด ไลโซไซม์มีขนาดเล็กเมื่อเทียบกับโปรตีน โดยมีกรดอะมิโนมากถึง 300 ชนิด แต่ด้วยกรดอะมิโนที่เป็นไปได้ 20 ชนิด จึงมีชุดค่าผสมที่เป็นไปได้จำนวนมหาศาล (20 300 ) นั่นยิ่งใหญ่กว่าการเอามนุษย์ทุกคนที่มีชีวิตอยู่ตลอดช่วงเวลา คูณด้วยจำนวนเม็ดทรายบนโลก คูณด้วยจำนวนอะตอมในจักรวาล ด้วยความเป็นไปได้ที่ไร้ขีดจำกัด เป็นเรื่องน่าทึ่งที่แบบจำลองสามารถสร้างเอนไซม์ทำงานได้อย่างง่ายดาย "ความสามารถในการสร้างโปรตีนที่ใช้งานได้ตั้งแต่เริ่มต้นเมื่อแกะกล่อง แสดงให้เห็นว่าเรากำลังเข้าสู่ยุคใหม่ของการออกแบบโปรตีน" Ali Madani, PhD, ผู้ก่อตั้ง Profluent Bio, อดีตนักวิทยาศาสตร์การวิจัยของ Salesforce Research และรายงานกล่าว ผู้เขียนคนแรก "นี่เป็นเครื่องมือใหม่ที่ใช้งานได้หลากหลายสำหรับวิศวกรโปรตีน และเรารอคอยที่จะได้เห็นการใช้งานด้านการรักษา"

ชื่อผู้ตอบ:

Visitors: 1,617,479