Пошук клітин BioTuring: новий інструмент для пошуку схожих груп населення у загальнодоступних наборах даних з однієї комірки

Модель машинного навчання для класифікації типів клітин?

При аналізі одноклітинних транскриптомних даних вчені часто виконують анотації клітинного типу, перевіряючи окремі маркерні гени. Однак маркери-гени навіть не узгоджуються серед різних джерел літератури. Шість місяців тому, озброївшись найбільшими кураторами одноклітинних транскриптомних даних, команда BioTuring з одноклітинних наївних думок думала, що ми можемо вирішити проблему анотації клітинного типу, просто побудувавши модель машинного навчання для прогнозування типу клітин. Ми також думали, що модель машинного навчання може допомогти вченим розпізнавати не тільки типи клітин, але також стан клітин, стан клітин (хвороба / контроль / тощо)

Ми розпочали цей проект, і наш початковий ажіотаж швидко перетворився на кошмари …

Які були причини?

Анотації в опублікованих дослідженнях не узгоджуються. Навіть з однією і тією ж клітиною різні дослідницькі групи можуть коментувати її різними мітками, або загальним типом клітини, або дуже конкретним підтипом – залежно від цілей дослідження чи навіть думок !!

Є багато рідкісних популяцій клітин, у яких недостатньо точок даних для навчання. Наприклад, нові 30 дендритних клітин AXL + SIGLEC6 +, ідентифіковані Вільяні та його колегами (Villani et al., 2017), буде дуже важко включити в будь-які моделі машинного навчання, побудовані з мільйонів інших поширених типів клітин.

Нам не вдалося побудувати модель машинного навчання для прогнозування типів клітин, і величезні зусилля 4-інженерної команди за 6 місяців могли бути витрачені даремно!

Відчайдушно ми думали, що, мабуть, недостатньо розумні!

Або природа проблеми, яку ми спочатку сформулювали, суттєво важка?

Як правило, коли ми відчайдушно застрягли, бувають деякі моменти, коли ми запитуємо себе: як би деякі з наших колишніх викладачів / радників вирішили проблему? Повернувся чудовий приклад: коли Майк Вотерман та Павло Певзнер зіткнулися зі складною гамільтонівською проблемою при складанні геному, вони замість цього переформулювали проблему в проблему Ейлерова шляху, яку можна ефективно вирішити (https://www.pnas.org/content/ 98/17/9748. Короткий).

Переформулювання проблеми як проблеми пошуку комірки

Беручи до уваги найбільші проіндексовані дані для однієї комірки, ми уявляємо, коли вчений вибирає групу клітин, механізм пошуку клітин може допомогти знайти всі клітини у всіх опублікованих дослідженнях, які мають «подібні» підписи виразів, разом із їх мітками типу комірок. Важливою відмінністю моделі прогнозування та проблеми пошуку є те, що перша приймає суб’єктивні людські анотації як вхідні дані до моделі, а друга – ні. Пошукова машина дозволяє перевірити людські анотації людиною! Це допомагає обійти виклики.

Отримавши результати пошукової операції, вчені можуть завантажити відповідні клітини та побачити всі інші позначення цих клітин. Сюди можуть входити вік, захворювання, пухлина / нормальні стани. Наприклад, чи було б цікавіше спостерігати, що ця група клітин мікроглії з’являється лише у пацієнтів із Паркінсоном, а не в нормі?

Важливою проблемою в цій пошуковій системі клітин є те, що вона повинна обходити технічні варіації (клітини з різними біологічними умовами, але секвенувались за подібними технологіями секвенування), щоб повернути лише ті клітини, які відповідають біологічним умовам. Ми успішно вирішили цю проблему (подробиці будуть описані в наступному рукописі).

Пошук клітин bioturing: нова пошукова система для одноклітинних даних rna-seq

Наша команда створила і запустила BioTuring Cell Search, пошукову систему, яка забезпечує швидкий і точний пошук подібних комірок у нашій базі даних з 5 клітинок, що складається з понад 125 публікацій. Після виділення групи клітин вчені отримають:

Список опублікованих досліджень із відповідними популяціями та маркуванням їх типу клітин

Оцінки подібності між профілями експресії генів відповідних популяцій та виділених клітин

Аналогічно виражені гени та процеси збагачення, розподілені між усіма відповідними популяціями

На основі результатів пошуку вчені можуть завантажувати набори даних із відповідними клітинками, вивчати їх стан, умови, композиції та інші анотації, і нарешті повернутися, щоб анотувати свої клітини на власний розсуд.

Приклад: використання пошуку клітин bioturing для перевірки результатів ідентифікації типу клітини

Набір даних 1: Одноклітинне профілювання ідентифікує підмножини мієлоїдних клітин з різними долями під час нейрозапалення (Jordao et al., 2019)

Профілюючи більше 3000 мієлоїдних клітин у центральній нервовій системі (ЦНС) на моделях розсіяного склерозу миші, дослідження надало атлас мієлоїдних клітин та їх динаміку на різних стадіях нейрозапалення. Виявлено основні типи клітин, включаючи мікроглію, лімфоцити, асоційовані з ЦНС макрофаги, дендритні клітини, гранулоцити та клітини, отримані з моноцитів.

Результати пошуку клітин BioTuring за кожним кластером даних підтверджують типи клітин, визнані дослідженням.

Вибір моноцитів та пошук клітин

Результати пошуку клітин для популяції моноцитів

Дослідження з відповідними клітинами упорядковуються за оцінками подібності.

Набір даних 2: Послідовність одноклітинної РНК печінки людини виявляє окремі популяції внутрішньопечінкових макрофагів (MacParland et al., 2018)

Опублікована у 2018 році робота Макпарленда та його колег є одним із перших атласів клітин печінки людини, що відкриває нові уявлення про клітинну неоднорідність печінки.

За допомогою пошуку клітин BioTuring ми прагнули перевірити типи клітинок у наборі даних. Більшість міток відповідають попереднім публікаціям, включаючи В-клітини, гепатоцити, ендотеліальні клітини, плазматичні клітини та клітини-природні кілери.

Вибір та проведення клітинного пошуку на популяції гепатоцитів

Інші типи клітин, такі як холангіоцити та макрофаги, відповідають різним популяціям у базі даних, але з різними мітками типу клітин. Тим часом зірчасті клітини мають певний рівень подібності з фібробластами. Населення високо експресує гени, що кодують вироблення колагену (COL1A2 та COL3A1).

Результати пошуку комірок для зірчастих клітин

Пошук клітин BioTuring тепер можна використовувати з браузером BioTuring, інтуїтивно зрозумілою платформою для вивчення транскриптомних даних з однієї комірки. Платформу можна завантажити з https://bioturing.com. Його також можна викликати через API.

=

Довідково:

Jordão, Marta Joana Costa та ін. “Одноклітинне профілювання ідентифікує підмножини мієлоїдних клітин з різними долями під час нейрозапалення.” Science 363.6425 (2019): eaat7554.

MacParland, Sonya A. та ін. “Одноклітинне секвенування РНК печінки людини виявляє різні популяції внутрішньопечінкових макрофагів”. Природні комунікації 9.1 (2018): 4383.

Певзнер, Павло А., Хайсю Танг та Майкл С. Вотерман. “Підхід Ейлерова шляху до складання фрагментів ДНК”. Праці Національної академії наук 98.17 (2001): 9748-9753.

Вільяні, Олександра-Хлоя та ін. “Одноклітинна РНК-секвенція виявляє нові типи дендритних клітин крові людини, моноцитів і родоначальників”. Science 356.6335 (2017): eaah4573.

Спочатку ця публікація була опублікована за адресою https://www.linkedin.com/pulse/bioturing-cell-search-new-tool-similar-populations-public-son-pham/.

Son Pham люб’язно дозволив нам перекласти і опублікувати цю статтю.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: