Si bien he realizado muchos pequeños proyectos para Uber (compañía), algunos de los cuales publico en su Blog de Uber (#uberdata), a los fines de esta pregunta, creo que mi proyecto brainSCANr probablemente se adapte mejor. Tenga en cuenta que Uber, brainSCANr y mi investigación experimental real de neurociencia realmente se informan entre sí de maneras increíblemente maravillosas.
![](https://qph.ec.quoracdn.net/main-qimg-580a73222224ad4aa3706fa7fd8d98c2-c)
- Sitio web de brainSCANr
- Construcción automatizada de cognomas y generación de hipótesis semiautomatizada.
El problema
Las primeras líneas del artículo:
El método científico comienza con una hipótesis sobre nuestra realidad que se puede probar a través de la observación experimental. La formación de hipótesis es iterativa, construyendo conocimiento científico previo. Antes de poder formular una hipótesis, uno debe tener un conocimiento profundo de la investigación previa para garantizar que el camino de la investigación se base en una base estable de hechos establecidos. Pero, ¿cómo puede un investigador realizar una revisión exhaustiva e imparcial de la literatura cuando se publican anualmente más de un millón de artículos científicos? La tasa de descubrimiento científico ha superado nuestra capacidad de integrar el conocimiento de una manera imparcial y basada en principios. Una solución puede ser a través de la agregación de información automatizada. En este manuscrito mostramos que, al calcular asociaciones entre conceptos en la literatura revisada por pares, podemos sintetizar algorítmicamente información científica y usar ese conocimiento para ayudar a formular hipótesis plausibles de bajo nivel.
Etapa de inicio
En mayo de 2010 fui invitado a hablar en la Conferencia de la Asociación de Estudiantes de Ciencias Cognitivas de Berkeley (CSSA). En esa conferencia me senté en un panel de preguntas y respuestas con un grupo infernal de científicos, incluido mi amigo y colega George Lakoff y el (entonces) presidente del departamento de psicología de Stanford, James McClelland, que ayudó a ser pionero en el procesamiento distribuido paralelo.
En ese panel, obtuve muchas preguntas, una de las cuales era una pregunta de alto nivel sobre el desafío de integrar la gran cantidad de datos ocultos en la literatura neurocientífica. Era una variante en la línea clásica de que la neurociencia es “rica en datos pero pobre en teoría”. Este es un problema con el que he estado luchando durante mucho tiempo y tuve algunas ideas.
En mi respuesta, dije que uno de nuestros problemas como campo era que teníamos tantas personas diferentes con diferentes antecedentes que hablaban diferentes jergas que no se comunicaban de manera efectiva. Seguí con un comentario indirecto de que “The Literature” era realmente bastante inteligente cuando se tomaba como un sistema, pero que nosotros, los cerebros débiles individuales, no éramos lo suficientemente brillantes como para integrarlo todo.
Continué afirmando que, si hubiera alguna forma de integrar automáticamente la información de la literatura de revisión por pares, probablemente podríamos obtener muchas nuevas ideas. James McClelland realmente parecía estar en desacuerdo conmigo, pero la idea siguió dando vueltas en mi cerebro por un tiempo.
Creación
Una noche, varios meses después (mientras veía Battlestar Galactica (serie 2003–2009) con mi esposa Jessica Bolger Voytek), me volví hacia ella y le expliqué mi idea. Me preguntó cómo planeaba codificarlo y, después de explicarlo, me desafió diciendo que definitivamente podía codificar eso más rápido que yo.
Avance rápido un par de horas hasta alrededor de las 2 am y ella tuvo sus resultados. No lo hice.
Bah.
La idea que discutí con ella era muy simple (y probablemente simplista) y se basaba en la suposición de que cuanto más frecuentemente aparecen dos términos neurocientíficos en el título o en los resúmenes de artículos revisados por pares, es más probable que esos términos estén asociados con unos y otros.
Por ejemplo, si “aprendizaje” y todos sus sinónimos aparecen en 100 documentos con “memoria” y todos sus sinónimos, mientras que ambos términos aparecen en un total de 1000 documentos sin el otro, entonces la probabilidad de que esos dos términos estén asociados es 100/1000, o 0.1.
Calculamos tales probabilidades para cada par de términos usando un diccionario que seleccionamos manualmente . Contenía 124 regiones cerebrales, 291 funciones cognitivas y 47 enfermedades. Los nombres de las regiones del cerebro y los sinónimos asociados se seleccionaron de la base de datos NeuroNames, las funciones cognitivas se obtuvieron del Atlas cognitivo de Russ Poldrack y los nombres de las enfermedades son de los NIH. La población inicial del diccionario estaba destinada a representar los términos de búsqueda más amplios y plausiblemente comunes que también eran relativamente únicos (y, por lo tanto, probablemente no condujeran a conexiones espurias). Tenga en cuenta que este proceso requiere algún conocimiento experto, pero también podría automatizarse con relativa facilidad ordenando n -gramas (por frecuencia) de todos esos documentos e incluyendo cualquiera que aparezca más de x veces, por ejemplo.
Herramientas utilizadas
Contamos el número de artículos publicados que contienen pares de términos usando la utilidad ESearch de la Biblioteca Nacional de Medicina (su API) y el tipo de retorno de conteo . Aquí está el ejemplo de “corteza prefrontal” y “cuerpo estriado”:
- Conjunción : Página sobre Nih
- Disyunciones : Página sobre Nih y Página sobre Nih
Este proceso se repitió para cada par de términos utilizando una secuencia de comandos rápida de Python para llenar una matriz con los pesos de asociación resultantes.
Así es como se ve el método:
Observamos en nuestro manuscrito que este método está plagado de advertencias, pero esto no pretende ser un punto final, sino más bien un comienzo de prueba de concepto.
Al final obtenemos una matriz completa de 175528 pares de términos. Una vez que obtuvimos esta base de datos, (está bien, mi esposa) pirateamos el sitio web brainSCANr para permitir que las personas jueguen con los términos y sus relaciones. Queríamos crear una herramienta para que los investigadores y el público lo usaran para ayudar a simplificar las complejidades de la neurociencia.
Ingresa un término de búsqueda, muestra las relaciones y le brinda enlaces a los documentos relevantes revisados por pares. Como ejemplo, aquí está el Alzheimer:
![](https://qph.ec.quoracdn.net/main-qimg-ffe131f07e7051ea367afd94166719b5-c)
El sitio web fue creado usando Google App Engine. El trazado de la conectividad gráfica se realizó utilizando el Kit de herramientas JavaScript InfoVis.
Mi esposa y yo lanzamos la primera versión juntos (con la ayuda de mi amigo de Uber (compañía) Curtis Chambers) durante aproximadamente una semana. Realmente hicimos esto durante nuestras vacaciones de Año Nuevo, donde lo usamos como una forma de ocultar a nuestros amigos el hecho de que mi esposa estaba embarazada de nuestro primer hijo (nos habíamos enterado el día antes de que se suponía que nos íbamos).
Los análisis de datos se realizaron finalmente en MATLAB y Python (lenguaje de programación). La agrupación de pesos se realizó utilizando la agrupación k-means y la agrupación jerárquica.
Resultados
Me gusta bromear que esto nos llevó una semana y alrededor de $ 11.75 en comparación con el Proyecto de Conectoma Humano de 3 años de $ 8.5M.
Primero queríamos ver si los grupos resultantes tenían algún sentido. Enseñé neuroanatomía en Berkeley durante 3 semestres, así que tendrás que confiar en mí de alguna manera cuando digo que las relaciones entre regiones cerebrales que extraemos algorítmicamente puramente de relaciones textuales en la literatura de revisión por pares se correlacionan muy estrechamente con las conexiones conocidas entre estos cerebros. regiones.
Honestamente, estaba tan ridículamente emocionado cuando vi los resultados por primera vez. Cuando realizamos una agrupación simple en estos términos, fue sorprendente lo que estaba asociado. Ninguno de los resultados fue terriblemente sorprendente, pero es realmente genial que cosas como el sistema visual simplemente caigan en la literatura: LGN, V1, pulvinar, colículo superior y extraestriado visual, por ejemplo, todos se colocan en un grupo juntos.
Pero aún así, ¿y qué?
Pasé mucho tiempo luchando para encontrar algo que pudiéramos hacer con estos datos. Al final me decidí por un algoritmo para tratar de encontrar relaciones perdidas. Imagina que tienes dos amigos muy cercanos. Lo más probable es, estadísticamente hablando, que esas dos personas se conozcan. De hecho, sería sorprendente si no lo hicieran. Además, si terminaran reuniéndose, probablemente se llevarían bastante bien porque son muy buenos amigos con cada uno de ellos.
Esa es la analogía del algoritmo que uso para descubrir posibles relaciones entre ideas que deberían existir en la neurociencia, pero que no existen.
Un amigo de un amigo debe ser un amigo. Básicamente, el algoritmo de recomendación de Facebook (producto) o LinkedIn (producto), súper simplificado.
Aquí está esa analogía, visualizada:
![](https://qph.ec.quoracdn.net/main-qimg-9ed5e5be756707ad244503707eb75424-c)
Yo llamo a esto “generación de hipótesis semiautomatizada”. En este ejemplo, puede ver en el panel D que el término “serotonina” aparece en 4782 artículos con la región del cerebro “estriado”. La serotonina también aparece en 2943 artículos con “migraña”. Resulta que sabemos mucho sobre la neuroquímica, la fisiología y la distribución de la serotonina en el cerebro.
Eso está del lado de la neurociencia.
Aparentemente, y no sabía esto antes de ejecutar este algoritmo, existe una literatura médica muy rica sobre la hipótesis de la serotonina para las migrañas. Teniendo en cuenta estos dos datos, es estadísticamente sorprendente que solo haya 16 publicaciones que analicen el cuerpo estriado, una región del cerebro que expresa fuertemente la serotonina, y las migrañas, que están fuertemente asociadas con la serotonina.
Tal vez nos estamos perdiendo una conexión aquí. Tal vez los médicos que estudian migrañas no están hablando con los neurocientíficos. Esta no es necesariamente una asociación correcta, solo una que valga la pena explorar. Y ahora tenemos una forma algorítmica de hacer algo que muchos investigadores hacen de todos modos.
Por ejemplo, cuando tengo lo que creo que es una idea nueva, lo primero que hago es recurrir a PubMed y comenzar a buscar para ver si realmente es novedoso.
Pero, ¿qué pasaría si ocasionalmente pudiera omitir ese paso donde necesito tener la idea en primer lugar?
No estoy diciendo que la creatividad y la generación de ideas orgánicas no tengan un lugar, sino que ahora podemos aumentar ese proceso. Dimos algunos pasos para intentar verificar la validez de los datos. Por ejemplo, observamos cómo las asociaciones entre los términos de neurotransmisores y las regiones cerebrales en nuestra base de datos se relacionaban con los valores reales de expresión génica para los genes asociados con esos neurotransmisores. Para hacer esto, integramos nuestros resultados con Allen Brain Atlas (¡quien gentilmente hace que sus datos estén disponibles gratuitamente en línea!)
![](https://qph.ec.quoracdn.net/main-qimg-8afd7d2c8f157bba0794247fb705e1d5-c)
También utilizamos el ABA para encontrar regiones cerebrales que expresan fuertemente un gen relacionado con neurotransmisores, pero que están estadísticamente poco estudiadas. Esta es otra forma de encontrar lagunas en la literatura. En el ejemplo anterior, puede ver en el panel C que hay una gran cantidad de documentos que analizan la serotonina y el núcleo accumbens (nAcc), pero la región que expresa más fuertemente los genes relacionados con la serotonina, la zona incerta, es lamentablemente poco estudiado (probablemente porque es una región tan difícil de examinar).
También observamos que nuestras presuntas relaciones se correlacionan significativamente con los valores reales de expresión génica. Aunque la asociación era débil, respalda nuestro argumento de que las relaciones textuales reflejan el conocimiento del mundo real al menos hasta cierto punto.
![](https://qph.ec.quoracdn.net/main-qimg-36ebf03994eb4783b0b46320a9c711ed-c)
Direcciones futuras
Este proyecto se suspendió durante dos años mientras mi esposa y yo nos adaptamos a la paternidad y me concentré en mi trabajo con Uber (compañía) y terminé mi investigación postdoctoral. Pero ahora que pronto comenzaré mi propio laboratorio en la Universidad de California, San Diego, mi esposa y yo esperamos otorgar una subvención para intentar llevar estas cosas al siguiente nivel.
Terminaré con el párrafo final del documento en sí:
Podemos aprovechar el poder de millones de publicaciones para impulsar las relaciones informativas y descubrir el “metaconocimiento” científico … Al extraer estas relaciones, mostramos que es posible agregar una capa de automatización inteligente al método científico como se ha demostrado para el modelado de datos etapa (Schmidt y Lipson, 2009). Al implementar un algoritmo de búsqueda de conexiones, creemos que podemos acelerar el proceso de descubrir nuevas relaciones. Entonces, si bien el futuro de la investigación científica no depende de estas herramientas, creemos que serán de gran ayuda. Este es un pequeño paso hacia un futuro de investigación científica algorítmica semiautomática.
Ver también:
- ¿Qué descubrimientos o ideas han surgido de brainSCANr?
- En qué se parecen brainSCANr y Allen Brain Atlas; ¿en qué se diferencian?
- ¿Qué tecnologías de análisis y visualización de datos subyacen a brainSCANr?