Méthodes d’IA et outils pour la biologie des systèmes.

En raison des changements politiques et socio-économiques et des progrès technologiques radicaux (automatisation, nanotechnologie, robotique, informatique), la dernière décennie a révolutionné la science et la technologie et a radicalement changé la façon dont nous appliquons, gérons et faisons évoluer l’information et les connaissances. Cela est particulièrement vrai pour le nouveau domaine scientifique interdisciplinaire appelé biologie des systèmes.
En étudiant la vie depuis l’échelle moléculaire jusqu’à la conscience, les populations et les écosystèmes, la biologie des systèmes couvre une gamme stupéfiante de concepts scientifiques, de méthodes et de phénomènes naturels.

Outre la science des systèmes, les mathématiques et l’informatique, les sous-disciplines clés de la biologie des systèmes comprennent la physique biologique et médicale, la chimie et la biochimie, la biologie (évolution, développement et biologie cellulaire), la physiologie, les neurosciences, la psychologie et la médecine.

Les sciences de la vie en général et la biologie des systèmes en particulier assistent actuellement à une révolution et à une prolifération des connaissances et de l’information à une échelle sans précédent.

Il existe deux raisons principales à ce développement.

Premièrement, les détails et la sophistication toujours croissants dans lesquels les systèmes naturels sont sondés, cartographiés et modélisés.
Deuxièmement, le passage d’une approche traditionnellement «réductionniste» à une approche plus holistique, intégrative et systémique pour comprendre la dynamique et les principes organisationnels des systèmes vivants.

Référence : Eva Armengol et Enric Plaza
Artificial Intelligence Research Institute (IIIA-CSIC)
Campus UAB, 08193 Bellaterra, Catalonia (Spain).
E-mail: {eva, enric}@iiia.csic.es

Introduction:

Des milliers de nouveaux produits chimiques sont introduits chaque année sur le marché pour leur utilisation dans des produits tels que médicaments, aliments, pesticides, cosmétiques, etc. Bien que ces nouveaux produits chimiques soient largement analysés avant leur commercialisation, leurs effets sur la santé humaine ne sont pas totalement évidents. connu. En 1973, la Commission européenne a lancé un programme à long terme, portant sur la conception et le développement de bases de données chimiques toxicologiques et écotoxicologiques. L’idée principale de ce programme était d’établir des listes de produits chimiques et des méthodes pour tester leurs risques sur les personnes et l’environnement. De même, en 1978, le Département américain de la santé et des services sociaux a établi le Programme national de toxicologie (NTP) dans le but de coordonner les programmes de tests toxicologiques et de développer des méthodes standard pour détecter les composés potentiellement cancérigènes.

Quand un composé chimique est suspecté d’être toxique, il est inclus dans la liste NTP
afin de réaliser des expériences standardisées pour déterminer son degré de toxicité. Fondamentalement, il existe deux types d’expériences: in vitro et in vivo. Des expériences in vitro sont réalisées sur des salmonelles et les résultats sont des résultats quantitatifs de plusieurs paramètres physico-chimiques. Des expériences in vivo sont effectuées sur des rongeurs (rats et souris), les unes à court terme (90 jours) et les autres à long terme (2 ans). Habituellement, des expériences à court terme sont effectuées pour obtenir un premier indice de la toxicité d’un composé. Il convient de souligner que la détermination de la toxicité des composés chimiques sur les rongeurs est un processus coûteux qui, de plus, offre des résultats qui ne sont pas concluants quant à la toxicité chez les humains.

L’utilisation de méthodes computationnelles appliquées au domaine de la toxicologie pourrait contribuer à réduire le coût des procédures expérimentales. En particulier, des techniques d’intelligence artificielle telles que la découverte des connaissances et l’apprentissage automatique (Machine Learning) peuvent être utilisées pour construire des modèles de toxicité des composés (voir [18] pour une étude intéressante). Ces modèles reflètent des règles sur les relations structure-activité (SAR) des composés chimiques.
De telles règles sont utilisées pour prédire la toxicité d’un composé chimique sur la base de la structure chimique du composé et d’autres propriétés physico-chimiques connues. La construction de ce modèle est appelée toxicologie prédictive.

Le « Predictive Toxicology Challenge » (PTC) a été un concours organisé en 1990 dans le but de déterminer la toxicité de 44 composés chimiques sur la base d’expériences en laboratoire et de méthodes toxicologiques prédictives. Les résultats de ce défi [4, 10] ont montré que les meilleures méthodes sont celles qui prennent en compte les résultats des tests à court terme.
Un deuxième défi, réalisé en 1994 était principalement axé sur l’utilisation des techniques de ML et les résultats peuvent être trouvés dans [30].
Le dernier défi tenu en 2001 [19] était également axé sur les techniques de ML et la plupart d’entre elles utilisaient des descripteurs SAR. Dans ce défi, la plupart des auteurs ont proposé une représentation relationnelle des composés et utilisé des techniques inductives pour résoudre la tâche.
Actuellement, il existe encore deux questions ouvertes en toxicologie prédictive:

la représentation des composés chimiques,
quelles sont les caractéristiques d’un composé chimique qui permet sa classification (manuelle ou automatique) comme potentiellement toxique.

Dans cette section, nous décrivons plusieurs approches de ces deux questions: nous proposons une représentation des composés chimiques basée sur la nomenclature chimique IUPAC (International Union of Pure and Applied Chemistry) et une technique d’apprentissage paresseux pour résoudre la tâche de classification.

Représentation des composés chimiques

L’une des questions les plus importantes pour le développement de modèles computationnels est la représentation des objets de domaine, dans notre cas, des composés chimiques. Dans le domaine de la toxicologie, il y a plusieurs caractéristiques clés de la molécule à prendre en compte pour prédire la toxicité.

Premièrement, les éléments de base de la molécule àprendre en compte sont des paramètres comme le nombre d’atomes, les liaisons entre atomes, les positions, les charges électriques, etc.
Deuxièmement, il existe des propriétés physico-chimiques de la molécule telles que les propriétés lipophiles, la densité point, point de fusion, etc.
Enfin, il existe souvent des informations préalables sur la toxicité d’une molécule, qui a été obtenue à partir d’études sur d’autres espèces utilisant différentes méthodes expérimentales.

Dans la littérature, il existe deux approches pour représenter les composés chimiques:

celles représentant un composé comme vecteur de propriétés moléculaires (représentation propositionnelle),
celles représentant explicitement la structure moléculaire d’un composé (représentation relationnelle).

Dans les sections suivantes, nous expliquons brièvement ces représentations (des détails peuvent être trouvés sur ici puis nous présenterons notre propre représentation basée sur l’ontologie chimique utilisée par les experts.

SAR et Qualitative SAR (QSAR) utilisent des ensembles d’équations qui permettent la prédiction de certaines propriétés des molécules avant l’expérimentation en laboratoire.
En chimie analytique, ces équations sont largement utilisées pour prédire les propriétés spectroscopiques, chromatographiques et d’autres propriétés des composés chimiques. Il existe un certain nombre d’outils commerciaux permettant la génération de ces descripteurs:

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

1. E. Armengol and E. Plaza. Lazy induction of descriptions for relational case-based learning. In L. De Reaedt and P. Flach, editors, ECML-2001. Freiburg. Germany., number 2167 in Lecture Notes in Artificial Intelligence, pages 13–24. Springer, 2001.
2. E. Armengol and E. Plaza. Similarity assessment for relational cbr. In David W.
Aha and Ian Watson, editors, CBR Research and Development. Proceedings of the ICCBR 2001. Vancouver, BC, Canada., number 2080 in Lecture Notes in Artificial Intelligence, pages 44–58. Springer-Verlag, 2001.
3. E. Armengol and E. Plaza. Relational case-based reasoning for carcinogenic activity prediction. Artificial Intelligence Review, 20(1–2):121–141, 2003.
4. J. Ashby and R.W. Tennant. Prediction of rodent carcinogenicity for 44 chemicals: results. Mutagenesis, 9:7–15, 1994.
5. D. Bahler, B. Stone, C. Wellington, and D.W. Bristol. Symbolic, neural, and bayesian machine learning models for predicting carcinogenicity of chemical compounds. J. of Chemical Information and Computer Sciences, 8:906–914, 2000.
6. S.C. Basak, B.D. Gute, G.D. Grunwald, D.W. Opitz, and K. Balasubramanian. Use of statistical and neural net methods in predicting toxicity of chemicals: a hierarchical qsar approach. In G.C. Gini and A.R. Katrizky, editors, Predictive Toxicology of Chemicals: Experiences and Impacts of AI Tools, pages 108–111. AAAI Press, 1999.
7. E. Benfenati, S. Pelagatti, P. Grasso, and G. Gini. Comet: the approach of a project in evaluating toxicity. In G.C. Gini and A.R. Katrizky, editors, Predictive Toxicology of Chemicals: Experiences and Impacts of AI Tools, pages 40–43. AAAI Press, 1999.
8. V. Blinova, D.A. Bobryinin, V.K. Finn, S.O. Kuznetsov, and E.S. Pankratova. Toxicology analysis by means of simple jsm method. Bioinformatics, 19(10):1201–1207, 2003.
9. J.F. Boulicaut and B. Cremilleux. δ-strong classification rules for characterizing chemical carcinogens. In Proceedings of the Predictive Toxicology Challenge Workshop, Freiburg, Germany, 2001., 2001.
10. D.W. Bristol, J.T. Wachsman, and A. Greenwell. The niehs predictive toxicology evaluation project. Environmental Health perspectives, 104:1001–1010, 1996.
11. R. Chittimoori, L. Holder, and D. Cook. Applying the subdue substructure discovery system to the chemical toxicity domain. In Proceedings of the Twelfth International Florida AI Research Society Conference, 1999, pages 90–94, 1999.
12. F. Darvas, A. Papp, A. Allerdyce, E. Benfenati, and G. Gini et al. Overview of different ai approaches combined with a deductive logic-based expert system for predicting chemical toxicity. In G.C. Gini and A.R. Katrizky, editors, Predictive Toxicology of Chemicals: Experiences and Impacts of AI Tools, pages 94–99. AAAI Press, 1999.
13. B.V. Dasarathy. Nearest neighbor (NN) norms: NN pattern classification techniques. Washington; Brussels; Tokyo; IEEE computer Society Press, 1990.
14. L. Dehaspe, H. Toivonen, and R.D. King. Finding frequent substructures in chemical compounds. In R. Agrawal, P. Stolorz, and G. Piatetsky-Shapiro, editors, 4th Int. Conf. on Knowledge Discovery and Data Mining, pages 30–36. AAAI Press., 1998.
15. M. Deshpande and G. Karypis. Automated approaches for classifying structures. In Proc. of the 2nd Workshop on Data Mining in Bioinformatics., 2002.
16. G. Gini, M. Lorenzini, E. Benfenati, R. Brambilla, and L. Malve. Mixing a symbolic
and subsymbolic expert to improve carcinogenicity prediction of aromatic compounds. In Multiple classifier systems. 2th Intern. Workshop, pages 126–135, 2001.
17. J. Gonzalez, L. Holder, and D. Cook. Graph based concept learning. In AAAI, page 1072, 2000.
18. C. Helma, E. Gottmann, and S. Kramer. Knowledge discovery and data mining in toxicology. Statistical Methods in Medical Research, 9:329–358, 2000.
19. C. Helma and S. Kramer. A survey of the predictive toxicology challenge 2000-2001. Bioinformatics, pages 1179–1200, 2003.
20. L.B. Holder, D.J. Cook, and S. Djoko. Substructure discovery in the subdue system. In Proceedings of the AAAI Workshop on Knowledge Discovery in Databases, pages 169–180, 1994.
21. M. Karelson and U. Maran. Qspr and qsar models derived with codessa multipurpose statistical analysis software. In G.C. Gini and A.R. Katrizky, editors, Predictive Toxicology of Chemicals: Experiences and Impacts of AI Tools, pages 12–23. AAAI Press, 1999.
22. A.R Katritzky, R. Petrukhin, H. Yang, and M. Karelson. CODESSA PRO. User’s manual. University of Florida, 2002.
23. G. Klopman. Artificial intelligence approach to structure-activity studies: Computer automated structure evaluation of biological activity of organic molecules. Journal of the America Chemical society, 106:7315–7321, 1984.
24. R. Lopez de Mantaras. A distance-based attribute selection measure for decision tree induction. Machine Learning, 6:81–92, 1991.
25. K.L. Mello and S.D. Brown. Combining recursive partitioning and uncertain reasoning for data exploration and characteristic prediction. In G.C. Gini and A.R. Katrizky, editors, Predictive Toxicology of Chemicals: Experiences and Impacts of AI Tools, pages 119–122. AAAI Press, 1999.
26. H. Ohwada, M. Koyama, and Y. Hoken. Ilp-based rule induction for predicting carcinogenicity. In Proceedings of the Predictive Toxicology Challenge Workshop, Freiburg, Germany, 2001., 2001.
27. D.M. Sanderson and C.G. Earnshaw. Computer prediction of possible toxic action from chemical structure: the derek system. Human and Experimental Toxicology, 10:261–273, 1991.
28. G. Sello. Similarity, diversity and the comparison of molecular structures. In G.C. Gini and A.R. Katrizky, editors, Predictive Toxicology of Chemicals: Experiences and Impacts of AI Tools, pages 36–39. AAAI Press, 1999.
29. A. Srinivasan, S. Muggleton, R.D. King, and M.J. Sternberg. Mutagenesis: Ilp experiments in a non-determinate biological domain. In Proceedings of the Fourth Inductive Logic Programming Workshop, 1994.
30. S. Srinivasan, S.H. Muggleton, R.D. King, and M.J. Stenberg. The predictive toxicology evaluation challenge. In IJCAI, Nagoya, Japan, pages 4–9. Morgan Kaufman, 1997.
31. D.J. Weininger. Smiles a chemical language and information system. J. Chem. Inf. Comput. Sci., 28(1):31–36, 1988.
32. C.A. Wellington and D.R. Bahler. Predicting rodent carcinogenicity by learning bayesian classifiers. In G.C. Gini and A.R. Katrizky, editors, Predictive Toxicology of Chemicals: Experiences and Impacts of AI Tools, pages 131–134. AAAI Press, 1999.