Erweiterte Substruktursuche in Moleküldatenbanken

Student:Thorsten Meinl
Title:Erweiterte Substruktursuche in Moleküldatenbanken
Type:diploma thesis
Advisors:Fischer, I.; Philippsen, M.
State:submitted on July 30, 2004
Prerequisits:

In der Medikamentenforschung werden zunehmend virtuelle Bibliotheken nach geeigneten Medikamentenkandidaten durchsucht, bevor die entsprechenden Moleküle überhaupt synthetisiert und dann getestet werden. Um bei der Suche schon frühzeitig ungünstige Moleküle ausschließen zu können, ist es wichtig, gute Vorhersagen bezüglich der zu erwartenden Wirkung und der möglichen Synthetisierbarkeit treffen zu können. Ein möglicher Ansatz für eine solche Vorhersage basiert auf der Analyse der Zusammenhangsgraphen der Moleküle. Eine solche Analyse erzeugt dabei anhand bekannter Wirkungen oder Syntheseergebnisse eine Liste von Substrukturen, d.h. Molekülfragmenten, die im Bezug zu bestimmten Wirkungsklassen oder schlechten Syntheseergebnissen stehen. Anhand dieser Fragmente können dann zum Beispiel neue, bisher nicht synthetisierte Moleküle von einer weiteren Untersuchung ausgeschlossen werden. Die bisher entwickelten Verfahren verfolgen sehr unterschiedliche Ansätze, um den sehr grossen Lösungsraum zu durchsuchen. Dabei treten unterschiedliche Probleme im Hinblick auf die mögliche Größe der analysierbaren Moleküldatenbank oder der Größe der extrahierten Fragmente auf, die sich in unakzeptablen Laufzeiten und/oder enorm hohem Speicherbedarf ausdrücken. Zusätzlich finden die vorhandenen Verfahren zumeist nur exakte Fragmente, obwohl in der Chemie oftmals bestimmte Ähnlichkeiten als wirkungs- oder syntheseirrelevant bekannt sind.

Topic:

Nach einem Vergleich von zwei bekannten Verfahren zur Substruktursuche in Moleküldatenbasen [1, 2] soll die Möglichkeit untersucht werden durch eine Kombination beider Verfahren Laufzeitund Speicherbedarfsprobleme zu reduzieren, um auch bei großen Datenbasen die Suche in vernünftiger Zeit durchführen zu können. Weiterhin soll untersucht werden, inwieweit durch Parallelisierungen der Verfahren eine weitere Beschleunigung erreicht werden kann. Um auch für den Chemiker interessantere Fragmente zu finden soll anschließend eine Erweiterung der Verfahrens in [1] entwickelt werden, die es ermöglicht fuer den Chemiker ähnliche Fragmente zu finden. Als Beispiel soll hierbei die Klasse der ähnlichen Fragmente betrachtet werden, die sich nur durch die Länge einer Kohlenstoffkette unterscheiden. Die neuentwickelten Erweiterungen und Verfahren sollen auf bekannten Datensätzen des National Cancer Insituts auf ihre Eignung für reele Anwendungen untersucht werden.
Literatur:
[1] Borgelt, C. ; Berthold, M. R.: Mining Molecular Fragments: Finding Relevant Substructures of Molecules. In: Proceedings of the IEEE International Conference on Data Mining ICDM. Piscataway, NJ, USA : IEEE Press, 2002, S. 51–58
[2] Kuramochi, M. ; Karypis, G.: Frequent Subgraph Discovery. In: Proceedings of the IEEE International Conference on Data Mining ICDM. Piscataway, NJ, USA : IEEE Press, 2001, S. 313–320

watermark seal