Hierfür gibt es zwei Möglichkeiten:
Beide Methoden haben ihre Tücken: Wer die Wörter im Quellcode zählen will, muß beachten, daß keine Kommandostrukturen (z.B. Präambel, Formatangaben, Makros) oder auskommentierten Absätze mitgezählt werden. Fertig kompilierte Dokumente enthalten dagegen ggf. sich wiederholende Kopfzeilen mit der Kapitelüberschrift oder Seitenzahlen, die ja für eine plausible Wortanzahl eigentlich auch nicht mitgezählt werden sollten. Manchmal werden auch am Zeilenende umgebrochene Wörter als zwei Wörter gezählt oder gar nicht, wenn sie eine komplexe Ligatur-Glyphe enthalten. All das verfälscht die korrekte Anzahl der Wörter.
Am sinnvollsten ist es, den reinen Quelltext zu zählen. Man muß nur ein Programm benutzen, das die Kommandostrukturen und Kommentare nicht mit in die Zählung einbezieht.
Das geht über verschiedene Wege, ich stelle hier einige vor.
Manchmal ist es erforderlich, in einem PDF die Wörter zu zählen, z.B., wenn man nicht über den Quellcode verfügt.
Die zurückgegebene Wortanzahl liegt aber meist nicht sehr nah an der Wirklichkeit, weil Seitenzahlen, umgebrochene Wörter und andere Dinge mitgezählt werden.
Je nach Methode weicht die am Ende ausgerechnete Wortanzahl erheblich voneinander ab (siehe Grafik). Für diesen Vergleich wurden außerdem zwei weitere Methoden aufgenommen:
Links eine Auswertung zur Wortzählung nach verschiedenen Methoden. Als Text habe ich eine meiner Novellen verwendet. Die Methode »LibreOffice Writer« ist die Zählmethode des Textes nach LO Writer-interner Zählstatistik (keine Präambel oder Befehle, aber Kommentare). Die 2. Zählmethode »Kile« ist mit dem Kile-internen Wortzählalgorithmus des ursprünglichen Quelltextes gezählt worden (keine Kommandos, ohne Kommentare?). Bei Methode 3 (»Datei«) wurde der Inhalt der vollständigen .tex-Datei über die Kommandozeile gezählt (also auch Wörter der Kommandostruktur, Präambel usw.). Bei Methode 4 (»PDF«) wurde das fertige PDF wieder in eine Textdatei zerlegt und diese, wie eine Methode vorher beschrieben, gezählt. Obwohl das PDF weder Präambel noch Kommentare noch LaTeX-Kommandos enthält, ist die Wortanzahl identisch mit dem reinen Quelltext. Methode 5 (»texcount«) zeigt das wahrscheinlich verläßlichste Ergebnis an. Der Unterschied zwischen Methode »LO Writer« und »Kile« ist eigenartig. Da im Writer nur reiner Text ohne Kommandos steht, hätte ich hier eine kleinere Wortanzahl als bei der Quelltext-Zählung durch Kile erwartet. Der Unterschied ist möglicherweise Resultat dessen, daß im Kile auch die auskommentierten Bereiche nicht mitgezählt werden, beim LO Writer aber schon.
Letztendlich empfehle ich die Quellcode-Zählung mit texcount.