unit WordToText;
interface
uses
Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms,
Dialogs, StdCtrls, Buttons;
type
TForm1 = class(TForm)
Memo1: TMemo;
BitBtn1: TBitBtn;
procedure BitBtn1Click(Sender: TObject);
private
{ Private declarations }
public
{ Public declarations }
end;
Const
rus_big='АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ';
rus_small='абвгдежзийклмнопрстуфхцчшщъыьэюя';
var
Form1: TForm1;
implementation
{$R *.dfm}
procedure TForm1.BitBtn1Click(Sender: TObject);
Var fDoc:File; f:TextFile;
BChar: array[1..100000] of Char;
NumRead,i,j,k,n,fSize,Ch12Size,StartDoc,EndDoc:LongInt;
ss:AnsiString;
fName:String;
Ch,Ch1,Ch2:Array of Char;
//Определим начало тела файла
function detect_start:Integer;
Var i:Integer;
Begin
i:=-1;
While i<=Ch12Size-1 Do
Begin
INC(i);
if (Ord(Ch1[i])=$20)and(Ord(Ch2[i])=$00) Then
Begin
if (Ord(Ch2[i+1])<>$00)and(Ord(Ch2[i+1])<>$04) Then continue;
if (Ord(Ch2[i-1])<>$00)and(Ord(Ch2[i-1])<>$04) Then continue;
if (Ord(Ch2[i-1])= $00)and(Ord(Ch1[i-1])= $00) Then continue;
While(Ord(Ch1[i])+Ord(Ch2[i])<>$0)and((Ord(Ch2[i])=$0)or(Ord(Ch2[i])=$4)) Do DEC(i);
If (Ord(Ch1[i])=$FF)and(Ord(Ch2[i])=$FF) Then
Begin
Result:=Ch12Size;
Break;
End;
INC(i);
Result:=i;
Break
End;
End;
End;
//Определим конец тела файла
function detect_end:Integer;
Var sz,nullcount,ffcount:Integer;
Begin
sz:=Ch12Size; i:=StartDoc;//i должно равняться StartDoc
While i<=sz Do
Begin
INC(i);
nullcount:=0;
ffcount:=0;
while (Ord(Ch1[i])=$00)and(Ord(Ch2[i])=$00) do
Begin
INC(nullcount); INC(i); if(i>=sz) Then break;
End;
while (Ord(Ch1[i])=$FF)and(Ord(Ch2[i])=$FF) do
Begin
INC(ffcount); INC(i); if(i>=sz) Then break;
End;
if nullcount>300 Then Begin Result:=(i-nullcount); EXIT End;
if ffcount>10 Then Begin Result:=(i-ffcount); EXIT End;
End;
End;
//Начало
BEGIN
with TOpenDialog.Create(nil) do
try
Filter := 'word documents (*.doc)|*.doc';
if not Execute then Exit;
fName := FileName;
finally
Free;
end;
AssignFile(fDoc, fName);
Reset(fDoc, 1);
fSize:=FileSize(fDoc);
SetLength(Ch,fSize);
SetLength(Ch1,fSize div 2);
SetLength(Ch2,fSize div 2);
i:=0;k:=0;n:=0;
//Читаем файл в массив по 100 KBt
While i
Begin
BlockRead(fDoc, BChar, SizeOf(BChar), NumRead);
i:=i+NumRead;
For j:=1 To NumRead Do
Begin
Ch[k]:=BChar[j];
//делим массив на первый и второй байты в символьном виде
//если "к" четное то
if (k mod 2)=0 Then Ch1[n]:=Ch[k]//массив первых байтов
Else //если "к" нечетное то
Begin
Ch2[n]:=Ch[k];//массив вторых байтов
INC(n);
End;
INC(k);
End;
End;
CloseFile(fDoc);
Ch12Size:=High(Ch1);
StartDoc:= detect_start;//ориентировочно начало текста документа
EndDoc := detect_end; //ориентировочно конец текста документа
ss:=''; //сюда будем записывать текст
fORM1.Caption:='Старт='+IntToStr(StartDoc*2)+' Финиш='+IntToStr(EndDoc*2);
//Главный цикл по тексту документа
For i:=StartDoc to EndDoc Do
Begin
if Ord(Ch2[i])=$00 Then
Begin
//первая половина таблицы - латиница, цифры и знаки
If Ord(Ch1[i])=$0D Then ss:=ss+#13;
If (Ord(Ch1[i])>=$20)and(Ord(Ch1[i])<=$7F) Then ss:=ss+Ch1[i];
End;
if Ord(Ch2[i])=$04 then
Begin
//русские буквы
If (Ord(Ch1[i])>=$10)and(Ord(Ch1[i])<=$2F) Then ss:=ss+rus_big [Ord(Ch1[i])-$10+1];
if (Ord(Ch1[i])>=$30)and(Ord(Ch1[i])<=$4F) Then ss:=ss+rus_small[Ord(Ch1[i])-$30+1];
if (Ord(Ch1[i])=$01) Then ss:=ss+'Ё';
if (Ord(Ch1[i])=$51) Then ss:=ss+'ё';
//украинские буквы
if (Ord(Ch1[i])=$54) Then ss:=ss+'є';
if (Ord(Ch1[i])=$04) Then ss:=ss+'Є';
if (Ord(Ch1[i])=$56) Then ss:=ss+'і';
if (Ord(Ch1[i])=$06) Then ss:=ss+'І';
if (Ord(Ch1[i])=$57) Then ss:=ss+'ї';
if (Ord(Ch1[i])=$07) Then ss:=ss+'Ї';
End;
//Символы
if Ord(Ch2[i])=$20 then
Begin
if (Ord(Ch1[i])>=$14) Then ss:=ss+' - ';//тире;
if (Ord(Ch1[i])>=$1C) Then ss:=ss+'"'; //открыв. кавычка;
if (Ord(Ch1[i])>=$1D) Then ss:=ss+'"'; //закрыв. кавычка;
End;
End;//For i:=StartDoc to EndDoc
AssignFile(f,'out.txt');
ReWrite(f);
WriteLn(f,ss);
CloseFile(f);
Memo1.Lines.Text:=SS;
end;
end.
|